Déduplication
Le processus de détection et de suppression des messages électroniques en double dans une archive, généralement en comparant les valeurs Message-ID, afin d'éviter la redondance lors de la fusion de plusieurs fichiers MBOX.
Les messages en double apparaissent naturellement lors de la gestion d'archives de courrier électronique dans le temps. Par exemple, si vous effectuez deux exports Google Takeout à six mois d'intervalle et les combinez, les messages de la période de chevauchement apparaîtront dans les deux fichiers MBOX. La fusion sans déduplication double ces messages dans l'archive combinée, faussant le nombre de fils de discussion et la pertinence des résultats de recherche.
La clé de déduplication la plus fiable est l'en-tête Message-ID, conçu pour être globalement unique par message. Deux messages ayant le même Message-ID sont considérés comme des doublons. Une passe de déduplication sur un ensemble de fichiers MBOX peut identifier ces collisions et soit ignorer le doublon lors de l'importation, soit le supprimer de la sortie fusionnée.
Les cas particuliers de déduplication incluent les messages sans Message-ID (courant dans les très anciens messages ou les courriers malformés) et les messages avec des Message-ID identiques mais un contenu différent (causés par un logiciel d'envoi défectueux). Des outils robustes gèrent ces cas en combinant le Message-ID avec un hachage des en-têtes clés ou du corps complet du message comme empreinte secondaire. Mbox Viewer utilise la comparaison de Message-ID lors de la fusion d'archives pour maintenir un résultat propre.
Termes liés
Un identifiant globalement unique attribué à chaque message électronique, spécifié dans l'en-tête Message-ID. Il est utilisé pour suivre les messages, construire des fils de conversation et détecter les doublons lors de la fusion d'archives.
Un format de fichier en texte brut qui stocke plusieurs messages électroniques concaténés, chacun commençant par une ligne de séparation « From ». C'est le format produit par Google Takeout lors de l'export d'une archive Gmail.