Deduplicatie
Het opsporen en verwijderen van dubbele e-mailberichten uit een archief, doorgaans door Message-ID-waarden te vergelijken, om redundantie te voorkomen bij het samenvoegen van meerdere MBOX-bestanden.
Dubbele berichten ontstaan vanzelf bij het beheren van e-mailarchieven in de loop der tijd. Als je bijvoorbeeld twee Google Takeout-exports van zes maanden tussentijd combineert, verschijnen berichten uit de overlappende periode in beide MBOX-bestanden. Samenvoegen zonder deduplicatie verdubbelt die berichten in het gecombineerde archief, waardoor threadtellingen en relevantie van zoekresultaten worden verstoord.
De meest betrouwbare deduplicatiesleutel is de Message-ID-koptekst, die is ontworpen om wereldwijd uniek te zijn per bericht. Twee berichten met dezelfde Message-ID worden als duplicaten beschouwd. Een deduplicatiepass over een reeks MBOX-bestanden kan deze conflicten identificeren en het duplicaat overslaan tijdens import of verwijderen uit de samengevoegde uitvoer.
Randgevallen bij deduplicatie zijn berichten zonder Message-ID (gebruikelijk in zeer oude of misvormde mail) en berichten met identieke Message-ID's maar verschillende inhoud (veroorzaakt door foutieve verzendsoftware). Robuuste tools verwerken dit door Message-ID te combineren met een hash van de belangrijkste kopteksten of de volledige berichttekst als secundaire vingerafdruk. Mbox Viewer gebruikt vergelijking van Message-ID's bij het samenvoegen van archieven om het resultaat overzichtelijk te houden.
Verwante begrippen
Een wereldwijd unieke identificatie die aan elk e-mailbericht wordt toegewezen, opgegeven in de Message-ID-koptekst. Het wordt gebruikt om berichten te traceren, gespreksthreads op te bouwen en duplicaten te detecteren bij het samenvoegen van archieven.
Een tekstbestand dat meerdere e-mailberichten achter elkaar opslaat, elk beginnend met een scheidingsregel "From ". Dit is het formaat dat Google Takeout produceert bij het exporteren van je Gmail-archief.