Skip to content
Mbox Viewer

Deduplicatie

Het opsporen en verwijderen van dubbele e-mailberichten uit een archief, doorgaans door Message-ID-waarden te vergelijken, om redundantie te voorkomen bij het samenvoegen van meerdere MBOX-bestanden.

Dubbele berichten ontstaan vanzelf bij het beheren van e-mailarchieven in de loop der tijd. Als je bijvoorbeeld twee Google Takeout-exports van zes maanden tussentijd combineert, verschijnen berichten uit de overlappende periode in beide MBOX-bestanden. Samenvoegen zonder deduplicatie verdubbelt die berichten in het gecombineerde archief, waardoor threadtellingen en relevantie van zoekresultaten worden verstoord.

De meest betrouwbare deduplicatiesleutel is de Message-ID-koptekst, die is ontworpen om wereldwijd uniek te zijn per bericht. Twee berichten met dezelfde Message-ID worden als duplicaten beschouwd. Een deduplicatiepass over een reeks MBOX-bestanden kan deze conflicten identificeren en het duplicaat overslaan tijdens import of verwijderen uit de samengevoegde uitvoer.

Randgevallen bij deduplicatie zijn berichten zonder Message-ID (gebruikelijk in zeer oude of misvormde mail) en berichten met identieke Message-ID's maar verschillende inhoud (veroorzaakt door foutieve verzendsoftware). Robuuste tools verwerken dit door Message-ID te combineren met een hash van de belangrijkste kopteksten of de volledige berichttekst als secundaire vingerafdruk. Mbox Viewer gebruikt vergelijking van Message-ID's bij het samenvoegen van archieven om het resultaat overzichtelijk te houden.

Verwante begrippen

Lees je MBOX-bestanden op je Mac