Skip to content
Mbox Viewer

Deduplizierung

Der Prozess des Erkennens und Entfernens doppelter E-Mail-Nachrichten aus einem Archiv, typischerweise durch Vergleich von Message-ID-Werten, um Redundanz beim Zusammenführen mehrerer MBOX-Dateien zu vermeiden.

Doppelte Nachrichten entstehen auf natürliche Weise bei der Verwaltung von E-Mail-Archiven im Laufe der Zeit. Führt man beispielsweise zwei Google-Takeout-Exporte im Abstand von sechs Monaten durch und kombiniert sie, erscheinen Nachrichten aus dem überlappenden Zeitraum in beiden MBOX-Dateien. Ein Zusammenführen ohne Deduplizierung verdoppelt diese Nachrichten im kombinierten Archiv und beeinträchtigt Thread-Zählungen sowie die Relevanz der Suchergebnisse.

Der zuverlässigste Deduplizierungsschlüssel ist der Message-ID-Header, der darauf ausgelegt ist, pro Nachricht global eindeutig zu sein. Zwei Nachrichten mit derselben Message-ID gelten als Duplikate. Ein Deduplizierungsdurchlauf über eine Gruppe von MBOX-Dateien kann diese Kollisionen erkennen und das Duplikat entweder beim Import überspringen oder aus der zusammengeführten Ausgabe entfernen.

Sonderfälle bei der Deduplizierung umfassen Nachrichten ohne Message-ID (bei sehr alten oder fehlerhaften E-Mails) und Nachrichten mit identischen Message-IDs, aber unterschiedlichem Inhalt (durch fehlerhafte Sendesoftware). Robuste Werkzeuge behandeln diese Fälle, indem sie Message-ID mit einem Hash der wichtigsten Kopfzeilen oder des vollständigen Nachrichtentextes als sekundären Fingerabdruck kombinieren. Mbox Viewer verwendet den Message-ID-Vergleich beim Zusammenführen von Archiven, um das Ergebnis sauber zu halten.

Verwandte Begriffe

Lies deine MBOX-Dateien auf dem Mac