Skip to content
Mbox Viewer

Deduplikacja

Proces wykrywania i usuwania zduplikowanych wiadomości e-mail z archiwum, zazwyczaj poprzez porównywanie wartości Message-ID, aby uniknąć redundancji przy łączeniu wielu plików MBOX.

Zduplikowane wiadomości powstają naturalnie podczas zarządzania archiwami poczty e-mail w czasie. Na przykład, jeśli uruchomisz dwa eksporty Google Takeout w odstępie sześciu miesięcy i je połączysz, wiadomości z okresu nakładającego się pojawią się w obu plikach MBOX. Scalanie bez deduplikacji podwaja te wiadomości w połączonym archiwum, zaburzając liczby wątków i trafność wyników wyszukiwania.

Najbardziej niezawodnym kluczem deduplikacji jest nagłówek Message-ID, który jest zaprojektowany tak, aby był globalnie unikalny dla każdej wiadomości. Dwie wiadomości z tym samym Message-ID są uważane za duplikaty. Przebieg deduplikacji przez zestaw plików MBOX może identyfikować te kolizje i pomijać duplikat podczas importu lub usuwać go z połączonego wyjścia.

Przypadki brzegowe w deduplikacji obejmują wiadomości z brakującymi Message-ID (częste w bardzo starych lub zniekształconych wiadomościach) oraz wiadomości z identycznymi Message-ID, ale różną treścią (spowodowane błędnym oprogramowaniem wysyłającym). Solidne narzędzia obsługują je, łącząc Message-ID z hashem kluczowych nagłówków lub pełnej treści wiadomości jako dodatkowego odcisku palca. Mbox Viewer używa porównywania Message-ID podczas łączenia archiwów, aby zachować czysty wynik.

Powiązane pojęcia

Czytaj swoje pliki MBOX na Macu