Message-ID
Globalnie unikalny identyfikator przypisany do każdej wiadomości e-mail, określony w nagłówku Message-ID. Jest używany do śledzenia wiadomości, budowania wątków rozmów i wykrywania duplikatów przy łączeniu archiwów.
Nagłówek Message-ID (RFC 5322 sekcja 3.6.4) zawiera ciąg, który ma być unikalny we wszystkich kiedykolwiek wysłanych wiadomościach e-mail, zazwyczaj sformatowany jako ciąg lokalny@domena, taki jak <CABcde12345@mail.gmail.com>. Wysyłający serwer pocztowy generuje ten identyfikator w momencie transmisji. Odpowiedzi zawierają Message-ID oryginalnej wiadomości w swoich nagłówkach In-Reply-To i References, aby połączyć rozmowę.
Message-ID jest kluczem głównym używanym przez algorytmy wątkowania do rekonstrukcji rozmów. Jest również używany podczas deduplikacji: gdy łączymy dwa pliki MBOX, które mogą się nakładać — na przykład dwa eksporty Google Takeout z różnych dat — porównywanie Message-ID pozwala aplikacji identyfikować i pomijać wiadomości, które już istnieją w docelowym archiwum.
W rzadkich przypadkach Message-ID może być brakujący (w bardzo starych wiadomościach) lub zduplikowany (z powodu błędnego oprogramowania wysyłającego). Solidne narzędzie archiwizacyjne obsługuje te przypadki brzegowe, cofając się do heurystycznego dopasowania na innych nagłówkach, takich jak Date, From i Subject, gdy Message-ID jest nieobecny lub zawodny.
Powiązane pojęcia
Nagłówki e-mail (In-Reply-To i References) łączące odpowiedź z wiadomością, na którą odpowiada, umożliwiające klientom pocztowym i narzędziom archiwizacyjnym grupowanie powiązanych wiadomości w wątki rozmów.
Proces wykrywania i usuwania zduplikowanych wiadomości e-mail z archiwum, zazwyczaj poprzez porównywanie wartości Message-ID, aby uniknąć redundancji przy łączeniu wielu plików MBOX.
Proces grupowania powiązanych wiadomości e-mail w rozmowy poprzez śledzenie powiązań nagłówkowych In-Reply-To i References, zazwyczaj przy użyciu algorytmu JWZ obsługującego do czterech poziomów zagnieżdżenia.