Deduplicazione
Il processo di rilevamento e rimozione dei messaggi e-mail duplicati da un archivio, tipicamente confrontando i valori Message-ID, per evitare ridondanza durante l'unione di più file MBOX.
I messaggi duplicati emergono naturalmente quando si gestiscono archivi e-mail nel tempo. Ad esempio, se si eseguono due esportazioni Google Takeout a sei mesi di distanza e le si combinano, i messaggi del periodo sovrapposto appariranno in entrambi i file MBOX. L'unione senza deduplicazione raddoppia quei messaggi nell'archivio combinato, alterando i conteggi dei thread e la rilevanza dei risultati di ricerca.
La chiave di deduplicazione più affidabile è l'intestazione Message-ID, progettata per essere univoca globalmente per messaggio. Due messaggi con lo stesso Message-ID sono considerati duplicati. Un passaggio di deduplicazione su un insieme di file MBOX può identificare queste collisioni e saltare il duplicato durante l'importazione o rimuoverlo dall'output unito.
I casi limite nella deduplicazione includono messaggi con Message-ID mancanti (comuni nella posta molto vecchia o malformata) e messaggi con Message-ID identici ma contenuto diverso (causati da software di invio difettoso). Gli strumenti robusti gestiscono questi casi combinando Message-ID con un hash delle intestazioni chiave o del corpo completo del messaggio come impronta digitale secondaria. Mbox Viewer usa il confronto Message-ID quando unisce gli archivi per mantenere il risultato pulito.
Termini correlati
Un identificatore univoco globale assegnato a ciascun messaggio e-mail, specificato nell'intestazione Message-ID. Viene usato per tracciare i messaggi, costruire thread di conversazione e rilevare duplicati durante l'unione di archivi.
Un formato di file in testo normale che memorizza più messaggi e-mail concatenati, ognuno preceduto da una riga separatrice "From ". È il formato prodotto da Google Takeout quando si esporta l'archivio Gmail.