Skip to content
Mbox Viewer

Deduplicação

Processo de detectar e remover mensagens de e-mail duplicadas de um arquivo, tipicamente comparando valores de Message-ID, para evitar redundância ao mesclar múltiplos arquivos MBOX.

Mensagens duplicadas surgem naturalmente ao gerenciar arquivos de e-mail ao longo do tempo. Por exemplo, se você executar duas exportações do Google Takeout com seis meses de diferença e combiná-las, as mensagens do período de sobreposição aparecerão em ambos os arquivos MBOX. Mesclar sem deduplicação duplica essas mensagens no arquivo combinado, prejudicando contagens de threads e relevância dos resultados de pesquisa.

A chave de deduplicação mais confiável é o cabeçalho Message-ID, que é projetado para ser globalmente único por mensagem. Duas mensagens com o mesmo Message-ID são consideradas duplicatas. Uma passagem de deduplicação sobre um conjunto de arquivos MBOX pode identificar essas colisões e pular a duplicata durante a importação ou removê-la da saída mesclada.

Os casos extremos na deduplicação incluem mensagens sem Message-IDs (comum em e-mails muito antigos ou malformados) e mensagens com Message-IDs idênticos mas conteúdo diferente (causado por software de envio com falhas). Ferramentas robustas tratam esses casos combinando o Message-ID com um hash dos cabeçalhos principais ou do corpo completo da mensagem como impressão digital secundária. O Mbox Viewer usa comparação de Message-ID ao mesclar arquivos para manter o resultado limpo.

Termos relacionados

Leia seus arquivos MBOX no seu Mac