Deduplicação
Processo de detectar e remover mensagens de e-mail duplicadas de um arquivo, tipicamente comparando valores de Message-ID, para evitar redundância ao mesclar múltiplos arquivos MBOX.
Mensagens duplicadas surgem naturalmente ao gerenciar arquivos de e-mail ao longo do tempo. Por exemplo, se você executar duas exportações do Google Takeout com seis meses de diferença e combiná-las, as mensagens do período de sobreposição aparecerão em ambos os arquivos MBOX. Mesclar sem deduplicação duplica essas mensagens no arquivo combinado, prejudicando contagens de threads e relevância dos resultados de pesquisa.
A chave de deduplicação mais confiável é o cabeçalho Message-ID, que é projetado para ser globalmente único por mensagem. Duas mensagens com o mesmo Message-ID são consideradas duplicatas. Uma passagem de deduplicação sobre um conjunto de arquivos MBOX pode identificar essas colisões e pular a duplicata durante a importação ou removê-la da saída mesclada.
Os casos extremos na deduplicação incluem mensagens sem Message-IDs (comum em e-mails muito antigos ou malformados) e mensagens com Message-IDs idênticos mas conteúdo diferente (causado por software de envio com falhas). Ferramentas robustas tratam esses casos combinando o Message-ID com um hash dos cabeçalhos principais ou do corpo completo da mensagem como impressão digital secundária. O Mbox Viewer usa comparação de Message-ID ao mesclar arquivos para manter o resultado limpo.
Termos relacionados
Identificador globalmente único atribuído a cada mensagem de e-mail, especificado no cabeçalho Message-ID. É usado para rastrear mensagens, construir threads de conversa e detectar duplicatas ao mesclar arquivos.
Formato de arquivo de texto simples que armazena múltiplas mensagens de e-mail concatenadas, cada uma iniciando com uma linha separadora "From ". É o formato produzido pelo Google Takeout ao exportar seu arquivo do Gmail.