Skip to content
Mbox Viewer

Deduplicación

Proceso de detección y eliminación de mensajes de correo duplicados en un archivo, típicamente comparando los valores de Message-ID, para evitar redundancias al fusionar varios archivos MBOX.

Los mensajes duplicados surgen de forma natural al gestionar archivos de correo a lo largo del tiempo. Por ejemplo, si se ejecutan dos exportaciones de Google Takeout con seis meses de diferencia y se combinan, los mensajes del período de solapamiento aparecerán en ambos archivos MBOX. Fusionarlos sin deduplicación duplica esos mensajes en el archivo combinado, distorsionando los recuentos de hilos y la relevancia de los resultados de búsqueda.

La clave de deduplicación más fiable es la cabecera Message-ID, diseñada para ser globalmente única por mensaje. Dos mensajes con el mismo Message-ID se consideran duplicados. Un proceso de deduplicación sobre un conjunto de archivos MBOX puede identificar estas colisiones y omitir el duplicado durante la importación o eliminarlo de la salida fusionada.

Los casos extremos en la deduplicación incluyen mensajes sin Message-ID (habitual en correo muy antiguo o malformado) y mensajes con Message-IDs idénticos pero contenido diferente (causados por software de envío defectuoso). Las herramientas robustas los gestionan combinando el Message-ID con un hash de las cabeceras clave o del cuerpo completo del mensaje como huella digital secundaria. Mbox Viewer usa la comparación de Message-ID al fusionar archivos para mantener el resultado limpio.

Términos relacionados

Lee tus archivos MBOX en tu Mac