Skip to content
Mbox Viewer

Deduplication

여러 MBOX 파일을 병합할 때 중복성을 피하기 위해 일반적으로 Message-ID 값을 비교하여 아카이브에서 중복 이메일 메시지를 감지하고 제거하는 프로세스입니다.

중복 메시지는 시간이 지남에 따라 이메일 아카이브를 관리할 때 자연스럽게 발생합니다. 예를 들어 6개월 간격으로 두 번의 Google Takeout 내보내기를 실행하고 이를 합치면, 겹치는 기간의 메시지가 두 MBOX 파일 모두에 나타납니다. 중복 제거 없이 병합하면 결합된 아카이브에서 해당 메시지가 두 배가 되어 스레드 수와 검색 결과 관련성이 깨집니다.

가장 신뢰할 수 있는 중복 제거 키는 메시지별로 전 세계적으로 고유하도록 설계된 Message-ID 헤더입니다. 동일한 Message-ID를 가진 두 메시지는 중복으로 간주됩니다. MBOX 파일 세트에 대한 중복 제거 패스는 이러한 충돌을 식별하여 가져오기 중 중복을 건너뛰거나 병합된 출력에서 제거할 수 있습니다.

중복 제거의 엣지 케이스에는 Message-ID가 없는 메시지(매우 오래되거나 형식이 잘못된 메일에서 일반적)와 동일한 Message-ID를 가지지만 내용이 다른 메시지(버그 있는 발송 소프트웨어로 인해 발생)가 포함됩니다. 견고한 도구는 Message-ID를 키 헤더의 해시나 보조 지문으로 사용하는 전체 메시지 본문과 결합하여 이러한 경우를 처리합니다. Mbox Viewer는 아카이브를 병합할 때 Message-ID 비교를 사용하여 결과를 깔끔하게 유지합니다.

관련 용어

Mac에서 MBOX 파일을 읽어보세요