Charset
텍스트 파트의 바이트가 읽기 가능한 문자로 매핑되는 방식을 지정하는 문자 인코딩입니다. 일반적인 문자셋에는 UTF-8, ISO-8859-1, Shift_JIS가 있으며, 불일치는 모지바케라고 알려진 깨진 텍스트를 유발합니다.
이메일의 모든 텍스트 파트에는 바이트 값을 문자로 매핑하는 규칙인 문자 인코딩이 있습니다. 문자셋은 Content-Type 헤더에 선언됩니다. 예를 들어: Content-Type: text/plain; charset="UTF-8". UTF-8은 유니코드의 모든 문자를 표현할 수 있기 때문에 오늘날 지배적인 인코딩이지만, 오래된 메시지는 ISO-8859-1(서유럽), ISO-2022-JP(일본어), GB2312(중국어 간체), Windows-1252 같은 지역별 인코딩을 사용할 수 있습니다.
이메일이 잘못된 문자셋으로 표시되면 기본 ASCII 범위 밖의 문자가 의미없는 기호로 렌더링됩니다. 이 현상은 일본어로 대략 "문자 변환"을 의미하는 모지바케라고 합니다. 이는 메시지가 하나의 문자셋을 선언하지만 리더가 다른 것을 사용하거나, 문자셋이 선언되지 않아 리더가 잘못 추측할 때 발생합니다.
Mbox Viewer는 MIME 헤더에서 문자셋 선언을 감지하고 각 메시지 파트에 올바른 디코더를 적용합니다. 문자셋 선언이 생략된 메시지의 경우 앱은 바이트 패턴에서 인코딩을 식별하기 위해 휴리스틱 감지를 적용하여, 오래되거나 비표준 클라이언트의 메일을 포함하는 아카이브에서 모지바케를 줄입니다.