Skip to content
Mbox Viewer

Charset

テキストパートのバイトを読める文字にマッピングする方法を指定する文字エンコーディングです。一般的な文字セットには UTF-8、ISO-8859-1、Shift_JIS などがあり、不一致は文字化けと呼ばれる乱れたテキストを引き起こします。

メールのすべてのテキストパートには文字エンコーディングがあります—バイト値を文字にマッピングするルールです。文字セットは Content-Type ヘッダーで宣言されます(例:Content-Type: text/plain; charset="UTF-8")。UTF-8 は Unicode のすべての文字を表現できるため今日主流のエンコーディングですが、古いメッセージでは ISO-8859-1(西欧)、ISO-2022-JP(日本語)、GB2312(簡体字中国語)、Windows-1252 などの地域エンコーディングが使用されている場合があります。

メールが誤った文字セットで表示されると、基本 ASCII 範囲外の文字が意味不明な記号として表示されます—これは文字化けと呼ばれる現象です(日本語で「文字の変化」を意味します)。これはメッセージが一つの文字セットを宣言しているのに読者が別のものを使用する場合、または文字セットが宣言されておらず読者が誤って推測した場合に起こります。

Mbox Viewer は MIME ヘッダーから文字セット宣言を検出し、各メッセージパートに正しいデコーダーを適用します。文字セット宣言が省略されているメッセージに対しては、バイトパターンからエンコーディングを識別するヒューリスティック検出を適用し、古いまたは非標準のクライアントからのメールを含むアーカイブでの文字化けを減らします。

関連用語

Mac で MBOX ファイルを開く