Skip to content
Mbox Viewer

Zeichenkodierung

Die Zeichenkodierung, die festlegt, wie Bytes in einem Textteil auf lesbare Zeichen abgebildet werden. Gängige Zeichensätze sind UTF-8, ISO-8859-1 und Shift_JIS; ein Missmatch verursacht unlesbaren Text, der als Mojibake bekannt ist.

Jeder Textteil einer E-Mail hat eine Zeichenkodierung – eine Regel, die Bytewerte auf Zeichen abbildet. Der Zeichensatz wird im Content-Type-Header deklariert, z. B.: Content-Type: text/plain; charset="UTF-8". UTF-8 ist heute die dominierende Kodierung, da sie jedes Unicode-Zeichen darstellen kann, aber ältere Nachrichten können regionale Kodierungen wie ISO-8859-1 (Westeuropäisch), ISO-2022-JP (Japanisch), GB2312 (Vereinfachtes Chinesisch) oder Windows-1252 verwenden.

Wenn eine E-Mail mit dem falschen Zeichensatz angezeigt wird, werden Zeichen außerhalb des grundlegenden ASCII-Bereichs als unsinnige Symbole dargestellt – ein Phänomen, das als Mojibake bekannt ist (aus dem Japanischen, ungefähr „Zeichenverwandlung“). Dies geschieht, wenn eine Nachricht einen Zeichensatz deklariert, der Leser aber einen anderen verwendet, oder wenn kein Zeichensatz deklariert ist und der Leser falsch rät.

Mbox Viewer erkennt die Zeichensatz-Deklaration aus den MIME-Kopfzeilen und wendet den korrekten Decoder für jeden Nachrichtenteil an. Bei Nachrichten, die keine Zeichensatz-Deklaration enthalten, wendet die App eine heuristische Erkennung an, um die Kodierung anhand der Byte-Muster zu identifizieren, und reduziert so Mojibake in Archiven mit E-Mails älterer oder nicht standardkonformer Clients.

Verwandte Begriffe

Lies deine MBOX-Dateien auf dem Mac