Skip to content
Mbox Viewer

Charset

L'encodage de caractères qui spécifie comment les octets d'une partie texte sont mappés sur des caractères lisibles. Les jeux de caractères courants incluent UTF-8, ISO-8859-1 et Shift_JIS ; une incompatibilité provoque du texte illisible connu sous le nom de mojibake.

Chaque partie textuelle d'un courriel a un encodage de caractères — une règle qui mappe des valeurs d'octets sur des caractères. Le jeu de caractères est déclaré dans l'en-tête Content-Type, par exemple : Content-Type: text/plain; charset="UTF-8". UTF-8 est l'encodage dominant aujourd'hui car il peut représenter tous les caractères Unicode, mais les anciens messages peuvent utiliser des encodages régionaux tels qu'ISO-8859-1 (Europe occidentale), ISO-2022-JP (japonais), GB2312 (chinois simplifié) ou Windows-1252.

Lorsqu'un courriel est affiché avec le mauvais jeu de caractères, les caractères en dehors de la plage ASCII de base sont rendus sous forme de symboles sans signification — un phénomène connu sous le nom de mojibake (du japonais, grossièrement « transformation de caractères »). Cela se produit lorsqu'un message déclare un jeu de caractères mais que le lecteur en utilise un autre, ou lorsqu'aucun jeu de caractères n'est déclaré et que le lecteur devine incorrectement.

Mbox Viewer détecte la déclaration de jeu de caractères dans les en-têtes MIME et applique le décodeur approprié pour chaque partie de message. Pour les messages qui omettent une déclaration de jeu de caractères, l'application applique une détection heuristique pour identifier l'encodage à partir des motifs d'octets, réduisant le mojibake dans les archives contenant du courrier de clients anciens ou non standard.

Termes liés

Lisez vos fichiers MBOX sur votre Mac