Conjunto de caracteres
A codificação de caracteres que especifica como os bytes em uma parte de texto são mapeados para caracteres legíveis. Conjuntos de caracteres comuns incluem UTF-8, ISO-8859-1 e Shift_JIS; uma incompatibilidade causa texto ilegível conhecido como mojibake.
Cada parte de texto de um e-mail tem uma codificação de caracteres — uma regra que mapeia valores de bytes para caracteres. O charset é declarado no cabeçalho Content-Type, por exemplo: Content-Type: text/plain; charset="UTF-8". O UTF-8 é a codificação dominante hoje porque pode representar todos os caracteres do Unicode, mas mensagens mais antigas podem usar codificações regionais como ISO-8859-1 (Europa Ocidental), ISO-2022-JP (japonês), GB2312 (chinês simplificado) ou Windows-1252.
Quando um e-mail é exibido com o charset errado, os caracteres fora do intervalo ASCII básico são renderizados como símbolos sem sentido — um fenômeno conhecido como mojibake (do japonês, aproximadamente "transformação de caracteres"). Isso acontece quando uma mensagem declara um charset mas o leitor usa outro, ou quando nenhum charset é declarado e o leitor adivinha incorretamente.
O Mbox Viewer detecta a declaração de charset nos cabeçalhos MIME e aplica o decodificador correto para cada parte da mensagem. Para mensagens que omitem uma declaração de charset, o aplicativo aplica detecção heurística para identificar a codificação a partir dos padrões de bytes, reduzindo o mojibake em arquivos que contêm e-mail de clientes mais antigos ou não padrão.
Termos relacionados
Esquema de codificação definido na RFC 2047 ("Encoded-Word") que permite caracteres não-ASCII em campos de cabeçalho de e-mail como Assunto e De, codificando-os como tokens =?charset?codificação?texto?=.
Multipurpose Internet Mail Extensions — padrão que define como as mensagens de e-mail codificam texto não-ASCII, corpos HTML, anexos e outros conteúdos binários dentro da estrutura de texto simples do e-mail.