Glossario
Glossario email e MBOX
Termini chiave degli archivi email, formati, protocolli e struttura di un messaggio — ognuno con la propria pagina, spiegato in linguaggio semplice.
Formati di file
Un formato di file in testo normale che memorizza più messaggi e-mail concatenati, ognuno preceduto da una riga separatrice "From ". È il formato prodotto da Google Takeout quando si esporta l'archivio Gmail.
Un file a messaggio singolo in formato MIME, contenente intestazioni, corpo e allegati. I file EML sono ampiamente supportati dai client di posta elettronica e sono utili per archiviare o condividere singoli messaggi.
Il formato binario proprietario di Microsoft Outlook per un singolo messaggio e-mail, che memorizza intestazioni, corpo e allegati in una struttura Compound Document. A differenza di EML, MSG non è uno standard aperto.
Personal Storage Table — il file contenitore di Microsoft Outlook per un'intera casella di posta, incluse cartelle, messaggi, contatti e appuntamenti del calendario. Noto anche come OST quando viene usato per la sincronizzazione offline con Exchange o Microsoft 365.
Un formato di casella di posta che memorizza ogni messaggio e-mail come file separato all'interno di una gerarchia di directory, invece di concatenare tutti i messaggi in un unico file come MBOX.
Protocolli e servizi
Internet Message Access Protocol — il protocollo standard per accedere alla posta elettronica archiviata su un server, mantenendo i messaggi sincronizzati su più dispositivi senza scaricarli ed eliminarli.
Post Office Protocol 3 — un vecchio protocollo di recupero della posta che scarica i messaggi da un server a un dispositivo locale, tipicamente rimuovendoli dal server in seguito.
Simple Mail Transfer Protocol — il protocollo standard usato per inviare e instradare messaggi e-mail tra server di posta. Viene utilizzato solo per la posta in uscita; la lettura della posta richiede IMAP o POP3.
Il servizio ufficiale di Google per esportare i dati personali, inclusa Gmail. Per la posta elettronica, produce uno o più file MBOX contenenti tutti i messaggi e le etichette Gmail.
Il sistema di tagging di Gmail che assegna una o più etichette a ciascun messaggio, svolgendo il ruolo che le cartelle hanno nei client di posta tradizionali. Un singolo messaggio può portare più etichette contemporaneamente.
Struttura del messaggio
Il blocco di metadati strutturati all'inizio di un messaggio e-mail, contenente campi come From, To, Subject, Date e numerosi campi tecnici che descrivono come il messaggio è stato composto, instradato e codificato.
Multipurpose Internet Mail Extensions — lo standard che definisce come i messaggi e-mail codificano testo non ASCII, corpi HTML, allegati e altri contenuti binari all'interno della struttura in testo normale della posta elettronica.
Una struttura di messaggio MIME che combina più parti di contenuto — come testo normale, HTML e allegati — in un unico messaggio, ciascuna separata da una stringa boundary univoca.
Un identificatore univoco globale assegnato a ciascun messaggio e-mail, specificato nell'intestazione Message-ID. Viene usato per tracciare i messaggi, costruire thread di conversazione e rilevare duplicati durante l'unione di archivi.
Intestazioni e-mail (In-Reply-To e References) che collegano una risposta al messaggio a cui risponde, consentendo ai client di posta e agli strumenti di archiviazione di raggruppare i messaggi correlati in thread di conversazione.
I metadati di consegna usati dai server SMTP per instradare un messaggio e-mail — in particolare il mittente della busta (MAIL FROM) e i destinatari della busta (RCPT TO) — che possono differire dalle intestazioni From e To visibili.
Un file — come un PDF, un'immagine o un foglio di calcolo — incorporato in un messaggio e-mail e codificato come parte MIME, separato dal corpo del messaggio, destinato al destinatario per il salvataggio o l'apertura.
Un'immagine incorporata direttamente nel corpo di un'e-mail HTML usando un riferimento Content-ID (cid:), anziché allegata come file scaricabile separato. I dati dell'immagine sono memorizzati come parte MIME all'interno dello stesso messaggio.
Codifica e set di caratteri
La codifica dei caratteri che specifica come i byte di una parte di testo vengono mappati in caratteri leggibili. I charset comuni includono UTF-8, ISO-8859-1 e Shift_JIS; una mancata corrispondenza causa testo distorto noto come mojibake.
Uno schema di codifica da binario a testo che rappresenta dati binari arbitrari usando solo 64 caratteri ASCII stampabili, ampiamente usato nelle e-mail per trasmettere in modo sicuro allegati e contenuti binari.
Una codifica di trasferimento MIME che rappresenta testo con caratteri per lo più ASCII, effettuando l'escape dei byte non ASCII come sequenze esadecimali =XX. Mantiene la maggior parte del testo leggibile dall'uomo nel sorgente raw del messaggio.
Uno schema di codifica definito nell'RFC 2047 ("Encoded-Word") che consente caratteri non ASCII nei campi di intestazione delle e-mail come Subject e From, codificandoli come token =?charset?codifica?testo?=.
Concetti e funzionalità
Il processo di raggruppamento dei messaggi e-mail correlati in conversazioni seguendo i collegamenti delle intestazioni In-Reply-To e References, tipicamente usando l'algoritmo JWZ che supporta fino a quattro livelli di annidamento.
Il processo di rilevamento e rimozione dei messaggi e-mail duplicati da un archivio, tipicamente confrontando i valori Message-ID, per evitare ridondanza durante l'unione di più file MBOX.
Una tecnica di analisi che legge un file in modo incrementale a piccoli blocchi invece di caricare l'intero file in memoria in una volta sola, consentendo agli strumenti di aprire e indicizzare file MBOX molto grandi — decine o centinaia di gigabyte — con un basso utilizzo della memoria.
Un file indice compatto che Mbox Viewer scrive accanto a un archivio MBOX dopo la prima analisi, memorizzando gli offset in byte dei messaggi e i metadati per consentire riaperture quasi istantanee senza riscansionare l'intero file.
Un messaggio e-mail il cui corpo è formattato con HTML e CSS, che consente tipografia, layout, colori e immagini ricchi. La maggior parte delle e-mail moderne è in HTML, ma la privacy e la sicurezza richiedono un rendering attento.
Un bundle di applicazione macOS che contiene codice compilato nativo sia per Apple Silicon (ARM64) che per Intel (x86_64), eseguendosi nativamente su entrambi i processori senza emulazione.
App Sandbox è una funzionalità di sicurezza di macOS che limita l'accesso di un'applicazione alle risorse di sistema, ai file e alle connessioni di rete, limitando il potenziale impatto se l'app o le sue dipendenze hanno una vulnerabilità.