Słownik

Słownik e-mail i MBOX

Kluczowe pojęcia dotyczące archiwów e-mail, formatów, protokołów i struktury wiadomości — każde z własną stroną, wyjaśnione prostym językiem.

Formaty plików

MBOX

Format pliku tekstowego przechowujący wiele wiadomości e-mail połączonych w jeden plik, z każdą wiadomością poprzedzoną linią separatora "From ". Jest to format generowany przez Google Takeout podczas eksportu archiwum Gmail.

EML

Plik jednej wiadomości w formacie MIME, zawierający nagłówki, treść i załączniki. Pliki EML są szeroko obsługiwane przez klienty pocztowe i przydatne do archiwizowania lub udostępniania pojedynczych wiadomości.

MSG

Zastrzeżony format binarny Microsoft Outlook dla pojedynczej wiadomości e-mail, przechowujący nagłówki, treść i załączniki w strukturze Compound Document. W przeciwieństwie do EML, MSG nie jest otwartym standardem.

PST OST

Personal Storage Table — plik kontenera Microsoft Outlook dla całej skrzynki pocztowej, obejmujący foldery, wiadomości, kontakty i elementy kalendarza. Znany również jako OST w przypadku synchronizacji offline z Exchange lub Microsoft 365.

Maildir

Format skrzynki pocztowej przechowujący każdą wiadomość e-mail jako osobny plik w hierarchii katalogów, zamiast łączyć wszystkie wiadomości w jeden plik jak MBOX.

Protokoły i usługi

IMAP

Internet Message Access Protocol — standardowy protokół dostępu do poczty elektronicznej przechowywanej na serwerze, utrzymujący synchronizację wiadomości na wielu urządzeniach bez pobierania i usuwania ich.

POP3

Post Office Protocol 3 — starszy protokół pobierania poczty, który pobiera wiadomości z serwera na lokalne urządzenie, zazwyczaj usuwając je następnie z serwera.

SMTP

Simple Mail Transfer Protocol — standardowy protokół do wysyłania i przekazywania wiadomości e-mail między serwerami pocztowymi. Jest używany tylko do poczty wychodzącej; do odczytywania poczty wymagany jest IMAP lub POP3.

Google Takeout

Oficjalna usługa Google do eksportowania danych osobowych, w tym Gmaila. Dla poczty e-mail generuje jeden lub więcej plików MBOX zawierających wszystkie wiadomości i etykiety Gmail.

Gmail labels labels

System tagowania Gmail przypisujący jedną lub więcej etykiet do każdej wiadomości, pełniący rolę, jaką foldery odgrywają w tradycyjnych klientach pocztowych. Jedna wiadomość może jednocześnie nosić wiele etykiet.

Struktura wiadomości

Nagłówek

Blok metadanych na początku wiadomości e-mail, zawierający pola takie jak From, To, Subject, Date oraz liczne pola techniczne opisujące sposób kompozycji, trasowania i kodowania wiadomości.

MIME

Multipurpose Internet Mail Extensions — standard definiujący sposób kodowania w wiadomościach e-mail tekstu nie-ASCII, treści HTML, załączników i innej zawartości binarnej w ramach tekstowej struktury poczty.

Wieloczęściowy boundary

Struktura wiadomości MIME łącząca wiele części treści — takich jak zwykły tekst, HTML i załączniki — w jednej wiadomości, oddzielonych unikalnym ciągiem ogranicznika.

Message-ID

Globalnie unikalny identyfikator przypisany do każdej wiadomości e-mail, określony w nagłówku Message-ID. Jest używany do śledzenia wiadomości, budowania wątków rozmów i wykrywania duplikatów przy łączeniu archiwów.

In-Reply-To / References

Nagłówki e-mail (In-Reply-To i References) łączące odpowiedź z wiadomością, na którą odpowiada, umożliwiające klientom pocztowym i narzędziom archiwizacyjnym grupowanie powiązanych wiadomości w wątki rozmów.

Koperta

Metadane dostarczania używane przez serwery SMTP do trasowania wiadomości e-mail — konkretnie nadawca koperty (MAIL FROM) i odbiorcy koperty (RCPT TO) — które mogą różnić się od widocznych nagłówków From i To.

Załącznik

Plik — taki jak PDF, obraz lub arkusz kalkulacyjny — osadzony w wiadomości e-mail i zakodowany jako część MIME, oddzielny od treści wiadomości, przeznaczony do zapisania lub otwarcia przez odbiorcę.

Obraz osadzony CID

Obraz osadzony bezpośrednio w treści wiadomości HTML za pomocą odniesienia Content-ID (cid:), zamiast dołączonego jako osobny plik do pobrania. Dane obrazu są przechowywane jako część MIME w tej samej wiadomości.

Kodowanie i zestawy znaków

Zestaw znaków

Kodowanie znaków określające sposób mapowania bajtów w części tekstowej na czytelne znaki. Popularne zestawy znaków to UTF-8, ISO-8859-1 i Shift_JIS; niezgodność powoduje zniekształcony tekst znany jako mojibake.

Base64

Schemat kodowania binarno-tekstowego reprezentujący dowolne dane binarne przy użyciu tylko 64 drukowalnych znaków ASCII, szeroko stosowany w poczcie e-mail do bezpiecznego przesyłania załączników i zawartości binarnej.

Quoted-printable

Kodowanie transferu MIME reprezentujące tekst składający się głównie ze znaków ASCII, uciekające bajty nie-ASCII jako sekwencje hex =XX. Zachowuje większość tekstu czytelną dla człowieka w źródle surowej wiadomości.

Encoded-word (RFC 2047) RFC 2047

Schemat kodowania zdefiniowany w RFC 2047 ("Encoded-Word"), który pozwala na znaki nie-ASCII w polach nagłówkowych wiadomości e-mail, takich jak Subject i From, kodując je jako tokeny =?charset?kodowanie?tekst?=.

Koncepcje i funkcje

Wątkowanie

Proces grupowania powiązanych wiadomości e-mail w rozmowy poprzez śledzenie powiązań nagłówkowych In-Reply-To i References, zazwyczaj przy użyciu algorytmu JWZ obsługującego do czterech poziomów zagnieżdżenia.

Deduplikacja

Proces wykrywania i usuwania zduplikowanych wiadomości e-mail z archiwum, zazwyczaj poprzez porównywanie wartości Message-ID, aby uniknąć redundancji przy łączeniu wielu plików MBOX.

Parser strumieniowy

Technika parsowania, która odczytuje plik przyrostowo w małych fragmentach zamiast ładować cały plik do pamięci naraz, umożliwiając narzędziom otwieranie i indeksowanie bardzo dużych plików MBOX — dziesiątek lub setek gigabajtów — przy niskim zużyciu pamięci.

Indeks binarny

Kompaktowy plik indeksu, który Mbox Viewer zapisuje obok archiwum MBOX po pierwszym parsowaniu, przechowujący przesunięcia bajtów wiadomości i metadane umożliwiające niemal natychmiastowe ponowne otwarcia bez ponownego skanowania całego pliku.

E-mail HTML

Wiadomość e-mail, której treść jest sformatowana w HTML i CSS, umożliwiając bogatą typografię, układ, kolory i obrazy. Większość nowoczesnej poczty to HTML, ale kwestie prywatności i bezpieczeństwa wymagają starannego renderowania.

Universal Binary

Pakiet aplikacji macOS zawierający natywnie skompilowany kod zarówno dla Apple Silicon (ARM64), jak i Intel (x86_64), działający natywnie na obu procesorach bez emulacji.

Piaskownica

App Sandbox to funkcja zabezpieczeń macOS ograniczająca dostęp aplikacji do zasobów systemowych, plików i połączeń sieciowych, minimalizując potencjalny wpływ, jeśli aplikacja lub jej zależności mają lukę w zabezpieczeniach.