Let's build the GPT Tokenizer | Karpathy

Let's build the GPT Tokenizer | Andrej Karpathy

youtube.com

Токенизация — тот шаг, который почти все курсы проскакивают, а зря: множество «странностей» LLM (плохой счёт символов, проблемы с арифметикой, разная цена за русский и английский текст) растут именно отсюда. Карпаты строит токенизатор с нуля и показывает, что происходит между «строкой текста» и «числами, которые видит модель».

Прямо дополняет урок про масштабирование, где токены — основная единица: контекстное окно, цена API и ограничения измеряются в токенах.

Ключевые темы:

Byte Pair Encoding (BPE) — как из символов набираются «куски слов» и почему словарь именно такой.
Почему 1 токен ≈ 0.75 слова (для английского) и почему для русского хуже — прямая причина разной стоимости.
Откуда баги — почему LLM путается в подсчёте букв, обработке пробелов и редких символов.
Особые токены — служебные маркеры (начало/конец, системные), и зачем они нужны.

Код

minbpe — минимальный BPE-токенизатор

github.com/karpathy/minbpe

Средний