← Мои дополнительные ресурсы

Let's build the GPT Tokenizer | Karpathy

Карпаты строит токенизатор с нуля — BPE, как текст превращается в токены и почему отсюда растут многие «странности» LLM. Тема, которую обычно пропускают.

Let's build the GPT Tokenizer | Andrej Karpathy

youtube.com

2 часа 13 минутСредний

Токенизация — тот шаг, который почти все курсы проскакивают, а зря: множество «странностей» LLM (плохой счёт символов, проблемы с арифметикой, разная цена за русский и английский текст) растут именно отсюда. Карпаты строит токенизатор с нуля и показывает, что происходит между «строкой текста» и «числами, которые видит модель».

Прямо дополняет урок про масштабирование, где токены — основная единица: контекстное окно, цена API и ограничения измеряются в токенах.

Ключевые темы:

  • Byte Pair Encoding (BPE) — как из символов набираются «куски слов» и почему словарь именно такой.
  • Почему 1 токен ≈ 0.75 слова (для английского) и почему для русского хуже — прямая причина разной стоимости.
  • Откуда баги — почему LLM путается в подсчёте букв, обработке пробелов и редких символов.
  • Особые токены — служебные маркеры (начало/конец, системные), и зачем они нужны.

Код

minbpe — минимальный BPE-токенизатор

github.com/karpathy/minbpe

Средний