← Мои дополнительные ресурсы
Let's build the GPT Tokenizer | Karpathy
Карпаты строит токенизатор с нуля — BPE, как текст превращается в токены и почему отсюда растут многие «странности» LLM. Тема, которую обычно пропускают.
Let's build the GPT Tokenizer | Andrej Karpathy
youtube.com
2 часа 13 минутСредний
Токенизация — тот шаг, который почти все курсы проскакивают, а зря: множество «странностей» LLM (плохой счёт символов, проблемы с арифметикой, разная цена за русский и английский текст) растут именно отсюда. Карпаты строит токенизатор с нуля и показывает, что происходит между «строкой текста» и «числами, которые видит модель».
Прямо дополняет урок про масштабирование, где токены — основная единица: контекстное окно, цена API и ограничения измеряются в токенах.
Ключевые темы:
- Byte Pair Encoding (BPE) — как из символов набираются «куски слов» и почему словарь именно такой.
- Почему 1 токен ≈ 0.75 слова (для английского) и почему для русского хуже — прямая причина разной стоимости.
- Откуда баги — почему LLM путается в подсчёте букв, обработке пробелов и редких символов.
- Особые токены — служебные маркеры (начало/конец, системные), и зачем они нужны.
Код
minbpe — минимальный BPE-токенизатор
github.com/karpathy/minbpe
Средний