Transformers, the tech behind LLMs | 3Blue1Brown
Визуальное введение в архитектуру трансформера на примере GPT-3: токены, эмбеддинги, блоки и unembedding.
Доступна русская озвучка. В плеере YouTube откройте настройки → «Звуковая дорожка» → выберите русский.
Пятая глава серии 3Blue1Brown по Deep Learning — визуальное введение в трансформеры, архитектуру, на которой построены все современные LLM (GPT, Claude, Gemini). Это то самое видео, которое стоит показать каждому, кто хочет понять, «как на самом деле работает ChatGPT».
Грант берёт в качестве сквозного примера GPT-3 (175 млрд параметров) и проходит по всему пути данных: от входного текста до следующего токена. Видео фокусируется на общей структуре и эмбеддингах — механика attention разбирается в следующей главе.
Ключевые темы урока:
- Что такое токены — почему модель работает не со словами и не с буквами, а с subword-токенами. Как текст превращается в последовательность индексов.
- Матрица эмбеддингов — каждый токен получает вектор (у GPT-3 — 12 288 измерений). Почему близкие по смыслу слова оказываются рядом в этом пространстве.
- «Семантическая арифметика» с векторами — знаменитый пример
king - man + woman ≈ queen. Откуда это берётся и что это говорит о том, как модель хранит смысл. - Блоки трансформера — чередование attention и feedforward (MLP) слоёв. Почему их много и что делает каждый.
- Unembedding и softmax — как последний вектор превращается в распределение вероятностей по всему словарю, и откуда берётся параметр temperature.
- Масштабы современных моделей — сколько параметров в каждом компоненте GPT-3, где они хранятся и как распределены.
Это идеальная «карта местности» перед тем, как нырять в детали self-attention. После этого видео архитектура трансформера перестаёт быть «чёрным ящиком» и становится понятным конвейером преобразований.