Transformers, the tech behind LLMs | 3Blue1Brown

Transformers, the tech behind LLMs | 3Blue1Brown, Deep Learning Chapter 5

Доступна русская озвучка. В плеере YouTube откройте настройки → «Звуковая дорожка» → выберите русский.

Пятая глава серии 3Blue1Brown по Deep Learning — визуальное введение в трансформеры, архитектуру, на которой построены все современные LLM (GPT, Claude, Gemini). Это то самое видео, которое стоит показать каждому, кто хочет понять, «как на самом деле работает ChatGPT».

Грант берёт в качестве сквозного примера GPT-3 (175 млрд параметров) и проходит по всему пути данных: от входного текста до следующего токена. Видео фокусируется на общей структуре и эмбеддингах — механика attention разбирается в следующей главе.

Ключевые темы урока:

Что такое токены — почему модель работает не со словами и не с буквами, а с subword-токенами. Как текст превращается в последовательность индексов.
Матрица эмбеддингов — каждый токен получает вектор (у GPT-3 — 12 288 измерений). Почему близкие по смыслу слова оказываются рядом в этом пространстве.
«Семантическая арифметика» с векторами — знаменитый пример king - man + woman ≈ queen. Откуда это берётся и что это говорит о том, как модель хранит смысл.
Блоки трансформера — чередование attention и feedforward (MLP) слоёв. Почему их много и что делает каждый.
Unembedding и softmax — как последний вектор превращается в распределение вероятностей по всему словарю, и откуда берётся параметр temperature.
Масштабы современных моделей — сколько параметров в каждом компоненте GPT-3, где они хранятся и как распределены.

Это идеальная «карта местности» перед тем, как нырять в детали self-attention. После этого видео архитектура трансформера перестаёт быть «чёрным ящиком» и становится понятным конвейером преобразований.

Статья с текстовой версией

Transformers, the tech behind LLMs — текстовая версия на 3blue1brown.com

Средний

Весь цикл видео и статей

Neural Networks — серия 3Blue1Brown

Средний