Attention in transformers, step-by-step | 3Blue1Brown
Пошаговый визуальный разбор self-attention: Queries, Keys, Values, causal masking и multi-head attention.
Доступна русская озвучка. В плеере YouTube откройте настройки → «Звуковая дорожка» → выберите русский.
Шестая глава серии 3Blue1Brown — пошаговый визуальный разбор механизма self-attention, ядра трансформера. Если предыдущее видео давало «карту» архитектуры, здесь Грант раскрывает главный её компонент — тот самый, который делает «Attention is all you need» не просто заголовком статьи.
Центральная идея: эмбеддинги токенов начинаются как обобщённые значения слов и постепенно уточняются контекстом. Слово «mole» имеет один вектор на входе, но после прохождения через attention-слои превращается в совершенно разные вещи — в зависимости от того, встретилось ли оно рядом со словами «американский президент», «шпион» или «молекула».
Ключевые темы урока:
- Queries, Keys, Values — три проекции эмбеддингов. Query = «что я ищу?», Key = «что я предлагаю?», Value = «что я передам, если меня выберут?».
- Attention scores — скалярное произведение Q и K измеряет «релевантность» каждой пары токенов. Softmax превращает эти числа в веса внимания.
- Causal masking — почему в decoder-моделях (GPT) токены могут смотреть только назад, а не вперёд. Трюк с минус бесконечностью в softmax.
- Multi-head attention — почему 96 голов в GPT-3, и что каждая из них может «специализироваться» на своём типе связей (синтаксис, анафора, семантика).
- Context length и квадратичная сложность — почему удвоение контекста увеличивает вычисления в 4 раза, и откуда берутся ограничения у моделей.
- Параметры одного attention-блока GPT-3 — сколько весов в Q, K, V и output-проекциях, и как это умножается на число голов и число слоёв.
После этого видео каждая формула в оригинальной статье «Attention is all you need» получает визуальный смысл. Это, пожалуй, лучшее визуальное объяснение self-attention, существующее в открытом доступе.