Attention in transformers, step-by-step | 3Blue1Brown

Attention in transformers, step-by-step | 3Blue1Brown, Deep Learning Chapter 6

Доступна русская озвучка. В плеере YouTube откройте настройки → «Звуковая дорожка» → выберите русский.

Шестая глава серии 3Blue1Brown — пошаговый визуальный разбор механизма self-attention, ядра трансформера. Если предыдущее видео давало «карту» архитектуры, здесь Грант раскрывает главный её компонент — тот самый, который делает «Attention is all you need» не просто заголовком статьи.

Центральная идея: эмбеддинги токенов начинаются как обобщённые значения слов и постепенно уточняются контекстом. Слово «mole» имеет один вектор на входе, но после прохождения через attention-слои превращается в совершенно разные вещи — в зависимости от того, встретилось ли оно рядом со словами «американский президент», «шпион» или «молекула».

Ключевые темы урока:

Queries, Keys, Values — три проекции эмбеддингов. Query = «что я ищу?», Key = «что я предлагаю?», Value = «что я передам, если меня выберут?».
Attention scores — скалярное произведение Q и K измеряет «релевантность» каждой пары токенов. Softmax превращает эти числа в веса внимания.
Causal masking — почему в decoder-моделях (GPT) токены могут смотреть только назад, а не вперёд. Трюк с минус бесконечностью в softmax.
Multi-head attention — почему 96 голов в GPT-3, и что каждая из них может «специализироваться» на своём типе связей (синтаксис, анафора, семантика).
Context length и квадратичная сложность — почему удвоение контекста увеличивает вычисления в 4 раза, и откуда берутся ограничения у моделей.
Параметры одного attention-блока GPT-3 — сколько весов в Q, K, V и output-проекциях, и как это умножается на число голов и число слоёв.

После этого видео каждая формула в оригинальной статье «Attention is all you need» получает визуальный смысл. Это, пожалуй, лучшее визуальное объяснение self-attention, существующее в открытом доступе.

Статья с текстовой версией

Attention in transformers, step-by-step — текстовая версия на 3blue1brown.com

Средний

Весь цикл видео и статей

Neural Networks — серия 3Blue1Brown

Средний