← Мои дополнительные ресурсы
The Illustrated Transformer | Jay Alammar
Канонический иллюстрированный разбор архитектуры трансформера — encoder/decoder, self-attention и multi-head внимание, шаг за шагом на схемах.
The Illustrated Transformer — Jay Alammar
jalammar.github.io
Средний
Самый известный визуальный разбор оригинальной статьи «Attention Is All You Need». Джей Аламмар проводит через всю архитектуру трансформера на аккуратных иллюстрациях — от того, как токен превращается в Query/Key/Value, до полной картины encoder-decoder.
Отличное дополнение к видео 3Blue1Brown: там акцент на интуиции внимания, здесь — на сборке всей архитектуры из блоков, ближе к исходной статье.
Ключевые темы:
- Self-attention по шагам — как считаются веса внимания и почему именно так.
- Multi-head attention — зачем несколько «голов» и как их результаты собираются обратно.
- Encoder и decoder — из чего состоит каждый стек и как они соединяются.
- Positional encoding — как в модель, не имеющую понятия о порядке, добавляется позиция.
- Residual-связи и нормализация — что удерживает глубокую сеть от развала при обучении.
Продолжение про GPT
The Illustrated GPT-2 — Jay Alammar
jalammar.github.io
Средний