← Мои дополнительные ресурсы

The Illustrated Transformer | Jay Alammar

Канонический иллюстрированный разбор архитектуры трансформера — encoder/decoder, self-attention и multi-head внимание, шаг за шагом на схемах.

The Illustrated Transformer — Jay Alammar

jalammar.github.io

Средний

Самый известный визуальный разбор оригинальной статьи «Attention Is All You Need». Джей Аламмар проводит через всю архитектуру трансформера на аккуратных иллюстрациях — от того, как токен превращается в Query/Key/Value, до полной картины encoder-decoder.

Отличное дополнение к видео 3Blue1Brown: там акцент на интуиции внимания, здесь — на сборке всей архитектуры из блоков, ближе к исходной статье.

Ключевые темы:

  • Self-attention по шагам — как считаются веса внимания и почему именно так.
  • Multi-head attention — зачем несколько «голов» и как их результаты собираются обратно.
  • Encoder и decoder — из чего состоит каждый стек и как они соединяются.
  • Positional encoding — как в модель, не имеющую понятия о порядке, добавляется позиция.
  • Residual-связи и нормализация — что удерживает глубокую сеть от развала при обучении.

Продолжение про GPT

The Illustrated GPT-2 — Jay Alammar

jalammar.github.io

Средний