Let's build GPT: from scratch, in code, spelled out | Karpathy

Let's build GPT: from scratch, in code, spelled out | Andrej Karpathy

youtube.com

Если micrograd дал интуицию про backpropagation, то это видео делает то же самое для трансформера. Карпаты строит маленькую GPT с нуля на чистом PyTorch, шаг за шагом: от bigram-модели до полноценного декодера с self-attention. Каждая «формула» из урока про трансформер здесь превращается в строчку кода, которую видно работающей.

Это лучший способ закрыть разрыв «понимаю на схемах, но не на уровне реализации» — ровно та претензия, что формулы выглядят оторванно.

Ключевые темы:

От bigram к трансформеру — постепенное усложнение модели, чтобы каждая идея была мотивирована.
Self-attention в коде — Q, K, V, маскирование и softmax, написанные руками.
Блоки трансформера — multi-head attention, feed-forward, residual-связи и layer norm как код.
Обучение — токенизация, батчи, loss и цикл оптимизации на маленьком датасете.
Связь с реальными GPT — что меняется при переходе от учебной модели к промышленной.

Код к лекции

nanoGPT — минимальная реализация GPT

github.com/karpathy/nanoGPT

Средний

Весь цикл «Zero to Hero»

Neural Networks: Zero to Hero

karpathy.ai

Средний