← Мои дополнительные ресурсы

Let's build GPT: from scratch, in code, spelled out | Karpathy

Андрей Карпаты строит GPT с нуля в коде — self-attention, блоки трансформера и обучение на тексте. Практическая пара к разбору micrograd.

Let's build GPT: from scratch, in code, spelled out | Andrej Karpathy

youtube.com

1 час 56 минутСредний

Если micrograd дал интуицию про backpropagation, то это видео делает то же самое для трансформера. Карпаты строит маленькую GPT с нуля на чистом PyTorch, шаг за шагом: от bigram-модели до полноценного декодера с self-attention. Каждая «формула» из урока про трансформер здесь превращается в строчку кода, которую видно работающей.

Это лучший способ закрыть разрыв «понимаю на схемах, но не на уровне реализации» — ровно та претензия, что формулы выглядят оторванно.

Ключевые темы:

  • От bigram к трансформеру — постепенное усложнение модели, чтобы каждая идея была мотивирована.
  • Self-attention в коде — Q, K, V, маскирование и softmax, написанные руками.
  • Блоки трансформера — multi-head attention, feed-forward, residual-связи и layer norm как код.
  • Обучение — токенизация, батчи, loss и цикл оптимизации на маленьком датасете.
  • Связь с реальными GPT — что меняется при переходе от учебной модели к промышленной.

Код к лекции

nanoGPT — минимальная реализация GPT

github.com/karpathy/nanoGPT

Средний

Весь цикл «Zero to Hero»

Neural Networks: Zero to Hero

karpathy.ai

Средний