← Мои дополнительные ресурсы
Let's build GPT: from scratch, in code, spelled out | Karpathy
Андрей Карпаты строит GPT с нуля в коде — self-attention, блоки трансформера и обучение на тексте. Практическая пара к разбору micrograd.
Let's build GPT: from scratch, in code, spelled out | Andrej Karpathy
youtube.com
1 час 56 минутСредний
Если micrograd дал интуицию про backpropagation, то это видео делает то же самое для трансформера. Карпаты строит маленькую GPT с нуля на чистом PyTorch, шаг за шагом: от bigram-модели до полноценного декодера с self-attention. Каждая «формула» из урока про трансформер здесь превращается в строчку кода, которую видно работающей.
Это лучший способ закрыть разрыв «понимаю на схемах, но не на уровне реализации» — ровно та претензия, что формулы выглядят оторванно.
Ключевые темы:
- От bigram к трансформеру — постепенное усложнение модели, чтобы каждая идея была мотивирована.
- Self-attention в коде — Q, K, V, маскирование и softmax, написанные руками.
- Блоки трансформера — multi-head attention, feed-forward, residual-связи и layer norm как код.
- Обучение — токенизация, батчи, loss и цикл оптимизации на маленьком датасете.
- Связь с реальными GPT — что меняется при переходе от учебной модели к промышленной.
Код к лекции
nanoGPT — минимальная реализация GPT
github.com/karpathy/nanoGPT
Средний
Весь цикл «Zero to Hero»
Neural Networks: Zero to Hero
karpathy.ai
Средний