← Мои дополнительные ресурсы

Building makemore | Karpathy (серия)

Карпаты строит языковую модель с нуля — от биграмм к MLP, BatchNorm и ручному backprop. Прямое продолжение micrograd в цикле Zero to Hero.

Если micrograd объяснил backpropagation, то makemore показывает, как из этого собирается настоящая языковая модель — character-level, генерирующая правдоподобные «слова» по одному символу. Это следующий шаг цикла Zero to Hero после micrograd, и он закрывает разрыв между «понимаю backprop» и «понимаю, как обучаются языковые модели».

Серия состоит из пяти частей — смотреть лучше строго по порядку, каждая добавляет один слой понимания.

Часть 1 — интро в языковое моделирование

Building makemore Part 1: The spelled-out intro to language modeling | Andrej Karpathy

youtube.com

1 час 57 минутСредний

Простейшая модель «следующий символ по текущему» — на счётчиках (биграммы) и на нейросети.

Часть 2 — MLP

Building makemore Part 2: MLP | Andrej Karpathy

youtube.com

1 час 15 минутСредний

Многослойный перцептрон как языковая модель (по статье Bengio 2003).

Часть 3 — Activations & Gradients, BatchNorm

Building makemore Part 3: Activations & Gradients, BatchNorm | Andrej Karpathy

youtube.com

1 час 55 минутСредний

Почему обучение «ломается» (затухающие/взрывающиеся градиенты) и как его стабилизируют.

Часть 4 — Becoming a Backprop Ninja

Building makemore Part 4: Becoming a Backprop Ninja | Andrej Karpathy

youtube.com

1 час 55 минутСредний

Ручной backprop через всю сеть, без autograd — лучшая прокачка интуиции про градиенты.

Часть 5 — Building a WaveNet

Building makemore Part 5: Building a WaveNet | Andrej Karpathy

youtube.com

56 минутСредний

Иерархическая архитектура, шаг к более глубоким сетям.

Код

makemore — исходный код

github.com/karpathy/makemore

Весь цикл «Zero to Hero»

Neural Networks: Zero to Hero

karpathy.ai