The Unreasonable Effectiveness of Recurrent Neural Networks | Karpathy

The Unreasonable Effectiveness of Recurrent Neural Networks — Andrej Karpathy

karpathy.github.io

Пост, который в своё время познакомил тысячи людей с RNN. Андрей Карпаты на живых примерах показывает, что рекуррентная сеть, обученная предсказывать всего лишь следующий символ, выучивает удивительно много структуры — от синтаксиса до баланса скобок.

Хорошо дополняет урок: даёт интуицию «зачем вообще рекуррентность» до того, как станет понятно, почему её сменили трансформеры.

Ключевые темы:

Char-level language model — как сеть генерирует текст по одному символу, и почему этого достаточно для впечатляющих результатов.
Примеры генерации — Шекспир, исходный код на C, разметка Wikipedia и даже LaTeX-статьи.
Что происходит внутри — визуализация отдельных нейронов, которые «специализируются» (счётчик скобок, позиция в строке).
Интуиция последовательной обработки — как скрытое состояние переносит информацию через шаги.

Код из статьи

char-rnn — исходный код

github.com/karpathy/char-rnn

Средний