← Мои дополнительные ресурсы
The Unreasonable Effectiveness of Recurrent Neural Networks | Karpathy
Классический пост Андрея Карпатого о том, на что способны RNN — char-level генерация текста, кода и LaTeX, с разбором того, что сеть выучивает внутри.
The Unreasonable Effectiveness of Recurrent Neural Networks — Andrej Karpathy
karpathy.github.io
Средний
Пост, который в своё время познакомил тысячи людей с RNN. Андрей Карпаты на живых примерах показывает, что рекуррентная сеть, обученная предсказывать всего лишь следующий символ, выучивает удивительно много структуры — от синтаксиса до баланса скобок.
Хорошо дополняет урок: даёт интуицию «зачем вообще рекуррентность» до того, как станет понятно, почему её сменили трансформеры.
Ключевые темы:
- Char-level language model — как сеть генерирует текст по одному символу, и почему этого достаточно для впечатляющих результатов.
- Примеры генерации — Шекспир, исходный код на C, разметка Wikipedia и даже LaTeX-статьи.
- Что происходит внутри — визуализация отдельных нейронов, которые «специализируются» (счётчик скобок, позиция в строке).
- Интуиция последовательной обработки — как скрытое состояние переносит информацию через шаги.
Код из статьи
char-rnn — исходный код
github.com/karpathy/char-rnn
Средний