← Мои дополнительные ресурсы

The Unreasonable Effectiveness of Recurrent Neural Networks | Karpathy

Классический пост Андрея Карпатого о том, на что способны RNN — char-level генерация текста, кода и LaTeX, с разбором того, что сеть выучивает внутри.

The Unreasonable Effectiveness of Recurrent Neural Networks — Andrej Karpathy

karpathy.github.io

Средний

Пост, который в своё время познакомил тысячи людей с RNN. Андрей Карпаты на живых примерах показывает, что рекуррентная сеть, обученная предсказывать всего лишь следующий символ, выучивает удивительно много структуры — от синтаксиса до баланса скобок.

Хорошо дополняет урок: даёт интуицию «зачем вообще рекуррентность» до того, как станет понятно, почему её сменили трансформеры.

Ключевые темы:

  • Char-level language model — как сеть генерирует текст по одному символу, и почему этого достаточно для впечатляющих результатов.
  • Примеры генерации — Шекспир, исходный код на C, разметка Wikipedia и даже LaTeX-статьи.
  • Что происходит внутри — визуализация отдельных нейронов, которые «специализируются» (счётчик скобок, позиция в строке).
  • Интуиция последовательной обработки — как скрытое состояние переносит информацию через шаги.

Код из статьи

char-rnn — исходный код

github.com/karpathy/char-rnn

Средний