Understanding LSTM Networks | colah's blog

Understanding LSTM Networks — Christopher Olah

colah.github.io

Это та статья, на которую ссылаются все остальные, когда речь заходит об LSTM. Кристофер Олах объясняет устройство ячейки памяти через серию аккуратных схем — без тяжёлых формул, на уровне «что и зачем здесь происходит».

Идеально дополняет урок про RNN: там показано, почему обычные рекуррентные сети плохо помнят далёкое прошлое (затухающий градиент), а здесь — как LSTM это чинит.

Ключевые темы:

Проблема долгих зависимостей — почему vanilla RNN «забывает» начало длинной последовательности.
Cell state — «конвейерная лента» памяти, проходящая через всю цепочку почти без изменений.
Гейты (forget / input / output) — как сеть учится решать, что забыть, что записать и что отдать наружу.
Пошаговый проход — что именно вычисляется на каждом шаге, со схемами для каждого гейта.
Варианты — GRU и другие упрощения, и чем они отличаются от классического LSTM.