Gradient descent, how neural networks learn | 3Blue1Brown

Gradient descent, how neural networks learn | 3Blue1Brown, Chapter 2

Доступна русская озвучка. В плеере YouTube откройте настройки → «Звуковая дорожка» → выберите русский.

Вторая глава серии 3Blue1Brown. После того как в первой главе мы построили «скелет» нейросети (слои, веса, активации), Грант отвечает на главный вопрос: как сеть находит правильные веса? Ответ — градиентный спуск.

Для визуализации Грант использует ту же сеть для распознавания MNIST — 784 входа, два скрытых слоя, 10 выходов, всего 13 002 параметра. Каждый параметр — это одна координата в 13 002-мерном пространстве, и обучение — это поиск точки в этом пространстве, где ошибка минимальна.

Ключевые темы урока:

Функция потерь (cost function) — квадрат разницы между предсказанием и правильным ответом как численная мера «насколько плохо» работает сеть.
Landscape и локальные минимумы — почему мы не ищем глобальный минимум, а лишь достаточно хорошую «долину».
Градиент как направление самого быстрого роста — и почему минус градиент даёт направление самого быстрого падения.
Вектор градиента в 13 002 измерениях — каждая компонента показывает, насколько чувствительна ошибка к изменению конкретного веса (важная интуиция для понимания backpropagation).
Что на самом деле «учит» скрытый слой — Грант анализирует веса обученной сети и показывает, что они не похожи на ожидаемые «детекторы контуров». Честный разбор того, что происходит внутри.

Это видео — мост между архитектурой и алгоритмом обучения. Backpropagation, который мы разберём в следующих материалах, — это лишь эффективный способ вычислить тот самый градиент, о котором здесь идёт речь.

Статья с текстовой версией

Gradient descent, how neural networks learn — текстовая версия на 3blue1brown.com

Начальный

Весь цикл видео и статей

Neural Networks — серия 3Blue1Brown

Начальный