Gradient descent, how neural networks learn | 3Blue1Brown
Как нейросеть находит правильные веса: функция потерь, градиент и градиентный спуск в 13 002-мерном пространстве.
Доступна русская озвучка. В плеере YouTube откройте настройки → «Звуковая дорожка» → выберите русский.
Вторая глава серии 3Blue1Brown. После того как в первой главе мы построили «скелет» нейросети (слои, веса, активации), Грант отвечает на главный вопрос: как сеть находит правильные веса? Ответ — градиентный спуск.
Для визуализации Грант использует ту же сеть для распознавания MNIST — 784 входа, два скрытых слоя, 10 выходов, всего 13 002 параметра. Каждый параметр — это одна координата в 13 002-мерном пространстве, и обучение — это поиск точки в этом пространстве, где ошибка минимальна.
Ключевые темы урока:
- Функция потерь (cost function) — квадрат разницы между предсказанием и правильным ответом как численная мера «насколько плохо» работает сеть.
- Landscape и локальные минимумы — почему мы не ищем глобальный минимум, а лишь достаточно хорошую «долину».
- Градиент как направление самого быстрого роста — и почему минус градиент даёт направление самого быстрого падения.
- Вектор градиента в 13 002 измерениях — каждая компонента показывает, насколько чувствительна ошибка к изменению конкретного веса (важная интуиция для понимания backpropagation).
- Что на самом деле «учит» скрытый слой — Грант анализирует веса обученной сети и показывает, что они не похожи на ожидаемые «детекторы контуров». Честный разбор того, что происходит внутри.
Это видео — мост между архитектурой и алгоритмом обучения. Backpropagation, который мы разберём в следующих материалах, — это лишь эффективный способ вычислить тот самый градиент, о котором здесь идёт речь.