How might LLMs store facts | 3Blue1Brown
Как MLP-блоки трансформера могут хранить факты о мире. Введение в механистическую интерпретируемость.
Доступна русская озвучка. В плеере YouTube откройте настройки → «Звуковая дорожка» → выберите русский.
Седьмая глава серии 3Blue1Brown закрывает пробел, который оставили предыдущие видео про трансформеры. Разобрав attention, Грант возвращается к второму компоненту блока — feedforward-слою (MLP). И ставит вопрос, который возникает у каждого, кто думал про LLM всерьёз: где модель хранит факты? Как в её весах закодировано, что «Майкл Джордан играл в баскетбол», а не в крикет?
Это видео — частично исследовательское: оно строится на реальных работах по механистической интерпретируемости (Anthropic, OpenAI, Transformer Circuits), и Грант аккуратно разделяет то, что доказано, от того, что остаётся гипотезой.
Ключевые темы урока:
- MLP-блок как «память» модели — две матрицы весов и нелинейность (ReLU/GELU) между ними. До 2/3 всех параметров трансформера живут именно здесь.
- Идея суперпозиции (superposition) — почему модель может хранить больше фактов, чем у неё нейронов. Ключевая гипотеза современной интерпретируемости.
- Факт как «направление» в активациях — если эмбеддинг после attention «указывает» в сторону Michael Jordan, то MLP добавляет вектор, связанный с баскетболом.
- Первая матрица как «детекторы» — строки W_up работают как вопросы: «на что похож этот вектор?». ReLU оставляет только положительные срабатывания.
- Вторая матрица как «ответы» — колонки W_down добавляют к эмбеддингу нужную информацию из тех детекторов, которые сработали.
- Почему 12 288 × 4 ≈ 49 152 нейронов в MLP GPT-3 — и что это даёт с точки зрения ёмкости хранения.
Это наиболее «современное» видео серии — оно подводит зрителя вплотную к границе текущих исследований. Отличное завершение пути от «что такое нейрон» до «как GPT хранит знание о мире».