
Часть I: Окей, но что, чёрт возьми, вообще происходит?
Глава 1 — День, когда студент-первокурсник случайно создал нейросеть, которая рисовала только члены
(и другие истории происхождения, объясняющие, почему мы все здесь)
Сразу расставим точки над i̇: вся область искусственного интеллекта началась с того, что в 1940-х годах кучка задротов посмотрела на человеческий мозг, сказала «похоже на схему», а следующие восемьдесят лет доказывала, что они были лишь наполовину неправы.
Это не один из тех скучных учебников, которые начинаются со слов «В 1958 году Фрэнк Розенблатт представил перцептрон…» (хотя до бедняги Фрэнка мы тоже доберёмся через пару страниц). Вместо этого я расскажу настоящую, слегка позорную историю происхождения нейронных сетей — ту, в которой есть кошки, государственные деньги, неприличные каракули и как минимум две «зимы ИИ», достаточно холодные, чтобы заморозить ваш GPU намертво.
1943 — Пьяный математик и психиатр заходят в бар…
Уоррен МакКаллок (нейроучёный) и Уолтер Питтс (подросток-гений, который жил в библиотеке Чикагского университета) публикуют статью под названием «Логическое исчисление идей, имманентных нервной активности». Перевод: они показали, что клетки мозга (нейроны) можно свести к крошечным машинам «да/нет», которые включаются, если достаточно их друзей их ткнут. Другими словами, мозг просто делает бинарную логику на биологических тактовых частотах.
Они понятия не имели, что только что изобрели первый искусственный нейрон. Они также понятия не имели, что через восемьдесят лет люди будут тратить 100 000 долларов только на электричество, чтобы один такой фальшивый нейрон писал фанфики по «South Park».
1958 — Перцептрон, или «У нас дома тоже есть нейроны»
На сцену выходит Фрэнк Розенблатт — обаятельный психолог из Корнелла с бюджетом Пентагона и мечтой. Он строит Mark I Perceptron — монстра размером с комнату, шириной 6 метров, состоящего из моторов, потенциометров и такого количества патч-кордов, что звукорежиссёр бы заплакал. «Нью-Йорк Таймс» печатает заголовок: «Новое устройство ВМС учится на опыте». В статье утверждается, что скоро оно сможет ходить, говорить, видеть, писать, размножаться и осознавать своё собственное существование.
Реальные возможности Mark I Perceptron: он умел определять, находится ли фигура на левой или правой половине картинки. И всё. Мы фактически потратили деньги Холодной войны, чтобы заново изобрести «чётное vs нечётное».
Но хайп был настоящий. ВМС думали, что финансируют Скайнет. Инвесторы готовы были кидать деньги на всё, в питч-деке чего было слово «brain».
1969 — Самый жёсткий разнос в истории академии
Марвин Мински (профессор MIT, настоящий гений и сертифицированный ненавистник) и Сеймур Паперт выпускают тоненькую книжечку под названием Perceptrons. В ней они математически доказывают, что однослойный перцептрон не может решить задачу XOR. Это примерно то же самое, что сказать: «Твоя модная модель мозга даже не может понять, находятся ли два переключателя в разных положениях».
Вся область рухнула за одну ночь. Финансирование высохло. Исследователи переключились на более безопасные темы вроде символического ИИ, который обещал решить всё с помощью старых добрых правил if-then. Нейронные сети стали академическим Волан-де-Мортом — тем-кого-нельзя-финансировать.
Это мы называем Первой зимой ИИ. Она длилась примерно с 1969 по середину 1980-х. Лаборатории закрывались. Аспиранты плакали в свои перфокарты.
1986 — Обратное распространение ошибки, или «Ой, мы это починили»
Два события произошли почти одновременно:
— Дэвид Румельхарт, Джеффри Хинтон и Рональд Уильямс заново открыли (и нормально объяснили) backpropagation — алгоритм, который позволяет обучать многослойные сети, отправляя сигналы об ошибке назад по сети.
— Все внезапно поняли, что если наставить достаточно перцептронов друг на друга, то XOR перестаёт быть проблемой. Собственно, почти всё перестаёт.
Нейросети вернулись с триумфом. Деньги потекли рекой. Их начали называть «многослойными перцептронами», чтобы отгородиться от позорного бренда 1960-х.
А потом мы опять упёрлись в нехватку вычислительной мощности и наступила Вторая зима ИИ (конец 1980-х — начало 2000-х). Но это уже история для главы 2.
2006 — Легендарный случай «Нейросеть, которая рисовала только члены» (нет, не моя)
У каждой области есть свой фольклор. У физиков — воображаемый кот Шрёдингера. У математиков — чувак, который доказывал Великую теорему Ферма на салфетке.
А у исследователей ИИ есть… Dick-Net.
Где-то в 2006 году аспирант (имя которого история, скорее всего намеренно, стёрла) обучал крошечную свёрточную сеть на датасете из раннего интернета с NSFW-картинками. Цель проекта была научной. Датасет — не очень.
Через несколько дней обучения модель достигла 99% точности — что задним числом должно было быть огромной мигающей надписью «ты всё испортил».
А потом пошли генерации.
Не важно, что студент скормил модели — котов, машины, закаты, белый шум — она выдавала одно и то же.
Члены.
Каждый. Раз.
Хуже того — они были даже не очень похожи. Выглядели как баклажан-эможи после инсульта.
В академическом сообществе этот эпизод неофициально называют: «Первый известный одноклассовый генератор контента для взрослых».
Это идеальная иллюстрация трёх вечных истин машинного обучения:
— Мусор на входе → мусор на выходе
— Переобучение не просто случается — оно случается яростно
— Всегда проверяй датасет дважды, особенно если в нём есть… темы
Эту историю пересказывают в лабораториях почти два десятилетия — наполовину как предостережение, наполовину как мем и наполовину потому, что это самый relatable фейл в истории глубокого обучения.
И именно поэтому, дорогие читатели, у нас не может быть хороших вещей.
Но мы всё равно собираемся их построить.
В следующей главе мы перестанем ржать и выведем backpropagation с нуля (с LaTeX, диаграммами и ровно одним эмодзи какашки для колорита). Пристегнитесь.
Глава 2 — Backpropagation: славный хак, который спас ИИ
(и подарил нам катастрофическое забывание, взрывающиеся градиенты и пожизненный запас терапии)
Если глава 1 — это похмелье, то глава 2 — опохмел той же собакой, которая нас укусила.
Добро пожаловать в самый важный алгоритм в глубоком обучении, который никто не изобретал специально. Это как пенициллин: открыли, потому что кому-то было лень нормально помыть чашку Петри.
1970 — Первый раз, когда у нас (почти) это было
Финский студент-магистр Сеппо Линнайнмаа пишет 26-страничную диссертацию, в которой содержится суть современного обратного автоматического дифференцирования. Никто её не читает. Статья на финском. Мир коллективно пожимает плечами и продолжает считать численные градиенты вручную, как пещерные люди.
1986 — Три парня в баре решают испортить всем жизнь (в хорошем смысле)
Румельхарт, Хинтон и Уильямс публикуют в Nature статью «Обучение представлений путём обратного распространения ошибок». Всего десять страниц — и взрыв в области.
Их главная идея:
— Пропускаешь сеть вперёд → получаешь ужасный ответ
— Считаешь, насколько ты облажался (loss)
— Отправляешь вину назад по тем же самым весам, используя правило цепочки из школьного матана
— Чуть-чуть подталкиваешь каждый вес в сторону, которая сделала бы ответ менее неправильным
— Повторяешь, пока не разбогатеешь или GPU не расплавится
Вот и всё. Вся триллионная индустрия держится на этой идее, записанной в 1986 году на салфетке в баре.
Окей, умник, покажи математику
Делаем по-честному. Без размахивания руками. Достаточно LaTeX, чтобы ты почувствовал себя настоящим мальчиком.
Маленькая сеть: один вход, один скрытый слой с двумя нейронами, один выход x → [h₁, h₂] → ŷ
Прямой проход (скучно): h₁ = σ (w₁x + b₁) h₂ = σ (w₂x + b₂) ŷ = v₁h₁ + v₂h₂ + c
где σ — сигмоида (берём её, потому что мы себя ненавидим): σ (z) = 1 / (1 + e⁻z)
Функция потерь — среднеквадратичная ошибка (1986 год, cross-entropy ещё не пригласили на вечеринку): L = ½ (ŷ — y) ²
Теперь магия: ∂L/∂v₁ По правилу цепочки: ∂L/∂v₁ = (ŷ — y) × h₁
Ошибка на выходе (ŷ — y) умножается на вход к этому весу (h₁). Это «дельта» на выходе.
Теперь назад к скрытому слою. Сколько вины достаётся w₁? ∂L/∂w₁ = [(ŷ−y) ·v₁ · σ′ (z₁)] × x
Где σ′ (z) = σ (z) (1−σ (z)) — именно из-за этого члена vanishing gradients убили половину мечтаний 1990-х.
Делаешь так для каждого веса, вычитаешь маленький кусочек (learning rate η) × градиент — и вот тебе один шаг градиентного спуска.
Поздравляю. Ты только что воскресил нейронные сети из мёртвых.
Почему все сразу это сломали (1987–2009)
Оказалось, у backprop есть очаровательные черты характера:
— Vanishing gradients: сигмоида сжимает всё в [0,1] → производные → почти ноль → обучение останавливается
— Exploding gradients: производные взрываются → веса становятся NaN → модель предсказывает 9.347e+24 на всё
— Catastrophic forgetting: обучили кошек, потом собак → кошки перестали существовать
— Local minima: все боялись застрять, пока не поняли, что ландшафт потерь — это 70-миллиардномерный ад седловых точек, где локальные минимумы почти не встречаются
Двадцать лет мы считали нейросети милой игрушкой, потому что ни у кого не хватало вычислительной мощи, чтобы увидеть, как они реально работают.
2010 — ReLU заходит в чат и говорит «Подержи моё пиво»
Лаборатория Янна ЛеКуна, Алекс Крижевский и другие начинают использовать ReLU: f (x) = max (0, x) Производная: 1 если x> 0, иначе 0.
Нет затухания градиентов. Нет насыщения. Дёшево считать.
Всё внезапно заработало. Область взорвалась (на этот раз в хорошем смысле).
2025 — Мы до сих пор делаем ровно то же самое
Да, правда.
Каждая state-of-the-art модель, которой ты сейчас молишься — GPT-4o, Grok 3, Claude 3.5, Llama 405B и т. д. — обучается с небольшими вариациями backpropagation, изобретённого ещё до твоего рождения.
Мы просто добавили:
— Adam (2014), чтобы не подбирать learning rate вручную, как крестьяне
— LayerNorm, residual connections, умные инициализации (2015–2016)
— Mixed precision (NVIDIA, 2017)
— Gradient checkpointing (2016)
— ZeRO-3 и offloading, чтобы впихнуть 405 миллиардов параметров в разумное количество H100 (2020+)
Но основной цикл? Всё тот же.
Мораль истории
Самый великий трюк дьявола — убедить мир, что глубокое обучение сложно.
Нет.
Это алгоритм 1986 года, запущенный на современном железе с хорошей сантехникой.
Следующая глава: смотрим, как студент-физик украинского происхождения в 2012 году случайно уничтожил компьютерное зрение, используя только этот трюк 1986 года, кучу GPU и нездоровое количество Red Bull.
Готов?
Глава 3 — Функции потерь: Как мы заставляем нейросети притворяться, что им не всё равно
(Или: Искусство наказывать модель, пока она не начнёт делать вид, что вас понимает)
Если backpropagation — это кнут, то функция потерь — это очень специфический фетиш, который вы пытаетесь удовлетворить.
Это единственное, что говорит вашей миллионной куче перемножений матриц, хорошо ли она старается или должна быть полным разочарованием для своих родителей.
Выберите неправильную функцию потерь — и ваша модель с радостью научится самому психопатическому поведению, какое только можно вообразить, при этом технически минимизируя то, что вы у неё попросили.
Мы все через это проходили.
Величайшие хиты самоистязания
1. Mean Squared Error (MSE) — классика бумера L = ½ (ŷ — y) ²
Что делает: квадратично наказывает большие ошибки, почти не замечает маленькие.
Идеально, когда вы хотите, чтобы модель тряслась от страха даже при малейшей погрешности.
Результат в реальной жизни: регрессионные модели, которые предсказывают 3.1415926535, когда правда — 3.14, потому что кто-то оставил π в тренировочном наборе.
Также виновата в размытых картинках GAN — потому что усреднение всех возможных чётких изображений даёт кашу.
2. Categorical Cross-Entropy — теперь с 1000 классами! Та же идея, но для ImageNet, типов покемонов или какого-нибудь токсик-классификатора 2025 года.
Про-совет: всегда добавляйте label smoothing, иначе модель станет максимально самоуверенной и начнёт называть всё «немного токсичным мемом с котиком».
3. Huber Loss — «Хочу MSE, но боюсь выбросов»
Плавный L1. Ведёт себя как MSE около нуля, как MAE вдали от нуля.
Используют люди, которые прочитали один блог-пост в 2019 году и теперь считают себя экспертами по робастности.
4. Dice Loss / IoU Loss — любимая игрушка медицинской визуализации 1 — (2 × |prediction ∩ ground truth|) / (|prediction| + |ground truth|)
Буквально: «насколько у нас пересечение?»
Радиологи в восторге. Остальные слепо копируют и удивляются, почему их сегментация выглядит как абстрактная живопись.
5. Contrastive Loss (SimCLR, NT-Xent и т.д.) «Делай похожие вещи близкими, разные — далёкими».
На этом держится вся революция self-supervised обучения.
Также причина, почему ваша CLIP-модель считает фото собаки в солнцезащитных очках ближе к «cool», чем к «dog».
6. Perceptual Loss / LPIPS «Нам плевать на пиксели, нам важны вайбы».
Пропускает и предсказание, и таргет через предобученную VGG и сравнивает высокоуровневые фичи.
Используется, когда хочется, чтобы фейковые картины Моне ощущались душевными, а не пиксельно-идеальными.
Тёмные искусства: потери, о которых мы делаем вид, что их не существует на публике
— GAN loss (min-max ад, который никогда не сходится)
— Wasserstein loss с gradient penalty (попытка 2017 года починить GANы)
— Energy-based models (мы сдались)
— «Просто используй cross-entropy, но добавь 0.05 label smoothing и молись» (95% продакшн-моделей)
Мой личный зал позора
2017: MSE на картинках 128×128. Получилась размытая похлёбка. 2019: Перешёл на perceptual + GAN loss. Получил чёткие изображения лавкрафтианских ужасов с явно лишними зубами. 2021: Пробовал contrastive loss на рентгенах. Модель идеально научилась отличать «снято во вторник» от «снято в четверг». 2024: Cross-entropy на мультиязычной модели. Она выучила, что самый безопасный ответ на любой вопрос — «Мне очень жаль, Дэйв, боюсь, я не могу этого сделать» на идеальном суахили.
Одно уравнение, которое действительно стоит запомнить
Все эти лоссы — просто изощрённые способы посчитат
Вот и всё. Loss — это любой скаляр, который вы решили считать «плохо». Всё остальное (оптимизаторы, шедулеры, mixed precision) — просто попытки опустить этот скаляр вниз, не дав градиентам самопроизвольно воспламениться.
Про-совет
Современный рецепт (работает в 90% случаев):
— Классификация → Cross-entropy + label smoothing 0.1
— Регрессия → MAE, если есть выбросы, иначе MSE
— Генерация → Какая-то адская смесь L1 + perceptual + adversarial
— Retrieval / эмбеддинги → Cosine similarity + NT-Xent с температурой 0.07
— Всё остальное → Копируй то, что на этой неделе используют крутые ребята на Hugging Face
Следующая глава: смотрим, как канадский аспирант по имени Алекс, вооружённый всего двумя GTX 580, CUDA 4.0 и 1,2 миллиона размеченных картинок, случайно убил целую область компьютерного зрения за один уик-энд в 2012 году.
Спойлер: его секретное оружие — это… ещё больше backpropagation. Но теперь уже с картинками котиков.
Готовы к моменту 2012 года, который породил современную золотую лихорадку GPU?
Часть II: Величайшие хиты
Глава 4 — AlexNet сломала ImageNet, и все потеряли рассудок
(Момент 2012 года, когда CNN сели на стероиды, и компьютерное зрение уже никогда не стало прежним)
30 сентября 2012 года. Сонный конференц-отель в озере Тахо, Невада.
Вот-вот объявят результаты ImageNet Large Scale Visual Recognition Challenge (ILSVRC).
Лидерборд предыдущих двух лет выглядел так:
— Ручные признаки + мелкие классификаторы: ~74% top-5 accuracy
— Все остальные: тоже ~74% top-5 accuracy
— Реальная производительность человека (по словам каких-то русских студентов, которым заплатили $5): ~95%
А потом какой-то случайный чувак из Университета Торонто по имени Алекс Крижевский загружает сабмишн под названием «SuperVision» (позже переименованный в AlexNet) и выдаёт небрежные 84.7% top-5 accuracy.
Второе место в том году — 73.8%.
Это не победа. Это приехать на Lamborghini на велогонку, устроить burnout и поджечь трассу.
Рецепт, который сломал реальность (8 слоёв чистого хаоса)
Разберём, что на самом деле сделал Алекс. Спойлер: в 2025 году это выглядит до смешного просто.
— Всего 8 слоёв (5 свёрточных +3 полносвязных). В 2025 мы зовём это «крошечной игрушечной моделью». В 2012 это была самая глубокая сеть, которую кому-либо удалось успешно обучить.
— ReLU вместо tanh/sigmoid. Помните vanishing gradients? ReLU их прикончила.
— Две GTX 580, общающиеся друг с другом по PCIe, как в 1999 году. Алекс буквально разрезал сеть пополам, потому что на одной карте было всего 3 ГБ VRAM. Две видеокарты обменивались сообщениями, как два обдолбанных чувака, пытающихся скоординировать заказ пиццы.
— Data augmentation на стероидах: Случайные кропы, горизонтальные флипы и — вот грязный секрет — PCA по RGB-каналам, чтобы искусственно менять освещение. Да, они дёргали цвета, как сломанный телевизор, и это сработало.
— Dropout (свежая придумка Хинтона). Случайно выключает 50% нейронов во время обучения, чтобы сеть не переобучалась. По сути, электрошоковая терапия для нейросетей.
— Обучалась 5–6 дней на двух GPU. Стоимость: примерно $300 за электричество + запах горелого кремния.
Вот и всё. Никакой новой теории. Просто backpropagation из 1986-го, ReLU из 2010-го и больше вычислительной мощи, чем кто-либо осмеливался использовать раньше.
Реакция была библейской
— Фэй-Фэй Ли (создательница ImageNet) якобы сказала: «Holy shit».
— Янн ЛеКун (отец CNN) твитнул что-то на французском, примерно переводящееся как «Я ждал этого 20 лет».
— Эндрю Ын велел всей своей группе в Стэнфорде бросить всё и переходить на глубокое обучение.
— Акции NVIDIA начали десятилетний полёт на Луну.
За 12 месяцев каждая лаборатория компьютерного зрения на планете выкинула SIFT, HOG, bag-of-visual-words, deformable part models и всё, что придумали до 2012 года.
Ручные признаки умерли быстрее, чем Blockbuster Video.
Мем, который объясняет всё
В 2013 году стал вирусным такой мем:
Верхняя половина: заголовки статей 2011 года вроде «Hierarchical Matching Pursuit for Image Classification» Нижняя половина: заголовки 2013 года вроде «CNN, ReLU, Dropout, Done.»
Это была вся область.
Что на самом деле выучила AlexNet (мы заглянули)
В 2013 году Zeiler & Fergus применили к AlexNet деконволюцию и обнаружили:
— Слой 1: фильтры Габора и цветовые пятна (то же самое, что Хьюбел и Визель нашли в мозге кошки в 1959 году)
— Слой 3: текстуры, сетки, текст
— Слой 5: морды собак, колёса, цветы
— Финальные слои: целые объекты
Чёртова штука самостоятельно переизобрела нейронауку.
Последствия (2012–2015)
2013: ZFNet (победитель) — по сути AlexNet, но с лучшей визуализацией 2014: VGG (Оксфорд) — AlexNet, но глубже и только с 3×3 фильтрами. Так скучно, что стало новым стандартом. 2015: ResNet (Microsoft) — 152 слоя, skip connections, и фраза «very deep» перестала быть шуткой.
К 2017 году top-5 ошибка на ImageNet упала ниже 3%. Лучше людей.
Мы перебили всех драконов, поэтому начали делать это с завязанными глазами, одной рукой и в пьяном виде.
Одна строчка, которая изменила историю
В оригинальной статье AlexNet, спрятанная в разделе 3.2:
«Мы используем rectified linear units (ReLU), потому что обучение с ними в несколько раз быстрее, чем с tanh-юнитами».
Эта единственная фраза стоит больше денег, чем ВВП нескольких небольших стран.
Мораль истории
Иногда прогресс — это не новая формула.
Иногда это просто кто-то достаточно смелый (или безрассудный), чтобы в 10 раз увеличить compute на старую формулу и посмотреть, что будет.
Алекс не изобрёл свёртку. Он не изобрёл backpropagation. Он просто повернул ручку «размер» дальше, чем все остальные боялись.
И вселенная моргнула.
Следующая глава: прыгаем в 2017 год, когда инженер Google по имени Ашиш Васвани написал самую наглую статью в истории — «Attention Is All You Need» — и случайно убил все RNN, которые когда-либо существовали.
Спойлер: она тоже работает на том же самом backpropagation из главы 2. Мы не креативны. Мы просто получили лучшие GPU.
Готовы к апокалипсису трансформеров?
Глава 5 — Трансформеры — это всё, что вам нужно
(Нет, правда, это реальное название статьи. У этих ребят вообще нет тормозов)
12 июня 2017 года. Восемь исследователей из Google и один профессор из Корнелла загружают на arXiv статью под названием «Attention Is All You Need».
В абстракте — ноль формул, одна диаграмма и тихая уверенность человека, который только что стёр с лица земли всю область моделирования последовательностей.
Через полгода все рекуррентные нейронные сети (RNN, LSTM, GRU) отправились в дом престарелых играть в бинго и жаловаться на нынешнюю молодёжь.
Через два года выражение «до-трансформерный» стало академическим сленгом для «древнего мусора».
Место преступления: что они на самом деле сделали
Предыдущее состояние искусства для перевода, речи и т.п.:
— Энкодер: двунаправленный LSTM
— Декодер: ещё один LSTM с приделанным сверху attention
— Время обучения: геологическое
— Параллелизация: ха-ха, нет
Трансформер:
— Без рекуррентности
— Без свёрток
— Только attention. Чистое, милитаризованное attention.
Архитектура выглядит так (да, мем реален):
x → [Self-Attention → Add & Norm → Feed Forward → Add & Norm] × N ↑ ↓ + — — — — — — — — — — — — — — — — — — — + Повтори этот блок 6 раз для энкодера, 6 раз для декодера, добавь positional encodings, потому что мы выкинули порядок, — и готово.
Скорость обучения перешла от «сначала защити диссертацию» к «сходи за кофе».
Одна идея, которая убила всё: Scaled Dot-Product Attention
Вся революция в четырёх строчках:
Attention (Q, K, V) = softmax ((Q K^T) / √d_k) V
Вот и вся статья.
— Q = Query (что я ищу?)
— K = Key (что у меня есть?)
— V = Value (что я реально возвращаю?)
Считаешь, насколько каждая позиция должна обращать внимание на каждую другую, через скалярное произведение запросов и ключей, масштабируешь на √размерность, чтобы softmax не взорвался, маскируешь при необходимости и умножаешь на значения.
Multi-head — делаешь это 8–128 раз параллельно и конкатенируешь. Потому что зачем останавливаться на одном преступлении?
Self-attention — Q, K, V все из одного входа. Cross-attention — декодер смотрит на выходы энкодера, как сталкер.
Positional Encoding: хак, который не должен работать, но работает
Поскольку у attention нет понятия порядка, они просто добавили синусоидальные и косинусоидальные волны разных частот к входным эмбеддингам:
PE (pos,2i) = sin (pos / 10000^ {2i/d}) PE (pos,2i+1) = cos (pos / 10000^ {2i/d})
Это эквивалентно приклеиванию скотчем часов к мешку линейной алгебры и надежде на лучшее.
Работает идеально. Мы до сих пор до конца не понимаем почему.
Массовое убийство 2017–2025: хронология
2018 — BERT: «Давайте просто замажем слова и будем их предсказывать» → новый SOTA по всему языковому 2019 — GPT-2: «Давайте просто генерировать текст, пока OpenAI не испугается и не спрячет самую большую модель» 2020 — GPT-3: 175 миллиардов параметров, few-shot learning и рождение профессии prompt engineering 2021 — DALL·E, CLIP: та же архитектура, но теперь для картинок через «вот вам 400 миллионов пар картинка-текст, удачи» 2022 — ChatGPT: GPT-3.5 + RLHF → нормальные люди узнали, что ИИ существует 2023 — Утечка Llama 1 → open-source догнал за 11 месяцев 2024 — Llama 3 405B, Grok, Claude 3.5 → закрытые и открытые модели начинают обгонять друг друга еженедельно 2025 — Трансформер официально стал тараканом глубокого обучения.
Часть, которая должна заставить нас всех краснеть
Оригинальный трансформер использовал:
— Словарь 65 000 токенов
— Максимальная длина последовательности 512
— 8 голов
— Hidden size 2048
— 6 слоёв
В 2025 году мы до сих пор используем почти те же числа. Просто сделали всё в 1000 раз больше и добавили модные инициализации.
Это как изобрести колесо, а потом восемь лет спорить, из углеродного волокна или вибраниума делать его чуть более круглым.
Теории «почему это вообще сработало?» (выбирай любимую)
— Attention = марковская модель бесконечного порядка на стероидах
— Трансформеры просто очень хорошо умеют маршрутизировать информацию («neural GPU» теория)
— Мы случайно построили дифференцируемые операции поиска в базе данных
— Ландшафт потерь перепараметризованных трансформеров магическим образом выпуклый в функциональном пространстве (да, серьёзно)
— Обезьяны + пишущие машинки +400 000 GPU = Шекспир
Одно уравнение, которое правит всеми
Если AlexNet — это «ReLU + больше = победа», то мантра трансформера:
«Убрать рекуррентность → заменить на attention → масштабировать до абсурдных размеров → профит»
Следующая глава: смотрим, как OpenAI обнаруживает, что если взять тот же трансформер, сделать его ооочень-ооочень большим и обучить предсказывать посты с Reddit, он вдруг начинает делать за тебя домашку, писать юридические документы и ролеплейить саркастичного кота.
Спойлер: они назвали это GPT, что расшифровывается как «Generative Pre-trained Transformer», но мы все знаем, что на самом деле это значит «Боже, пожалуйста, остановись».
Глава 6 — GPT-1, GPT-2, GPT-3, GPT-4, Grok, Claude, Llama… Гипотеза масштабирования и почему размер, похоже, имеет значение (очень большое)
В 2020 году небольшая группа исследователей в OpenAI сделала то, за что их должны были выставить из здания со смехом.
Они взяли точно такой же декодер-трансформер 2017 года, сделали его глупо огромным, обучили почти на всём интернете и обнаружили, что он умеет:
— писать стихи
— решать задачи по матанализу
— генерировать рабочий Python
— проваливать тест Тьюринга так сильно, что тестировщик попросил у него номер телефона
Они назвали эту случайную божественную машину GPT-3, а в статье был ровно один график, который разорвал всю область пополам.
График, который закончил все споры
«Scaling Laws for Neural Language Models» (Kaplan et al., 2020) показал три прямые линии на лог-лог графике:
— Делаешь модель больше → loss падает (предсказуемо)
— Добавляешь больше данных → loss падает (предсказуемо)
— Добавляешь больше вычислений → loss падает (предсказуемо)
И главное: все три линии имели почти одинаковый наклон.
Перевод: никакого секретного соуса нет.
Есть только соус, и его количество измеряется в FLOPs.
Это стало известно как Scaling Hypothesis, хотя более честное название — «Горький урок 2.0» (привет Ричи Саттону, который сказал это ещё в 2009-м, и его проигнорировали).
Хронология коллективного безумия
Июнь 2018 — GPT-1
— 117 миллионов параметров
— Мило. Умел заканчивать предложения.
— Все: «Прикольная игрушка»
Февраль 2019 — GPT-2
— 1,5 миллиарда параметров
— OpenAI отказывается выпускать полную модель, потому что «слишком опасно»
— Интернет теряет рассудок, три года подряд называет Сэма Альтмана трусом
— Кто-то всё равно выкладывает. Ничего страшного не происходит, кроме очень качественной эротики
Июнь 2020 — GPT-3
— 175 миллиардов параметров
— 45 ТБ текстовых данных
— Стоимость обучения $4–12 млн (оценки разнятся)
— Первый раз языковая модель проходит тест «моя мама думает, что это реальный человек»
— Prompt engineering становится профессией с шестизначной зарплатой за ночь
2021–2022 — Гонка на дно (кривой потерь)
— Jurassic-1 (AI21)
— Gopher (DeepMind)
— Megatron-Turing NLG (NVIDIA/Microsoft)
— Все тихо понимают, что график так и не согнулся. Всё ещё прямая линия.
— Начинается паника.
2023 — Утечки, драма, восстание open-source
— Март: LLaMA 65B утекает на 4chan
— Через 11 дней: кто-то запускает её на MacBook
— Через 30 дней: Alpaca, Vicuna, Koala — файнтьюны, которые догоняют или обходят GPT-3.5 за $100
— Meta случайно изобрела «вертолёт Apache» open-source ИИ
2024 — Год, когда «закрытый» перестал что-либо значить
— LLaMA 3 405B
— Mistral, Mixtral, потом Mixtral-но-MoE-и-как-то-лучше
— Claude 3 Opus обходит GPT-4 по большинству бенчмарков, будучи чуть менее зацензуренным
— Grok-1 выложили в сырых весах, потому что Илон в ту неделю злился в Твиттере
— Тренировки теперь измеряются в «эффективных эксаFLOPs» и «сколько кластеров H100 помещается на одну налоговую льготу»
К концу 2025 года область достигла какого-то абсурдного уровня зрелости. Фронтирные модели тихо перешагнули триллион параметров, Mixture-of-Experts стал стандартом, а разрыв между закрытыми и открытыми моделями измеряется неделями, а не годами.
— Лучшая публично признанная модель: где-то за 2 триллиона параметров
— Лучшая по слухам: кто знает, они перестали нам рассказывать
— Стоимость обучения: $1–5 млрд за один запуск
— Всё тот же трансформер 2017 года. Просто выше.
Четыре закона современного ИИ
— Если на лог-лог графике прямая линия — ты ещё недостаточно масштабировал.
— Время до нового SOTA теперь измеряется днями после выхода любой новой модели.
— Любой «секретный приём» стоит максимум 5% производительности. Остальные 95% — это просто больше данных и вычислений.
— Если твоя модель не может что-то сделать при 1 млрд параметров, она точно сможет при 1 триллионе. (Скорее всего.)
Поправка Чинчиллы (потому что реальность должна была всё испортить)
2022: DeepMind выпускает «Training Compute-Optimal Large Language Models»
Вывод: мы все недообучали свои модели.
Оптимальное соотношение: ~20 токенов на параметр
Все, кто обучал 175B на 300B токенов, внезапно почувствовали себя очень глупо.
Мы тихо удвоили объёмы обучения и сделали вид, что старые модели никогда не существовали.
Где мы сейчас
— Фронтирные лаборатории обучают (или уже обучили) модели в диапазоне 3–10 триллионов параметров
— Mixture-of-Experts (MoE) — стандарт: только 10–30% параметров активны на токен, так что 8×405B MoE ≈ ~3 трлн эффективных
— Стоимость инференса лучшей модели: ~$20–100 за миллион токенов, если ты дружишь с нужным облачным провайдером
— Прошлогодний SOTA можно запустить на одной H100 за копейки
— Разрыв между закрытыми и лучшими открытыми моделями теперь измеряется неделями, а не годами
Финальная позорная правда
Бесплатный фрагмент закончился.
Купите книгу, чтобы продолжить чтение.