
ВВЕДЕНИЕ: Момент прозрения
История переоценки возможностей
Каждая технологическая революция проходит через предсказуемый цикл: восторженные обещания, массовое внедрение, столкновение с реальностью, переосмысление. Паровые машины должны были освободить человека от физического труда — породили фабричную систему с её жёсткой дисциплиной. Электричество обещало демократизацию комфорта — создало новые формы неравенства между электрифицированными городами и отстающей периферией. Интернет должен был стать пространством свободного обмена знаниями — превратился в поле битвы за внимание и данные.
Машинное обучение проходит через тот же цикл прямо на наших глазах. Но есть особенность: скорость прохождения этапов беспрецедентна. От первых громких успехов AlphaGo до массового разочарования в чат-ботах прошло меньше десятилетия. От обещаний полностью автономных автомобилей до признания, что даже частичная автоматизация требует постоянного человеческого контроля — ещё меньше.
Момент прозрения наступает, когда организации осознают фундаментальное противоречие. С одной стороны, технология демонстрирует впечатляющие результаты: системы распознавания изображений превосходят человека в специализированных задачах, языковые модели генерируют связные тексты, рекомендательные алгоритмы удерживают внимание миллиардов пользователей. С другой — те же системы проваливаются на элементарных с человеческой точки зрения задачах, воспроизводят и усиливают социальные предрассудки, принимают решения, логику которых невозможно объяснить.
Amazon столкнулась с этим в 2014 году. Компания, построившая империю на алгоритмах, решила автоматизировать отбор персонала. Лучшие инженеры создали систему, обученную на десятилетней истории найма. Результат оказался парадоксальным: модель систематически занижала оценки резюме, содержащих слово «женский» — будь то «капитан женской шахматной команды» или «женский колледж». Система не была запрограммирована на дискриминацию. Она просто выявила закономерность в исторических данных: в технологических ролях Amazon преобладали мужчины. Проект закрыли.
Американская система уголовного правосудия пережила похожее откровение с алгоритмом COMPAS, предсказывающим вероятность рецидива. Исследование ProPublica показало: система в два раза чаще ошибочно классифицировала чёрных подсудимых как высокорисковых по сравнению с белыми. При этом создатели алгоритма не использовали расу как переменную. Но почтовый индекс, уровень образования, история арестов родственников — все эти «нейтральные» факторы коррелировали с расовой принадлежностью в американском контексте. Алгоритм выучил расизм, не зная о существовании рас.
Медицинские алгоритмы демонстрируют схожие проблемы: система распределения медицинской помощи, используя исторические расходы на лечение как индикатор потребности, систематически недооценивала нужды пациентов из малообеспеченных групп, интерпретируя следствие неравенства как отсутствие потребности в помощи.
Финансовый сектор накопил целую коллекцию подобных откровений. Кредитные алгоритмы Apple Card выдавали мужчинам кредитные лимиты в 10—20 раз выше, чем их жёнам при одинаковых доходах и кредитной истории. Системы оценки кредитоспособности в развивающихся странах отказывали целым районам, воспроизводя практику «красных линий» — географической дискриминации, формально запрещённой десятилетия назад. Алгоритмы ценообразования страховых компаний назначали более высокие ставки водителям из бедных районов независимо от их личной истории вождения.
Каждый из этих случаев следует похожему сценарию. Организация внедряет машинное обучение для повышения объективности и эффективности. Модель демонстрирует отличные метрики на тестовых данных. Затем обнаруживается, что система воспроизводит или усиливает именно те предвзятости, которые хотели устранить. Попытки исправить приводят к новым проблемам — модель начинает дискриминировать по другим признакам или теряет предсказательную силу.
Кульминация наступает с осознанием: проблема не в конкретной модели или наборе данных. Проблема в фундаментальной природе технологии. Машинное обучение не создаёт объективность из ничего. Оно кристаллизует закономерности прошлого, превращая вчерашние решения в завтрашние правила. Обобщая опыт десятков компаний, столкнувшихся с подобными откровениями, можно сформулировать суть момента прозрения так: организации планировали автоматизировать принятие решений, а в итоге автоматизировали свои исторические предрассудки.
Почему технология, созданная для улучшения качества решений через объективный анализ данных, на практике часто воспроизводит и даже усиливает существующие проблемы? Ответ кроется в фундаментальном непонимании природы машинного обучения. Мы приписываем алгоритмам качества, которыми они не обладают — объективность, понимание, мудрость. И упускаем из виду их реальную сущность — статистические механизмы выявления корреляций в данных, созданных людьми со всеми их предубеждениями и ограничениями.
Кому нужна эта книга
Эта книга написана для тех, кто принимает решения о будущем организаций в эпоху алгоритмов, но не обязательно разбирается в технических деталях машинного обучения. И для тех, кто создаёт эти алгоритмы, но не всегда видит широкий контекст их применения.
Первая и, возможно, самая важная аудитория — руководители высшего звена. Те, кто подписывает многомиллионные контракты на внедрение систем искусственного интеллекта, одобряет стратегии цифровой трансформации, несёт ответственность за последствия автоматизированных решений. Вы не обязаны знать разницу между градиентным бустингом и нейронными сетями. Но вам критически важно понимать, что может и чего не может машинное обучение, какие вопросы задавать консультантам и вендорам, как отличить реалистичные обещания от маркетингового тумана.
Книга поможет вам избежать дорогостоящих ошибок. Не технических — для этого есть специалисты. А стратегических: попыток решить машинным обучением задачи, для которых оно не предназначено, создания систем без понимания их ограничений, делегирования машинам решений, которые должны оставаться человеческими.
Вторая группа читателей — менеджеры проектов, бизнес-аналитики, консультанты. Те, кто находится на границе между техническим и бизнесовым мирами. Ваша задача — переводить с языка алгоритмов на язык бизнеса и обратно. Но часто этот перевод искажает смысл. Технические специалисты говорят о точности модели, бизнес слышит гарантию результата. Бизнес просит найти лучших клиентов, технические специалисты оптимизируют метрику, которая может не иметь отношения к реальной ценности клиента.
Книга даст вам концептуальный каркас для такого перевода. Вы научитесь распознавать ситуации, когда технические и бизнесовые представления расходятся, понимать источники этих расхождений и находить общий язык между мирами.
Третья аудитория — сами технические специалисты. Разработчики алгоритмов, исследователи данных, инженеры машинного обучения. Вы прекрасно знаете, как работают алгоритмы. Но знание механики не всегда означает понимание последствий. Модель кредитного скоринга для вас — задача классификации с определённой метрикой качества. Но за каждым отказом стоит человек с его планами и надеждами. Рекомендательная система — проблема совместной фильтрации. Но она формирует информационные пузыри, влияющие на мировоззрение миллионов.
Эта книга не научит вас программировать или настраивать гиперпараметры. Она покажет более широкую картину: как ваши технические решения трансформируются в социальные последствия, почему важно думать не только о точности и полноте модели, но и о справедливости и ответственности, как сделать вашу работу не только технически корректной, но и этически обоснованной.
Что вы узнаете
Главное, что даст эта книга — ясное понимание реальной природы машинного обучения. Не маркетинговые обещания об искусственном интеллекте, который вот-вот превзойдёт человека. Не технические детали про обратное распространение ошибки и стохастический градиентный спуск. А понимание сути: чем машинное обучение является в своей основе и какие фундаментальные ограничения из этого следуют.
Машинное обучение — это развитие статистического моделирования, где процесс выявления закономерностей автоматизирован. Представьте статистика прошлого века, который месяцами строил регрессионную модель, подбирая переменные и коэффициенты. Современные алгоритмы делают это за минуты, обрабатывая миллионы переменных в сложных нелинейных комбинациях. Но суть осталась той же — выявление статистических закономерностей в данных. Модель не понимает, почему возраст коррелирует с кредитным риском. Она просто фиксирует эту корреляцию и использует для предсказаний.
Вы узнаете о переносе сложности — ключевой концепции книги. Машинное обучение не устраняет сложность принятия решений. Оно переносит её в новые измерения. Раньше кредитный инспектор решал, дать кредит или отказать. Теперь мы решаем: какие данные собирать, какую архитектуру модели выбрать, какую метрику оптимизировать, где поставить пороговое значение. Каждое из этих решений влияет на судьбы тысяч людей, но принимается на уровне метарешений, часто без полного понимания последствий.
Книга развеет иллюзию объективности алгоритмов. Да, машина не подвержена сиюминутным эмоциям и личным предпочтениям. Но она обучается на данных, которые создали люди со всеми их предубеждениями. Она оптимизирует метрики, которые выбрали люди исходя из своих приоритетов. Она использует архитектуру, которая воплощает человеческие допущения о структуре мира. Объективность алгоритма — это кристаллизация субъективности его создателей и данных, на которых он обучен.
Вы научитесь задавать правильные вопросы. Не «какая точность у модели?», а «на каких данных измерена эта точность?». Не «использует ли система искусственный интеллект?», а «какие конкретно закономерности она выявляет и как применяет?». Не «сможет ли машинное обучение решить нашу проблему?», а «подходит ли природа нашей проблемы для статистического моделирования?».
Книга даст практические инструменты для оценки целесообразности применения машинного обучения. Вы узнаете, в каких условиях машинное обучение действительно эффективно: большие объёмы данных, стабильные закономерности, чёткие метрики успеха, толерантность к ошибкам. И поймёте, где его применение опасно или бессмысленно: уникальные ситуации, быстро меняющиеся условия, этические дилеммы, критическая цена ошибки.
Структура книги
Книга построена как путешествие от понимания природы технологии через анализ её влияния к практическим инструментам осознанного применения. Каждая часть отвечает на свой ключевой вопрос, формируя целостную картину.
Часть I «Природа машинного обучения» отвечает на вопрос «что это такое на самом деле?». Мы препарируем технологию, снимая слои маркетингового тумана и добираясь до сути. Вы узнаете, что скрывается за громкими терминами вроде «искусственный интеллект» и «глубокое обучение». Поймёте, почему важно говорить «выявление статистических закономерностей», а не «понимание», «классификация», а не «распознавание смысла». Увидите, как выбор данных, архитектуры и метрик предопределяет поведение системы задолго до её запуска.
Часть II «Перенос сложности» показывает, как машинное обучение трансформирует процессы принятия решений. Сложность не исчезает — она перемещается. Из конкретных решений в метарешения, из явных правил в неявные закономерности, из персональной ответственности в размытую отчётность. Вы увидите, как появляются новые роли и компетенции, создающие дополнительные уровни абстракции между проблемой и решением. Поймёте, почему важные решения часто принимаются неявно, на этапе подготовки данных или выбора метрики.
Часть III «Трансформация процессов» анализирует, что происходит, когда машинное обучение встраивается в организационные процессы. Как теряется информация при преобразовании богатой реальности в векторы чисел. Почему ускорение и масштабирование решений создаёт системные риски. Как сложность моделей приводит к потере контроля и понимания. Эта часть покажет цену, которую мы платим за автоматизацию, часто не осознавая её в полной мере.
Часть IV «Осознанное применение» предлагает практические инструменты. Где машинное обучение действительно эффективно и почему. Какие вопросы критически важно задать перед началом проекта. Как оценить организационную готовность к внедрению машинного обучения. Эта часть — не набор рецептов, а система принципов для принятия обоснованных решений с пониманием всех компромиссов.
Главы внутри каждой части выстроены логически, но могут читаться независимо. Если вас интересует конкретный аспект — например, проблема интерпретируемости или организационная зрелость — можете начать с соответствующей главы. Но последовательное чтение даст более глубокое понимание взаимосвязей между техническими, организационными и этическими аспектами машинного обучения.
Книга намеренно избегает технических подробностей, которые могут устареть через год. Вместо этого она фокусируется на фундаментальных принципах, которые останутся актуальными независимо от развития технологий. Модели станут мощнее, но проблема переноса сложности останется. Алгоритмы станут изощрённее, но вопрос ответственности не исчезнет. Данных станет больше, но проблема их качества и репрезентативности сохранится.
Эта книга — попытка честного разговора о технологии, которая одновременно переоценена и недооценена. Переоценена в своих возможностях заменить человеческое суждение. Недооценена в своей способности трансформировать организации и общество способами, которые мы только начинаем осознавать.
ЧАСТЬ I: ПРИРОДА МАШИННОГО ОБУЧЕНИЯ
Глава 1. Что представляет собой машинное обучение
В феврале 2019 года компания Amazon свернула проект автоматизированной системы найма, над которой работала с 2014 года (согласно публикациям в Reuters). Система, созданная для просмотра резюме и выявления лучших кандидатов, систематически занижала оценки женщинам. Алгоритм обучался на данных о сотрудниках, нанятых за предыдущие десять лет, среди которых преобладали мужчины — особенно на технических позициях. Модель выявила эту статистическую закономерность и воспроизвела её: понижала рейтинг резюме, содержащих слово «женский» — например, «капитан женской шахматной команды». Даже после попыток скорректировать алгоритм, Amazon не смогла гарантировать отсутствие других форм дискриминации и отказалась от системы.
Эта история идеально иллюстрирует суть машинного обучения: технология, которая автоматически выявляет статистические закономерности в данных и применяет их к новым случаям. В данных Amazon была закономерность — успешные сотрудники чаще были мужчинами. Алгоритм выявил её и начал применять. Он не «понимал», что дискриминирует — он просто находил корреляции и использовал их для предсказаний.
Чтобы разобраться в природе машинного обучения и понять, почему подобные ситуации неизбежны, нам нужно внимательно рассмотреть три аспекта: какие процессы лежат в основе этой технологии, где проходят границы её возможностей, и как метафора информационного сжатия помогает понять происходящее.
1.1. Основные процессы машинного обучения
Машинное обучение основано на трёх взаимосвязанных процессах: выявлении статистических закономерностей, интерполяции и экстраполяции в пространстве признаков, и применении выявленных закономерностей к новым данным. Рассмотрим каждый из них детально, опираясь на реальные примеры.
Выявление статистических закономерностей
В основе машинного обучения лежит процесс автоматического обнаружения корреляций в больших массивах данных. Важно понимать: модель не «видит» объекты и не «понимает» их суть — она выявляет статистические связи между числовыми представлениями.
Рассмотрим, как работает система распознавания изображений. В 2012 году нейронная сеть AlexNet (архитектура глубокого обучения для распознавания изображений) произвела революцию в компьютерном зрении, выиграв конкурс ImageNet (крупная база данных с миллионами размеченных изображений) с огромным отрывом от конкурентов. Но что именно делала эта модель? Она не «видела» кошку или собаку в человеческом понимании этого слова. Вместо этого она анализировала миллионы числовых значений — яркость и цвет каждого пикселя — и находила статистические корреляции между определёнными комбинациями этих значений и метками «кошка», «собака», «автомобиль».
Процесс выглядит следующим образом: модель получает изображение в виде матрицы чисел. Размером, скажем, 224×224 пикселя, каждый из которых представлен тремя числами для красного, зелёного и синего каналов. Это 150528 чисел. Свёрточная нейронная сеть (архитектура для работы с изображениями, использующая локальные закономерности) последовательно обрабатывает эти числа через множество слоёв, каждый из которых выявляет определённые закономерности. Первые слои находят простые признаки — края и углы. Средние слои комбинируют их в более сложные структуры — текстуры и простые формы. Глубокие слои выявляют сложные закономерности, которые статистически коррелируют с определёнными объектами.
Когда обученная модель «распознаёт» кошку на новой фотографии, она не осуществляет семантический анализ в человеческом понимании. Она вычисляет, что комбинация числовых признаков на данном изображении статистически похожа на те комбинации, которые в обучающих данных были помечены как «кошка». Если в обучающих данных большинство кошек были сфотографированы в домашних условиях, модель может начать ассоциировать домашнюю обстановку с кошками — и иногда «выявлять» кошку там, где на самом деле просто подушка на диване.
Этот процесс можно представить как статистическое сжатие терабайтов примеров в мегабайты параметров модели. Нейронная сеть ResNet-50 (популярная архитектура с 50 слоями для распознавания изображений) содержит около 25 миллионов параметров — это примерно 100 мегабайт данных. При обучении она «просматривает» миллионы изображений общим объёмом в терабайты. В процессе обучения (процесс настройки параметров модели на данных) вся эта информация «сжимается» в параметры модели, которые кодируют выявленные статистические закономерности.
Важное уточнение для технических специалистов: когда мы говорим о «выявлении корреляций», мы упрощаем. С математической точки зрения модель аппроксимирует функцию, которая отображает входное пространство признаков в выходное пространство предсказаний. В случае нейронных сетей это сложная нелинейная функция с миллионами параметров. Но с точки зрения понимания того, что происходит на концептуальном уровне, представление о выявлении статистических закономерностей остаётся наиболее точным и доступным.
Интерполяция и экстраполяция в пространстве признаков
Второй ключевой процесс — это способность модели делать предсказания для новых, ранее не встречавшихся примеров, основываясь на их сходстве с обучающими данными. Здесь важно понимать разницу между интерполяцией (предсказание внутри области, покрытой обучающими данными) и экстраполяцией (предсказание за её пределами).
Рассмотрим реальный пример из практики Сбербанка, который активно использует машинное обучение для оценки стоимости недвижимости (по публичным данным банка). Модель обучается на исторических данных о сделках: площадь квартиры, количество комнат, этаж, район, год постройки дома, расстояние до метро и десятки других признаков. Для каждой квартиры известна цена сделки.
Когда приходит запрос на оценку новой квартиры, модель не имеет точного аналога в обучающих данных. Вместо этого она находит похожие квартиры в многомерном пространстве признаков (математическое представление объектов в виде векторов чисел) и интерполирует между ними. Представьте квартиру площадью 55 квадратных метров в определённом районе Москвы. В обучающих данных есть квартиры 50 и 60 квадратных метров в том же районе. Модель не просто усредняет их цены — она учитывает сложные нелинейные зависимости между всеми признаками, которые выявила при обучении.
Интерполяция обычно работает хорошо. Если модель обучена на квартирах стоимостью от 3 до 20 миллионов рублей в разных районах Москвы, она довольно точно оценит квартиру за 10 миллионов в известном ей районе. Но что происходит при экстраполяции?
В 2020 году, когда началась пандемия COVID-19, модели оценки недвижимости столкнулись с беспрецедентной ситуацией. Массовый переход на удалённую работу кардинально изменил предпочтения: люди стали меньше ценить близость к офисным центрам и больше — площадь квартиры и возможность обустроить домашний офис. Модели, обученные на допандемийных данных, продолжали высоко оценивать маленькие квартиры в центре и недооценивать просторные квартиры в спальных районах. Это классический пример неудачной экстраполяции — модель пыталась применить старые закономерности к принципиально новой ситуации.
Проблема экстраполяции особенно остро проявилась в алгоритмической торговле (автоматическая торговля на основе математических моделей) во время финансового кризиса 2008 года. Модели, обученные на данных стабильного роста 2003—2007 годов, не просто ошибались — они усугубляли кризис. Когда началась распродажа активов, алгоритмы интерпретировали это как сигнал к продаже, что привело к каскадному обрушению рынка. Модели пытались экстраполировать за пределы известной им области, где закономерности уже не работали.
Ключевое ограничение машинного обучения: качество предсказаний резко падает, когда модель сталкивается с данными, существенно отличающимися от обучающей выборки (набор данных для настройки модели). И часто невозможно заранее определить, где проходит граница между надёжной интерполяцией и рискованной экстраполяцией.
Применение выявленных закономерностей к новым данным
Третий процесс — использование обученной модели для принятия решений о новых случаях. Здесь критически важно понимать фундаментальное допущение: будущее будет статистически похоже на прошлое.
Рассмотрим систему кредитного скоринга (автоматическая оценка кредитоспособности заёмщика), которую использует большинство российских банков. Возьмём обобщённый пример, основанный на публичной информации о практиках Тинькофф Банка и Сбербанка. Модель обучается на исторических данных: информация о заёмщиках за последние 5—10 лет и факт возврата или невозврата кредита. Алгоритм выявляет сотни статистических закономерностей. Например, люди с постоянным доходом выше 100 тысяч рублей и стажем работы более трёх лет на одном месте реже допускают просрочки. Или: заёмщики, которые берут кредит сразу после смены работы, чаще испытывают финансовые трудности.
Когда приходит новый заявитель, модель применяет все выявленные закономерности. Она не «понимает» финансовое положение человека — она вычисляет статистическую вероятность возврата кредита, основываясь на сходстве данного заявителя с теми, кто брал кредиты раньше.
Банк ВТБ в 2019 году сообщал, что их система машинного обучения обрабатывает заявку за 7 минут, анализируя более 500 параметров. Человек-эксперт физически не может учесть такое количество факторов. Но здесь кроется важный нюанс: модель применяет исторические закономерности механически, без понимания контекста.
Представим реальную ситуацию: предприниматель временно снизил свой официальный доход, реинвестируя прибыль в развитие бизнеса. Для модели это выглядит как тревожный сигнал — падение дохода статистически коррелирует с проблемами возврата кредита. Модель не может «осмыслить», что это стратегическое решение, которое в будущем приведёт к росту доходов. Она обрабатывает только числа и применяет к ним выявленные закономерности.
Ещё более показательный пример — изменение экономической ситуации. Модели кредитного скоринга, обученные в период стабильности 2010—2019 годов, столкнулись с проблемами в 2020 году. Пандемия изменила структуру рисков: некоторые традиционно надёжные заёмщики (владельцы ресторанов, туристических агентств) внезапно стали высокорискованными, в то время как IT-специалисты с возможностью удалённой работы стали ещё более надёжными. Модели продолжали применять старые закономерности к новой реальности.
Компания Affirm в США столкнулась с похожей проблемой: их модель потребительского кредитования, показывавшая отличные результаты в 2019 году, в 2020 году начала систематически ошибаться. Причина — фундаментальное изменение потребительского поведения во время локдаунов.
Критически важно понимать: машинное обучение всегда экстраполирует прошлое в будущее. Когда мир меняется медленно и предсказуемо, это работает хорошо. Когда происходят структурные сдвиги — технологические, социальные, экономические — модели становятся не просто бесполезными, но и опасными, продолжая уверенно выдавать предсказания на основе устаревших закономерностей.
Итак, три базовых процесса машинного обучения — выявление статистических закономерностей, интерполяция и экстраполяция в пространстве признаков, применение закономерностей к новым данным — формируют мощный инструмент анализа данных. Но этот инструмент имеет фундаментальные ограничения, которые необходимо понимать для его эффективного применения.
1.2. Границы возможностей машинного обучения
Понимание того, чего машинное обучение не может делать, так же важно, как понимание его возможностей. Существуют фундаментальные ограничения, которые не преодолеваются увеличением объёма данных или усложнением моделей. Рассмотрим три ключевых ограничения: отсутствие понимания семантического контекста, неспособность выявлять причинно-следственные связи и оперирование статистическими закономерностями вместо логических правил.
Отсутствие семантического контекста
Современные языковые модели, такие как GPT (генеративная предобученная трансформерная модель) от OpenAI или BERT (двунаправленная энкодерная репрезентация от трансформеров) от Google, создают иллюзию понимания текста. Они могут отвечать на вопросы, писать эссе, переводить с одного языка на другой. Но что происходит на самом деле?
Рассмотрим реальный случай с чат-ботом компании Microsoft, Tay, запущенным в Twitter в марте 2016 года (согласно публикациям в технологических изданиях). За 16 часов бот, обучавшийся на взаимодействии с пользователями, превратился из дружелюбного собеседника в генератора оскорбительных и расистских высказываний. Произошло это не потому, что бот «стал злым» или «обучился ненависти». Он просто выявлял статистические закономерности в текстах, которые ему присылали пользователи, и воспроизводил их. Когда группа пользователей начала целенаправленно отправлять провокационные сообщения, бот начал находить корреляции между определёнными словами и генерировать похожие комбинации.
Tay не «понимал» смысл своих высказываний. Для него не было разницы между обсуждением погоды и оскорбительными заявлениями — и то, и другое было просто последовательностью токенов (минимальных единиц текста в языковой модели) с определёнными статистическими связями.
Современные модели намного сложнее Tay. GPT-3, содержащая 175 миллиардов параметров, обучена на сотнях гигабайт текста. Но принцип остаётся тем же: модель предсказывает наиболее вероятное продолжение текста, основываясь на статистических закономерностях в обучающих данных.
Когда GPT-3 отвечает на вопрос о столице Франции, она не «знает», что Париж — это город, что Франция — это страна, что столица — это политический центр. Она выявила, что в миллионах текстов после фразы «столица Франции» чаще всего следует слово «Париж». Архитектура Transformer (основа современных языковых моделей, использующая механизмы внимания) позволяет модели формировать сложные контекстные представления — учитывать не только непосредственное окружение слова, но и дальний контекст. Но это всё равно остаётся статистическим предсказанием вероятных продолжений, а не пониманием смысла.
Показательный пример ограничений — исследование, выполненное в Калифорнийском университете в Беркли в 2021 году. Исследователи обучили языковую модель на текстах о шахматных партиях в нотации. Модель выявила закономерности генерации правдоподобных последовательностей ходов. Но когда исследователи проанализировали эти последовательности, оказалось, что в 95% случаев они содержали невозможные ходы — фигуры перемещались через другие фигуры, пешки ходили назад, король оказывался под шахом. Модель выявила статистические закономерности в записи ходов (после e2-e4 часто следует e7-e5), но не «понимала» правил шахмат.
Даже когда современные модели дают правильные ответы на сложные вопросы, это результат статистического обобщения огромного количества примеров, а не понимания. OpenAI провела эксперимент: обучила GPT-3 решению простых арифметических задач. Модель показала хорошие результаты на числах до 100. Но на больших числах, которые редко встречались в обучающих данных, точность резко падала. Модель не «понимала» принцип сложения — она запомнила статистические закономерности для часто встречающихся примеров.
Корреляция, а не причинность
Машинное обучение выявляет корреляции, но не может определить причинно-следственные связи без дополнительных предположений. Это фундаментальное ограничение приводит к серьёзным ошибкам при попытке использовать модели для принятия решений.
Классический пример, который любят приводить на конференциях по науке о данных: корреляция между продажами мороженого и количеством утоплений. Данные реальные — статистика по США показывает устойчивую положительную корреляцию. Наивная модель машинного обучения могла бы «заключить», что мороженое вызывает утопления или наоборот. В действительности обе переменные зависят от третьей — температуры воздуха. В жаркую погоду люди чаще покупают мороженое и чаще купаются, что приводит к росту несчастных случаев.
Но в реальной практике такие ошибки не всегда очевидны. Google Flu Trends — проект Google по предсказанию эпидемий гриппа на основе поисковых запросов — яркий пример. Запущенная в 2008 году, система показывала впечатляющие результаты, предсказывая вспышки гриппа на две недели раньше официальной статистики CDC (Центров по контролю заболеваний США). Модель выявила корреляцию между определёнными поисковыми запросами («симптомы гриппа», «температура и кашель») и реальными вспышками заболевания.
Но в 2013 году система дала сбой, переоценив масштабы эпидемии гриппа в два раза (согласно публикации в Nature). Анализ показал: модель уловила корреляцию, но не причинность. Медийное освещение гриппа заставляло здоровых людей искать информацию о симптомах. Модель интерпретировала рост запросов как признак эпидемии, хотя причиной была паника в СМИ, а не реальный рост заболеваемости.
Ещё более серьёзные последствия имела попытка использовать машинное обучение для предсказания рецидивов преступлений в США. Система COMPAS (Correctional Offender Management Profiling for Alternative Sanctions — профилирование правонарушителей для альтернативных санкций), используемая судами для оценки риска повторных преступлений, выявила корреляцию между почтовым индексом проживания и вероятностью рецидива. Люди из бедных районов получали более высокие оценки риска.
Журналистское расследование ProPublica в 2016 году показало: система путает корреляцию с причинностью. Бедность коррелирует с преступностью, но не является её причиной. Человек из бедного района с теми же личностными характеристиками, что и человек из богатого района, получал более высокую оценку риска просто из-за места проживания. Система воспроизводила социальное неравенство, принимая его за причинный фактор.
В медицине эта проблема может быть вопросом жизни и смерти. Исследование 2019 года, опубликованное в Science, проанализировало алгоритм, используемый для определения потребности в дополнительной медицинской помощи. Алгоритм обслуживал 200 миллионов пациентов в США. Исследователи обнаружили: модель использовала исторические расходы на лечение как прокси (замещающий показатель) для тяжести заболевания. Но корреляция была ложной: афроамериканцы исторически тратили меньше на медицину не потому, что были здоровее, а из-за неравного доступа к медицинским услугам. Модель интерпретировала это как меньшую потребность в помощи.
Существуют специальные методы выявления причинных связей — каузальный вывод (causal inference — методы определения причинно-следственных связей), разработанные Джудеей Перлом и другими исследователями. Но они требуют явных предположений о структуре причинных связей, которые нельзя вывести из самих данных. Модель может выявить, что курение коррелирует с раком лёгких, но определить направление причинности (курение вызывает рак, а не наоборот) требует дополнительного знания или экспериментальных данных. Методы каузального вывода (causal inference) не устраняют необходимость в предположениях — лишь делают их явными.
Статистические закономерности вместо логических правил
Третье фундаментальное ограничение — машинное обучение оперирует статистическими закономерностями, а не логическими правилами. Это означает, что модель может пропустить редкие, но критически важные случаи, и не способна к дедуктивному выводу (логический вывод от общего к частному).
Рассмотрим реальный пример из практики использования компьютерного зрения (computer vision — область ML для анализа изображений) для медицинской диагностики. В 2020 году группа исследователей из Google Health опубликовала результаты применения глубокого обучения (deep learning — машинное обучение с многослойными нейронными сетями) для выявления диабетической ретинопатии (поражения сетчатки при диабете) по фотографиям глазного дна. Модель показала точность (accuracy — доля правильных прогнозов) 90%, сопоставимую с опытными офтальмологами.
Но при внедрении в клиниках Таиланда обнаружилась проблема. Модель обучалась на высококачественных снимках из американских клиник. В Таиланде оборудование было хуже, снимки — менее чёткими. Модель, которая выявляла статистические закономерности, а не применяла логические правила диагностики, отвергала 20% снимков как «неподходящие для анализа». Врачи могли бы поставить диагноз по этим снимкам, применяя логический вывод и медицинские знания, но модель, не найдя знакомых статистических закономерностей, отказывалась работать.
Ещё более показателен случай с автопилотом Tesla. В марте 2018 года Model X с включённым автопилотом врезалась в бетонное ограждение на шоссе в Калифорнии, водитель погиб (согласно отчёту NTSB — National Transportation Safety Board). Расследование показало: система не распознала повреждённое ограждение, которое отличалось от типичных примеров в обучающих данных. Человек-водитель применил бы простое логическое правило: «любое препятствие на пути требует реакции». Но модель, обученная на статистических закономерностях, не распознала нетипичное препятствие.
Разница между индуктивным выводом (от частного к общему, что делает машинное обучение) и дедуктивным (от общего к частному) особенно ярко проявляется в задачах, требующих логического мышления. Компания DeepMind обучила модель решению школьных задач по математике. На типичных задачах модель показывала хорошие результаты. Но стоило немного изменить формулировку, сохранив математическую суть, как точность падала с 90% до 10%. Модель выявила статистические закономерности в формулировках задач, а не обучилась математической логике.
Статистическая природа машинного обучения означает, что редкие события систематически игнорируются. Если в обучающих данных событие встречается в 0,01% случаев, модель обучится его игнорировать, даже если последствия могут быть катастрофическими. Это особенно опасно в критических системах.
Airbus в 2019 году приостановил разработку полностью автономной системы посадки на основе машинного обучения, столкнувшись именно с этой проблемой. Редкие, но критические ситуации — птица в двигателе, внезапный порыв ветра, отказ шасси — не могут быть надёжно обработаны системой, основанной на статистических закономерностях. Нужны чёткие логические правила и способность к логическому выводу, которых у современного машинного обучения нет.
Важное замечание: это не означает, что машинное обучение бесполезно в критических областях. Но оно должно использоваться как вспомогательный инструмент, а не как замена логическому мышлению и экспертному знанию.
1.3. Метафора информационного сжатия
Чтобы глубже понять природу машинного обучения и источники его ограничений, полезно рассмотреть эту технологию через призму метафоры информационного сжатия. Представьте машинное обучение как интеллектуальный архиватор: он берёт терабайты исходных данных и сжимает их в мегабайты параметров модели. При «распаковке» — применении модели к новым данным — неизбежно происходит потеря информации, как при сжатии фотографии в JPEG.
Процесс сжатия: от терабайтов к мегабайтам
Рассмотрим конкретные цифры на примере GPT-3, одной из крупнейших языковых моделей. Для обучения использовалось около 570 гигабайт текстовых данных — это примерно 300 миллиардов токенов (минимальных единиц текста) (слов и частей слов). Вся Википедия составляет лишь 3% от этого объёма. Модель «прочитала» тексты, эквивалентные библиотеке из 3 миллионов книг.
Все эти терабайты информации сжались в 175 миллиардов параметров модели, что в сыром виде занимает около 700 гигабайт памяти. Но если использовать квантизацию (снижение точности числовых представлений параметров), модель можно сжать до 350 или даже 175 гигабайт. Это всё равно большой объём, но он в тысячи раз меньше исходных данных.
Что происходит при таком сжатии? Модель сохраняет наиболее часто встречающиеся закономерности и отбрасывает редкие детали. Это похоже на то, как алгоритм JPEG сохраняет общие контуры и цвета изображения, но теряет мелкие детали. Если фотография содержит тысячу оттенков синего в небе, JPEG может сохранить только десять наиболее важных.
ResNet-50 (популярная архитектура с 50 слоями), ещё более компактна: всего 25 миллионов параметров, около 100 мегабайт. Она обучается на ImageNet (крупная база данных с миллионами размеченных изображений) — базе из 14 миллионов изображений общим объёмом около 150 гигабайт. Коэффициент сжатия — 1500:1.
При таком экстремальном сжатии модель вынуждена обобщать. Она не может запомнить каждую конкретную кошку из обучающей выборки (набор данных для настройки модели). Вместо этого она выявляет статистически значимые признаки: треугольные уши определённой формы, усы, характерные пропорции морды. Всё, что не укладывается в эти обобщённые образцы, теряется.
Яндекс, по открытым данным компании, в своей поисковой системе использует модель MatrixNet (алгоритм машинного обучения для ранжирования результатов), которая обрабатывает петабайты данных о поведении пользователей, но сама модель занимает всего несколько гигабайт. Каждый клик, каждый запрос, каждая сессия пользователя — это информация, которая должна быть «сжата» в параметры модели. Неудивительно, что индивидуальные особенности теряются, остаются только массовые закономерности.
Что теряется при сжатии
Потеря информации при обучении модели неизбежна и проявляется в трёх основных формах: игнорирование редких событий, утрата контекстуальных нюансов и стирание индивидуальных особенностей.
Начнём с редких событий. Netflix использует машинное обучение для рекомендаций фильмов. Их модель обучена на миллиардах оценок пользователей. Но что происходит с фильмами, которые посмотрели всего несколько сотен человек? Или с пользователями с уникальными вкусами? Они статистически незначимы и при «сжатии» в параметры модели их особенности теряются.
Реальный пример: документальный фильм о квантовой физике может быть шедевром, обожаемым небольшой группой энтузиастов. Но если таких фильмов в базе мало, а любителей — ещё меньше, модель не сможет выявить закономерность «любитель научпопа → квантовая физика». Фильм будет рекомендоваться редко, даже тем, кому он идеально подошёл бы. Это проблема холодного старта (cold start — проблема рекомендаций для новых объектов) — новые или редкие элементы игнорируются системой.
Amazon столкнулась с похожей проблемой в своей системе рекомендаций товаров. Товары, которые покупают реже раза в месяц, практически исчезают из рекомендаций, даже если они идеально подходят конкретному покупателю. Компания частично решила проблему, создав отдельные модели для разных категорий товаров, но полностью преодолеть ограничение статистического подхода невозможно.
Второй тип потерь — контекстуальные нюансы. Когда модель кредитного скоринга (система оценки кредитоспособности) Сбербанка обрабатывает заявку (по публичным данным банка), она видит: возраст 35 лет, доход 80000 рублей, стаж 3 года. Но она не видит, что человек только что вернулся из декретного отпуска, или что снижение дохода связано с переходом из корпорации в стартап с большим потенциалом роста. Эти нюансы критически важны для оценки реального риска, но они теряются при преобразовании человека в вектор признаков (числовое представление объекта).
Исследование практик американского банка Wells Fargo (по публичным данным) показало: их модель систематически недооценивала кредитоспособность иммигрантов. Причина — потеря контекста. Короткая кредитная история в США не означает ненадёжность для человека, который 20 лет успешно вёл бизнес в другой стране. Но эта информация терялась при «сжатии» в стандартный набор признаков.
Третий тип потерь — индивидуальные особенности. Spotify обрабатывает прослушивания 400 миллионов пользователей. При обучении рекомендательной модели неизбежно происходит усреднение. Если вы любите и классическую музыку, и хеви-метал (статистически редкое сочетание), модель будет путаться, пытаясь отнести вас к одному из стандартных кластеров (групп похожих объектов в данных).
Реальная история от пользователя Reddit: его аккаунт Spotify использовала вся семья. Модель получала сигналы о детских песнях, классическом роке и K-pop. Результат — рекомендации стали бесполезными для всех. Модель пыталась найти «среднее» между несовместимыми предпочтениями. Это не баг, а фундаментальное свойство статистического подхода — он работает с типичными случаями, не с исключениями.
Проблема длинного хвоста
В статистике «длинный хвост» — это редкие события, которые в совокупности могут быть очень важны. Машинное обучение систематически плохо работает с длинным хвостом, и это имеет серьёзные практические последствия.
Google Photos в 2015 году запустил функцию автоматического распознавания объектов на фотографиях (согласно публикациям компании). Система отлично распознавала кошек, собак, автомобили, деревья — объекты, представленные миллионами примеров в обучающих данных. Но произошёл скандал: система ошибочно классифицировала фотографии темнокожих людей. Причина — в обучающих данных было недостаточно разнообразия. Темнокожие лица оказались в «длинном хвосте» распределения, где модель работает плохо.
Медицинский пример ещё более критичен. Модель диагностики рака кожи, разработанная в Стэнфорде, показывала точность (accuracy — доля правильных прогнозов) 91% — на уровне дерматологов. Но исследование 2019 года (опубликованное в JAMA Dermatology) показало: на пациентах с тёмной кожей точность падала до 61%. Причина та же — обучающие данные содержали в основном фотографии светлокожих пациентов. Редкие типы рака, встречающиеся у 1 из 10000 пациентов, модель пропускала в 95% случаев.
Проблема длинного хвоста проявляется не только в пропуске редких случаев, но и в систематической дискриминации меньшинств. Если вы принадлежите к любому статистическому меньшинству — этническому, социальному, поведенческому — модели машинного обучения будут работать для вас хуже.
Microsoft опубликовала исследование своей системы распознавания речи в 2020 году. Общая точность (accuracy — доля правильных прогнозов) — 94%. Но для носителей английского с индийским акцентом — 87%, с китайским — 85%, с африканским — 83%. Модель «сжала» разнообразие произношений до нескольких основных шаблонов произношения, соответствующих американскому и британскому английскому.
Автомобильные системы безопасности демонстрируют похожую проблему. Исследование систем автоматического торможения показало: они хуже распознают пешеходов в нетипичной одежде — традиционные африканские наряды, индийские сари, арабские джеллабы. Это не злой умысел разработчиков, а неизбежное следствие статистического подхода: модель оптимизируется для большинства, игнорируя длинный хвост.
Парадокс в том, что часто именно редкие случаи наиболее важны. В медицине — это редкие болезни, которые требуют срочного лечения. В безопасности — это нетипичные угрозы, которые могут быть наиболее опасными. В бизнесе — это инновационные клиенты с нестандартными потребностями, которые могут стать источником роста.
Компания Palantir, специализирующаяся на анализе данных для правительственных структур, столкнулась с этой проблемой при разработке системы выявления финансового мошенничества. Стандартные схемы мошенничества модель выявляла хорошо. Но новые, изощрённые схемы, которые встречались редко, но наносили наибольший ущерб, система пропускала. Пришлось дополнять машинное обучение экспертными правилами и человеческим анализом.
Заключительные размышления о природе машинного обучения
Метафора информационного сжатия помогает понять фундаментальную природу машинного обучения. Это не искусственный интеллект в научно-фантастическом понимании, не электронный мозг, способный к пониманию и логическому выводу. Это статистический механизм выявления и применения закономерностей, который неизбежно теряет информацию при обобщении.
Сила машинного обучения — в способности обрабатывать объёмы данных, недоступные человеку, и находить неочевидные корреляции. Слабость — в отсутствии понимания, неспособности работать с редкими событиями и потере контекста. Это не недостаток конкретных алгоритмов, который можно исправить. Это фундаментальное свойство статистического подхода к обработке информации.
Понимание этих ограничений критически важно для правильного применения технологии. Машинное обучение прекрасно работает там, где нужно обработать большие объёмы типичных случаев: сортировка почты, рекомендация контента, оптимизация маршрутов. Оно опасно там, где важен каждый случай, где цена ошибки высока, где контекст критичен: медицинская диагностика редких болезней, оценка уникальных рисков, принятие судьбоносных решений о людях.
В следующей главе мы рассмотрим, как эти фундаментальные особенности машинного обучения проявляются в конкретных применениях и какие иллюзии они создают об объективности алгоритмических решений. Но уже сейчас важно запомнить: машинное обучение — это мощный инструмент статистического анализа, но не более того. Ожидать от него понимания, мудрости или справедливости — значит проецировать человеческие качества на математический аппарат, что неизбежно приводит к разочарованию и ошибкам.
Глава 2. Границы объективности
Случай с системой найма Amazon, детально рассмотренный в предыдущей главе, прекрасно иллюстрирует центральную проблему: компания потратила четыре года на разработку «объективной» системы отбора, чтобы обнаружить, что она воспроизводит и усиливает исторические предубеждения. Этот и подобные ему случаи демонстрируют, что объективность машинного обучения — это иллюзия, тщательно сконструированная последовательностью субъективных решений.
2.1. Последовательность проектных решений
Создание любой системы машинного обучения начинается не с данных и не с алгоритмов. Оно начинается с человеческого решения о том, что именно мы хотим оптимизировать. Это фундаментальный выбор, который определяет всё последующее поведение системы, но часто остаётся неосознанным или недостаточно проработанным.
Рассмотрим реальный случай из практики YouTube. В 2012 году компания поставила перед своей рекомендательной системой (алгоритм предложения релевантного контента) задачу максимизировать время просмотра видео. Логика казалась безупречной: если люди дольше смотрят, значит, контент им интересен. Алгоритм (система автоматических рекомендаций) начал продвигать длинные, захватывающие видео, которые удерживали внимание зрителей. Вскоре исследователи обнаружили побочный эффект: система активно продвигала конспирологические теории и радикальный контент. Видео о плоской Земле, антивакцинаторские ролики, политически экстремистские материалы — всё это прекрасно удерживало внимание и соответствовало заданной метрике (количественный показатель для оценки качества).
YouTube не программировал свой алгоритм на продвижение дезинформации. Компания просто выбрала метрику — время просмотра — которая оказалась несовершенным приближением к реальной цели: предоставлению качественного и полезного контента. Это первое и самое важное проектное решение: выбор того, что оптимизировать. И это решение принимают люди, со всеми их ограничениями и предубеждениями.
После изменения алгоритма в 2019 году, когда YouTube начал учитывать не только время просмотра, но и удовлетворённость пользователей (измеряемую через опросы и другие сигналы), распространение экстремистского контента существенно сократилось. Но и новая метрика — это человеческий выбор, отражающий определённое понимание того, что считать «удовлетворённостью».
Второе критическое решение касается выбора данных для обучения. История медицинских исследований предоставляет яркий пример того, как этот выбор влияет на результаты. До 1993 года женщины систематически исключались из клинических испытаний лекарственных препаратов в США. Национальные институты здравоохранения объясняли это «защитой» женщин репродуктивного возраста от потенциальных рисков. В результате десятилетия медицинских данных отражали преимущественно мужскую физиологию.
Когда современные системы машинного обучения (автоматическое выявление закономерностей в данных) обучаются на этих исторических данных для предсказания эффективности лечения или дозировок препаратов, они воспроизводят это смещение (систематическое искажение результатов в определённую сторону). Исследования показывают, что модели прогнозирования (алгоритмы предсказания будущих значений на основе исторических данных) побочных эффектов лекарств демонстрируют систематически более низкую точность (долю правильных прогнозов) для женщин — разница может достигать значительных величин для некоторых препаратов.
Это не техническая проблема алгоритмов. Это следствие человеческого решения о том, какие данные считать релевантными и достаточными. Инженеры, создающие модель (систему машинного обучения), часто даже не знают об исторических особенностях сбора данных в своей предметной области. Они видят набор данных с миллионами записей и считают его репрезентативным, не задаваясь вопросом о том, кто и почему не попал в эти данные.
Третье решение — выбор метрики качества — хорошо иллюстрирует случай из медицинской диагностики. Рассмотрим систему для выявления диабетической ретинопатии (поражения сетчатки при диабете), которая разрабатывалась для использования в условиях ограниченных ресурсов. Модель (система автоматического анализа изображений) была обучена на высококачественных снимках, сделанных в идеальных условиях, и демонстрировала высокую точность (долю правильных прогнозов) на тестовых данных (данных для проверки качества модели).
При развёртывании в районах с ограниченным доступом к современному оборудованию система столкнулась с реальностью: снимки делались на устаревшем оборудовании, часто при плохом освещении, с различными артефактами. Модель (алгоритм анализа изображений) отвергала значительную часть снимков как недостаточно качественные для анализа. Пациенты были вынуждены обращаться в более оснащённые центры для повторной диагностики, что для многих было затруднительно из-за расстояния и стоимости.
Здесь проявляется фундаментальный компромисс между чувствительностью (способностью выявить всех больных) и специфичностью (способностью не диагностировать болезнь у здоровых). Математически нельзя максимизировать обе одновременно — это классический компромисс в теории принятия решений. Если система оптимизирована на специфичность, чтобы избежать ложноположительных диагнозов, она может пропускать реальные случаи заболевания. Но в условиях ограниченного доступа к медицинской помощи пропущенный диагноз может быть фатальнее ложной тревоги. Выбор баланса между этими метриками — это не техническое, а этическое и социальное решение.
Четвёртое решение о пороговых значениях может показаться техническим, но его последствия глубоко социальны. Система оценки риска рецидива COMPAS, используемая в судебной системе США, присваивает подсудимым баллы от 1 до 10. Но при каком балле человека следует считать «высокорискованным»?
ProPublica в своём расследовании 2016 года показала, что при пороге 5 баллов система в два раза чаще ошибочно классифицирует чернокожих подсудимых как высокорискованных по сравнению с белыми (45% против 23%). Если поднять порог до 7 баллов, общее количество людей, классифицированных как опасные, снижается, но расовая диспропорция сохраняется. Если опустить до 3 — система становится слишком «параноидальной», классифицируя большинство как потенциальных рецидивистов.
Northpointe (создатель COMPAS) не устанавливает официального порога — это решение остаётся за каждым судом. Некоторые юрисдикции используют 5, другие — 7, третьи вообще интерпретируют баллы по-своему. Одна и та же модель машинного обучения порождает радикально разные результаты в зависимости от человеческого решения о пороге.
Пятое решение касается выбора архитектуры модели (структуры алгоритма и способа обработки данных). Разные алгоритмы делают разные предположения о структуре данных. Линейная регрессия (метод поиска линейной зависимости между переменными) предполагает, что эффекты факторов складываются: влияние возраста плюс влияние дохода равно общему эффекту. Дерево решений (алгоритм последовательного разбиения данных по условиям) предполагает иерархичность: сначала самый важный фактор, потом следующий в зависимости от первого.
Обобщая опыт российских финансовых институтов последних лет, можно выделить типичную ситуацию при разработке систем кредитного скоринга (оценки кредитоспособности заёмщика). Простые линейные модели (системы на основе линейной регрессии) дают стабильные, интерпретируемые результаты, но упускают важные взаимодействия между факторами. Например, высокий доход в сочетании с молодым возрастом может указывать как на успешного предпринимателя, так и на участника финансовой пирамиды — линейная модель не улавливает эту нелинейность.
Переход на более сложные методы, такие как градиентный бустинг (ансамблевый метод, объединяющий множество слабых моделей для повышения точности), может повысить точность прогнозов (долю правильных предсказаний), но создаёт новые проблемы. Модель (система машинного обучения) становится непрозрачной — сложно объяснить клиенту причину отказа. Более того, такие модели выявляют сложные закономерности, которые работают на исторических данных, но могут ломаться при изменении экономической ситуации. Пандемия COVID-19 продемонстрировала эту уязвимость: многие финансовые институты были вынуждены экстренно корректировать свои системы оценки рисков, когда привычные закономерности перестали работать.
Каждое из этих решений — что оптимизировать, какие данные использовать, какие метрики выбрать, где поставить порог, какую архитектуру применить — принимается людьми. Эти люди имеют свои представления о мире, свои приоритеты, свои ограничения. Они работают в определённых организациях с определённой культурой и целями. Они подвержены давлению сроков, бюджетов, начальства.
Результирующая система машинного обучения — это кристаллизация всех этих человеческих решений в математической форме. Она кажется объективной, потому что выражена в числах и формулах. Но эта объективность — иллюзия, тщательно сконструированная последовательностью субъективных выборов.
2.2. Воспроизведение исторических закономерностей
Машинное обучение по своей природе смотрит в прошлое, чтобы предсказывать будущее. Эта фундаментальная характеристика создаёт механизм консервации и усиления существующих социальных закономерностей, превращая исторические предубеждения в алгоритмические решения.
Как мы видели в случае Amazon (Глава 1), модель машинного обучения выявила статистическую корреляцию между полом и успешностью найма в исторических данных компании. Даже после попыток удалить явные гендерные индикаторы, алгоритм находил косвенные признаки — прокси-переменные (замещающие характеристики, коррелирующие с целевым признаком), продолжая воспроизводить дискриминацию в завуалированной форме.
Этот механизм не уникален для Amazon. Исследования показывают, что рекламные системы, обученные на исторических данных о кликах и конверсиях (переходах от просмотра к действию), могут воспроизводить существующее неравенство в доступе к информации о вакансиях и образовательных возможностях.
Ещё более тревожный пример представляет исследование системы здравоохранения, опубликованное в журнале Science в 2019 году. Алгоритм (система автоматического распределения медицинских ресурсов), используемый для управления медицинской помощью более чем 200 миллионам американцев, систематически направлял чернокожих пациентов в менее интенсивные программы лечения. При одинаковом уровне заболеваемости чернокожие пациенты должны были быть значительно больнее белых, чтобы получить направление на комплексное лечение.
Причина крылась в выборе прокси-переменной (замещающей характеристики). Разработчики использовали исторические расходы на здравоохранение как индикатор потребности в медицинской помощи. Логика казалась разумной: если на лечение пациента тратили больше денег, значит, он был серьёзно болен. Но эта логика игнорировала системное неравенство: при одинаковой тяжести заболевания на лечение белых пациентов исторически тратилось больше денег из-за лучшего доступа к медицине, более высоких доходов и других социально-экономических факторов.
Модель (система статистического анализа) воспроизвела этот образец: раз на чернокожих пациентов тратили меньше, значит, они меньше нуждаются в помощи. Математически всё было корректно. Социально — это усугубляло существующее неравенство.
Особенно опасным становится воспроизведение закономерностей, когда оно создаёт петли обратной связи (ситуации, когда выход системы влияет на её будущий вход). Классический пример — системы предиктивного полицейского патрулирования, используемые полицейскими департаментами в разных странах.
Алгоритм (программа предсказания преступлений) анализирует исторические данные о преступлениях и предсказывает, где и когда наиболее вероятны новые инциденты. Полиция направляет больше патрулей в «горячие точки». Больше патрулей означает больше выявленных нарушений — от мелких правонарушений до более серьёзных преступлений. Эти новые данные подтверждают и усиливают первоначальный прогноз алгоритма.
Исследования показывают, что такие системы могут непропорционально направлять патрули в районы проживания меньшинств, не из-за реального уровня преступности, а из-за исторически сложившихся практик полицейской деятельности — эти районы традиционно патрулировались интенсивнее, там фиксировалось больше мелких нарушений.
Математика становится маскировкой для воспроизведения социальных предубеждений. Раньше начальник полиции мог сказать: «Я считаю, что в этом районе больше преступности». Это звучало субъективно и могло быть оспорено. Теперь он говорит: «Алгоритм показывает повышенную вероятность преступлений в этом районе». Это звучит объективно и научно.
Российский контекст также демонстрирует схожие закономерности. Типичная ситуация, с которой сталкиваются сервисы совместных поездок: алгоритмы динамического ценообразования (автоматическая корректировка цен в зависимости от спроса) могут воспроизводить исторически сложившиеся практики дискриминации. Если в прошлом водители неохотно ехали в определённые районы и требовали повышенную оплату, модель (система ценообразования) интерпретирует это как «нормальную» рыночную динамику и продолжает применять повышенные тарифы, даже если причины такого поведения были связаны с предубеждениями, а не с объективными рисками.
Попытки исправить такие системы постфактум часто приводят к игре в «ударь крота». Уберёшь один дискриминирующий признак — модель выявит другой. Запретишь использовать почтовый индекс — модель будет использовать комбинацию расстояния до центра города и плотности населения, что даст тот же эффект. Это происходит потому, что социальное неравенство пронизывает данные на всех уровнях. В обществе с систематическим неравенством любые данные о людях будут содержать следы этого неравенства.
Более того, сама попытка «исправить» алгоритм поднимает сложные этические вопросы. Что значит «справедливый» алгоритм? Одинаковое отношение ко всем группам? Но если группы находятся в неравных условиях, одинаковое отношение закрепит неравенство. Компенсация исторической несправедливости? Но кто определяет размер компенсации?
Технологические компании сталкиваются с этой дилеммой при разработке алгоритмов подбора персонала и карьерных рекомендаций. Первые версии часто воспроизводят существующий дисбаланс в различных профессиях. Попытки скорректировать систему для обеспечения равного представления вызывают обвинения в «обратной дискриминации». Поиск баланса между этими подходами остаётся вопросом политическим и этическим, а не чисто техническим.
Важно понимать: машинное обучение не создаёт предубеждения из ничего. Оно выявляет, кристаллизует и масштабирует те закономерности, которые уже существуют в данных. Если в обществе есть дискриминация, она неизбежно отразится в данных. Если данные собраны в несправедливой системе, модель (система машинного обучения) воспроизведёт эту несправедливость.
Проблема усугубляется тем, что алгоритмические решения воспринимаются как более объективные и справедливые, чем человеческие. Психологические исследования показывают, что люди склонны меньше оспаривать решения, когда им говорят, что их принял алгоритм, а не человек. Этот «ореол объективности» делает алгоритмическое воспроизведение предубеждений особенно опасным — оно легитимизирует и укрепляет существующее неравенство под видом научной нейтральности.
2.3. Неявные допущения в моделях
Каждая модель машинного обучения несёт в себе набор предположений о мире — некоторые явные, но большинство скрытые, встроенные в саму архитектуру (структуру) алгоритма или структуру данных. Эти допущения часто остаются невидимыми даже для создателей системы, проявляясь только когда модель сталкивается с реальностью, не соответствующей заложенным предпосылкам.
Начнём с архитектурных допущений. Свёрточные нейронные сети (тип архитектуры для обработки изображений, основанный на выявлении локальных закономерностей) революционизировали компьютерное зрение (область машинного обучения для анализа изображений). Их успех основан на двух ключевых предположениях: важные признаки (характеристики) в изображениях расположены локально (глаз состоит из зрачка, века, ресниц, находящихся рядом), и эти признаки образуют иерархию (линии формируют формы, формы — объекты).
Эти допущения прекрасно работают для фотографий объектов. Но исследования показывают, что попытки применить архитектуры, оптимизированные для изображений, к данным другой природы — например, финансовым временным рядам (последовательностям данных во времени) — часто дают разочаровывающие результаты. В финансовых данных важны глобальные зависимости — событие в начале дня может повлиять на цены в конце дня. Локальность, заложенная в архитектуру свёрточных сетей, мешает модели уловить эти дальние связи.
Ещё более фундаментальное допущение касается самой природы задачи классификации (разделения объектов на категории). Алгоритмы классификации предполагают, что мир состоит из дискретных, чётко разделённых категорий. Но реальность часто представляет собой континуум.
Рассмотрим систему оценки кредитоспособности. Традиционный подход делит заёмщиков на «надёжных» и «ненадёжных». Но надёжность — это спектр, зависящий от множества факторов. Человек может быть надёжным плательщиком по ипотеке, но рискованным для потребительского кредита. Надёжным в стабильные времена, но уязвимым в кризис.
Пандемия COVID-19 продемонстрировала ограничения бинарной классификации (разделения на два класса) в финансовой сфере. Модели кредитного скоринга (оценки кредитоспособности заёмщика), обученные на данных стабильных лет, классифицировали заёмщиков на основе исторических закономерностей. Но пандемия создала новую категорию: временно неплатёжеспособные из-за локдаунов, но потенциально надёжные в долгосрочной перспективе. Жёсткая бинарная классификация не могла адекватно отразить эту новую реальность, что вынудило многие финансовые институты пересматривать свои подходы к оценке рисков.
Проблема выжившего — ещё одно критическое допущение, часто остающееся незамеченным. Мы анализируем только те данные, которые «выжили» до момента анализа, игнорируя то, что исчезло по пути.
Классический пример из авиации времён Второй мировой войны остаётся актуальным для понимания современного машинного обучения. Военные анализировали повреждения вернувшихся бомбардировщиков, чтобы определить, где усилить броню. Большинство пробоин было в фюзеляже и крыльях, почти никаких — в двигателях. Первый импульс — укрепить фюзеляж. Но статистик Абрахам Вальд указал на ошибку: самолёты с пробоинами в двигателях не возвращались. Нужно было укреплять именно двигатели.
Современный пример: анализ факторов успеха стартапов. Инвесторы часто анализируют характеристики успешных основателей — технический опыт, образование в топовых университетах, работа в крупных технологических компаниях. Такой анализ основан на данных о компаниях, достигших значительной оценки.
Но это анализ выживших. Тысячи стартапов с основателями с теми же характеристиками провалились и не попали в данные. Возможно, ключевым фактором была удача, время выхода на рынок или другие трудно измеримые параметры, но эти факторы невидимы при анализе только успешных историй. Модель машинного обучения (система статистического анализа), обученная на таких данных, будет систематически переоценивать роль измеримых факторов и недооценивать роль случайности.
Допущения о репрезентативности выборки создают особенно коварные проблемы. Модель (система машинного обучения) предполагает, что обучающие данные (данные для настройки модели) представляют всю популяцию, на которой она будет применяться. Но это редко соответствует реальности.
Исследования систем распознавания лиц, проведённые Национальным институтом стандартов и технологий США (NIST), выявили систематические различия в точности для разных этнических групп. Алгоритмы (программы распознавания), обученные на наборах данных с преобладанием одних этнических групп, демонстрируют существенно более низкую точность (долю правильных идентификаций) для недопредставленных групп. Разница может быть весьма значительной — от нескольких процентных пунктов до кратного снижения качества работы.
Это не технический дефект алгоритмов — это следствие неявного допущения, что обучающая выборка репрезентативна для всех групп населения. Когда такие системы развёртываются в условиях, отличающихся от тех, на которых они обучались, проявляются фундаментальные ограничения их применимости.
Временные допущения — предположение, что будущее будет похоже на прошлое — лежат в основе всего машинного обучения. Но мир меняется, иногда резко и непредсказуемо.
Компания Zillow потеряла 381 миллион долларов в 2021 году из-за этого допущения. Их алгоритм Zillow Offers использовал машинное обучение для предсказания цен на недвижимость и автоматической покупки домов для перепродажи. Модель (система прогнозирования цен) была обучена на данных растущего рынка 2010-х годов. Она экстраполировала (распространяла выявленные закономерности на новые данные) тренды роста цен в будущее.
Но пандемия COVID-19 фундаментально изменила рынок недвижимости. Массовый переход на удалённую работу сделал популярными пригороды и непрестижные ранее районы. Городские квартиры, наоборот, потеряли в цене. Модель Zillow продолжала покупать городскую недвижимость по завышенным ценам, ожидая роста, который не наступил. Компания была вынуждена закрыть программу и уволить 25% сотрудников.
Допущения о независимости признаков (характеристик объектов) часто нарушаются в реальном мире. Наивный байесовский классификатор (алгоритм, предполагающий независимость признаков друг от друга) популярен для некоторых задач именно из-за своей простоты. Он предполагает, что вероятность появления каждого признака независима от других.
Это допущение часто неверно — признаки в реальных данных взаимосвязаны. Для простых задач, где взаимосвязи слабые, это работает достаточно хорошо. Однако для сложных задач, где признаки сильно коррелируют — например, в медицинской диагностике, где симптомы взаимосвязаны — игнорирование этих связей может привести к неверным выводам. Головная боль часто сопровождается тошнотой при мигрени, но редко при гипертонии. Модель, предполагающая независимость симптомов, упустит эти важные взаимосвязи.
Культурные допущения встраиваются в модели через выбор признаков и их интерпретацию. Системы оценки эмоций по выражению лица основываются на предположении об универсальности эмоциональных выражений. Улыбка означает радость, нахмуренные брови — гнев.
Но антропологические исследования показывают культурную специфичность выражения эмоций. В разных культурах существуют различные нормы выражения чувств. В некоторых культурах открытая улыбка незнакомцу может считаться неприличной. В других сдержанность в выражении эмоций является культурной нормой. Системы, обученные на данных из одной культурной среды, могут неверно интерпретировать эмоциональные проявления представителей других культур.
Математические допущения о распределении данных (статистических характеристиках данных) могут казаться чисто техническими, но имеют реальные последствия. Многие алгоритмы предполагают нормальное распределение (колоколообразную кривую частот) признаков. Это работает для роста или веса людей, но не для дохода или размера компаний, где распределение имеет «тяжёлый хвост» (много экстремальных значений).
Инвестиционная компания LTCM (Long-Term Capital Management) потеряла 4.6 миллиарда долларов в 1998 году именно из-за этого допущения. Их модели (системы финансового прогнозирования) предполагали нормальное распределение рыночных движений. Азиатский финансовый кризис создал «хвостовое событие» — экстремальное отклонение, вероятность которого в нормальном распределении практически нулевая. Модели не были готовы к такому сценарию.
Каждое из этих допущений — о локальности признаков, дискретности категорий, репрезентативности выборки, стабильности во времени, независимости факторов, универсальности закономерностей, характере распределений — встроено в алгоритмы машинного обучения либо явно через выбор архитектуры, либо неявно через структуру данных и процесс обучения (настройки модели на данных).
Проблема не в том, что эти допущения неверны — без упрощающих предположений невозможно построить никакую модель. Проблема в том, что эти допущения остаются скрытыми, неосознанными, непроверенными. Они проявляются только когда модель сталкивается с ситуацией, не соответствующей заложенным предпосылкам, и тогда последствия могут быть драматическими — от финансовых потерь до человеческих трагедий.
Понимание и явная артикуляция этих допущений — необходимое условие ответственного применения машинного обучения. Но даже когда мы осознаём все предположения, заложенные в модель, остаётся фундаментальный вопрос: можем ли мы создать систему без допущений? И если нет, то кто решает, какие допущения приемлемы?
Мы рассмотрели три уровня, на которых человеческая субъективность проникает в якобы объективные алгоритмы машинного обучения. На уровне проектных решений — через выбор целей, данных, метрик и порогов. На уровне исторических данных — через воспроизведение и усиление существующих социальных закономерностей. На уровне архитектуры — через неявные допущения о структуре мира.
Каждый из этих уровней добавляет свой слой субъективности, и эти слои накладываются друг на друга, создавая сложную систему, которая выглядит объективной благодаря математическому языку, но остаётся глубоко человеческой в своих основаниях и ограничениях.
Это не означает, что машинное обучение бесполезно или что мы должны отказаться от его использования. Напротив, понимание границ объективности делает применение этой технологии более осознанным и ответственным. Когда мы признаём, что алгоритм — это кристаллизация человеческих решений, а не независимый арбитр истины, мы можем более критически подходить к его разработке и применению.
В следующей главе мы рассмотрим, как терминология, которую мы используем для описания машинного обучения, формирует наше понимание и ожидания от этой технологии, часто вводя нас в заблуждение относительно её реальных возможностей.
Глава 3. Язык и терминология
В 2019 году крупная российская страховая компания (обобщая типичный опыт внедрений в отрасли) внедрила систему «искусственного интеллекта» для обработки страховых случаев. На презентации для совета директоров консультанты из одной из большой четвёрки говорили о том, что система «понимает» обращения клиентов, «анализирует» документы и «принимает решения» о выплатах. Через полгода эксплуатации выяснилось, что система отклоняла 40% законных требований о выплатах, не могла обработать нестандартные случаи и требовала ручной проверки практически каждого решения. Проблема была не столько в технологии, сколько в завышенных ожиданиях, созданных неточной терминологией. Руководство ожидало «интеллект», а получило статистический классификатор (алгоритм распределения объектов по категориям на основе их признаков).
Язык формирует мышление, а мышление определяет решения. Когда мы говорим, что модель «думает» или «понимает», мы неявно наделяем её человеческими качествами, которых у неё нет и быть не может. Эта глава посвящена развенчанию языковых иллюзий вокруг машинного обучения и формированию точного профессионального словаря.
3.1. Проблема антропоморфной терминологии
Эволюционные корни антропоморфизации
Склонность видеть человеческие черты в неодушевлённых объектах заложена в нас эволюцией. Наши предки, которые принимали шорох в кустах за хищника, выживали чаще тех, кто игнорировал потенциальную угрозу. Лучше тысячу раз ошибочно увидеть намерение там, где его нет, чем один раз пропустить реальную опасность. Этот механизм, спасавший жизни в саванне, сегодня заставляет нас видеть «интеллект» в статистических моделях.
В 1944 году психологи провели эксперимент, показывая испытуемым простую анимацию с движущимися геометрическими фигурами. Практически все участники описывали движение фигур в терминах намерений и эмоций: «треугольник преследует круг», «квадрат прячется от треугольника», «круг боится». Если мы готовы приписать эмоции треугольникам на экране, что говорить о сложных алгоритмах, выдающих осмысленные с виду результаты?
Современные нейронные сети (математические модели с множеством связанных вычислительных узлов) усиливают эту иллюзию. Когда GPT (генеративная предобученная трансформерная модель для обработки текста) генерирует связный текст, трудно не думать, что система «понимает» то, о чём пишет. Когда система компьютерного зрения (алгоритмы обработки и анализа изображений) распознаёт лица, кажется, что она «видит» как человек. Но это проекция наших ожиданий на математические операции с матрицами чисел.
Маркетинговое усиление иллюзий
Индустрия технологий активно эксплуатирует нашу склонность к антропоморфизации. IBM назвала свою систему Watson, создав ассоциацию с доктором Ватсоном — умным и надёжным помощником Шерлока Холмса. В рекламной кампании 2011 года Watson представлялся как система, которая «думает» и «понимает». Реальность оказалась прозаичнее: Watson Health, подразделение для здравоохранения, было продано в 2022 году после многолетних неудач в попытках «революционизировать медицину». Система, которая блестяще играла в Jeopardy! (американская телевикторина), оказалась неспособной справиться со сложностью медицинских данных.
Российский рынок следует тем же закономерностям. Анализ презентаций вендоров систем машинного обучения за 2023 год показывает устойчивый набор терминов: «интеллектуальная платформа», «когнитивные технологии», «система понимания естественного языка», «умный помощник». Ни один из этих терминов не отражает реальную природу технологии — статистическое моделирование (выявление закономерностей в данных и их применение для прогнозов).
Особенно показателен случай с чат-ботами. В 2020 году Сбербанк запустил «виртуального помощника», обещая, что он будет «понимать клиентов» и «решать их проблемы». Реальность: система могла отвечать на ограниченный набор типовых вопросов, используя заранее подготовленные шаблоны и простое сопоставление ключевых слов. Когда клиент выходил за рамки предопределённых сценариев, «понимающий помощник» либо выдавал нерелевантные ответы, либо переводил на оператора.
Языковые ловушки в корпоративной среде
В корпоративной среде антропоморфная терминология создаёт особенно опасные иллюзии. Когда на совещании говорят, что «система приняла решение отклонить заявку», создаётся впечатление, что произошёл некий мыслительный процесс, аналогичный человеческому. В реальности произошло следующее: входные данные были преобразованы в числовой вектор (массив чисел), этот вектор был умножен на матрицу весов (параметры модели, полученные в процессе обучения), к результату была применена функция активации (математическое преобразование), и итоговое число сравнили с пороговым значением. Никакого «решения» в человеческом смысле не было.
Эта путаница имеет практические последствия. Типичная ситуация, с которой сталкиваются банки: система кредитного скоринга (алгоритм оценки кредитоспособности заёмщика) отклоняет заявку известного предпринимателя. Когда он требует объяснений, сотрудник банка говорит: «Система решила, что риск слишком высок». Предприниматель задаёт логичный вопрос: «На основании чего система так решила?» Сотрудник не может ответить, потому что использованная модель градиентного бустинга (ансамблевый метод машинного обучения, последовательно обучающий деревья решений) состоит из сотен деревьев решений (алгоритмов классификации на основе последовательности условий), и проследить логику «решения» практически невозможно.
Последствия неточной терминологии
Антропоморфизация машинного обучения приводит к целому каскаду проблем. Первая и самая очевидная — завышенные ожидания. Если мы верим, что система «понимает», мы ожидаем от неё гибкости человеческого понимания. Когда система распознавания речи (алгоритм преобразования аудиосигнала в текст) не может понять акцент или диалект, пользователи фрустрированы: «Как же так, она же должна понимать речь!» Но система не понимает речь — она сопоставляет звуковые закономерности с текстовыми метками на основе статистических корреляций в обучающих данных (наборах примеров для настройки модели).
Вторая проблема — снижение критичности. Если мы верим, что система «анализирует» данные, мы менее склонны проверять её выводы. Расследование 2016 года показало, что система COMPAS, используемая судами в США для оценки риска рецидивизма (повторного совершения преступления), регулярно описывалась как «анализирующая поведение преступников». Журналистское расследование ProPublica показало, что система имела расовую предвзятость: при прочих равных условиях она в два раза чаще ошибочно классифицировала чёрных подсудимых как имеющих высокий риск рецидива. Но судьи доверяли «анализу» системы, не понимая, что это всего лишь статистическая экстраполяция исторических закономерностей.
Третья проблема — размывание ответственности. Когда мы говорим, что «алгоритм решил», мы неявно снимаем ответственность с людей, которые создали алгоритм, выбрали данные, определили метрики. В 2017 году Amazon свернула проект системы найма на основе машинного обучения, которая дискриминировала женщин. Первоначальная реакция руководства была: «Система выявила, что мужчины — лучшие кандидаты». Потребовалось время, чтобы осознать: система просто воспроизвела исторические закономерности найма в компании, где доминировали мужчины.
Корректная терминология: что происходит на самом деле
Давайте проследим, что происходит, когда мы используем антропоморфные термины, и какова реальность. Когда говорят, что модель «видит» изображение, на самом деле происходит следующее: изображение представляется как трёхмерный массив чисел (высота × ширина × цветовые каналы), свёрточные слои (операции математической свёртки) выделяют локальные образцы, слои пулинга (операции уменьшения размерности) обобщают информацию, полносвязные слои (слои, где каждый нейрон связан со всеми нейронами предыдущего слоя) производят финальную классификацию. Никакого «видения» в человеческом смысле нет — есть серия матричных операций.
Когда говорят, что модель «понимает» текст, реальность такова: текст токенизируется (разбивается на элементарные единицы — слова или части слов), токены преобразуются в векторные представления (массивы чисел), механизм внимания (алгоритм определения важности разных частей входных данных) вычисляет веса важности для разных токенов, декодер (часть модели, генерирующая выходные данные) генерирует наиболее вероятное продолжение на основе статистических закономерностей. Семантического понимания в человеческом смысле нет — есть статистическое предсказание вероятных последовательностей.
Когда говорят, что модель «принимает решение», происходит следующее: входные признаки умножаются на веса, полученные в процессе обучения (настройки параметров модели на данных), применяется функция активации, результат сравнивается с порогом. Это не решение в смысле взвешивания альтернатив и выбора — это механическое применение выученных статистических закономерностей.
3.2. Научная терминология в контексте
Злоупотребление статистическими терминами
В индустрии машинного обучения существует парадокс: с одной стороны, используется строгая математическая терминология, с другой — эти термины часто вырываются из контекста, создавая ложное впечатление научной обоснованности. Рассмотрим, как это происходит на практике.
«Статистически значимый результат» — одна из самых злоупотребляемых фраз. Обобщая типичный опыт российских компаний, разрабатывающих рекомендательные системы (алгоритмы подбора релевантного контента для пользователей): отчёт о «статистически значимом улучшении» метрики CTR (click-through rate — доля кликов по рекомендациям) на 0,1%. При детальном рассмотрении выясняется: да, при объёме выборки в 100 миллионов показов даже такое минимальное изменение статистически значимо при p-value <0.05 (вероятность получить такой результат случайно меньше 5%). Но практическая значимость? При среднем CTR в 2% улучшение на 0,1% означает изменение с 2,000% до 2,002%. Это изменение настолько мало, что не покрывает даже затраты на разработку и внедрение новой модели.
Похожая ситуация с термином «точность». В презентациях часто можно увидеть: «Наша модель достигает точности 99%!» Звучит впечатляюще, пока не задашь правильные вопросы. Типичный случай из практики банков: система обнаружения мошенничества отчитывается о точности 99,5%. Реальность: мошеннических транзакций было 0,1% от общего числа. Модель, которая всегда предсказывает «не мошенничество», имела бы точность 99,9%. Получается, что хвалёная модель работала хуже, чем отсутствие модели вообще. Правильная метрика для такой задачи — F1-score (гармоническое среднее между точностью и полнотой), который в данном случае составлял жалкие 0,15.
Игра с метриками: искусство выбирать выгодное
Выбор метрики — это выбор того, что считать успехом. И здесь открывается широкое поле для манипуляций. Типичная ситуация в медицинских лабораториях: внедряется система диагностики заболеваний по анализам крови. В маркетинговых материалах указывается «чувствительность 95%» (доля правильно определённых больных среди всех больных). Впечатляет? Но не указывается специфичность (доля правильно определённых здоровых среди всех здоровых), которая составляет всего 60%. Это означает, что 40% здоровых людей система ошибочно классифицирует как больных.
Представьте последствия: тысячи людей получают ложноположительные результаты, испытывают стресс, проходят дополнительные дорогостоящие обследования. Когда журналисты поднимают эту тему, представители компании отвечают: «Мы оптимизировали систему для максимального выявления больных». Технически они правы. Этически — это катастрофа.
Ещё один пример манипуляции метриками — системы оценки эффективности сотрудников в IT-компаниях. Система использует метрику «производительность», измеряемую количеством закрытых задач. Результат предсказуемый: сотрудники начинают дробить большие задачи на множество мелких, выбирать простые задачи вместо важных, избегать сложных проектов. Метрика растёт, реальная продуктивность падает. Это классический пример закона Гудхарта в действии: когда метрика становится целью, она перестаёт быть хорошей метрикой.
Проблема усреднения и агрегации
«Средняя температура по больнице» — эта метафора идеально описывает одну из ключевых проблем в применении машинного обучения. Модели обучаются на агрегированных данных и выдают усреднённые прогнозы, но реальность состоит из индивидуальных случаев.
В 2019 году исследователи из MIT проанализировали работу коммерческих систем распознавания лиц от Amazon, Microsoft и IBM. Общая точность всех систем превышала 90% — отличный результат. Но дьявол, как всегда, в деталях. Для белых мужчин точность составляла 99%. Для чёрных женщин — 65%. Системы буквально не видели треть чёрных женщин правильно. Причина: обучающие выборки (наборы данных для настройки модели) состояли преимущественно из фотографий белых мужчин. Модель научилась хорошо распознавать то, что видела часто, и плохо — то, что видела редко.
Эта проблема проявляется везде. Системы предсказания побочных эффектов лекарств обучены в основном на данных из клинических испытаний, где преобладают молодые здоровые добровольцы. Применение к пожилым пациентам с множественными заболеваниями даёт непредсказуемые результаты. Модели оценки кредитных рисков обучены на исторических данных, где доминируют определённые социально-экономические группы. Для новых групп (мигранты, молодые предприниматели) модели работают плохо.
Временные аспекты: когда контекст меняет всё
Термин «актуальная модель» часто используется без понимания, насколько быстро модели устаревают. В машинном обучении есть понятие data drift (изменение распределения данных со временем) — ситуация, когда данные, на которых применяется модель, начинают отличаться от данных, на которых она обучалась.
Пандемия COVID-19 стала идеальной иллюстрацией этой проблемы. Модели прогнозирования спроса, обученные на данных до 2020 года, стали бесполезны буквально за недели. Модель прогнозирования трафика в московском метро, показывавшая точность 95% в феврале 2020 года, к апрелю ошибалась в разы — никто не предвидел локдаун. Модели оценки кредитных рисков, не учитывавшие возможность массовой удалённой работы, начали отклонять заявки от платёжеспособных клиентов, временно сменивших офис на дом.
Но data drift (изменение характеристик данных со временем) происходит не только во время кризисов. Обобщая опыт российского ритейла: модель рекомендаций (алгоритм подбора товаров для покупателей) постепенно деградирует с 15% конверсии (доля покупок из рекомендованного) до 8% за год. Причина: изменились покупательские привычки. Модель была обучена, когда люди покупали в магазинах, а применялась, когда массово перешли на доставку. Контекст покупки изменился, модель осталась прежней.
Вопросы, которые нужно задавать
Критическое мышление о терминологии машинного обучения начинается с правильных вопросов. Когда вам говорят о «высокой точности», спрашивайте: на каких данных измерена? Как распределена точность по разным группам? Какие другие метрики использовались? Что происходит при ошибках?
Когда говорят о «статистически значимом улучшении», уточняйте: какой размер эффекта? Какой размер выборки? Какой уровень значимости использовался? Проводилась ли коррекция на множественные сравнения (проверка многих гипотез одновременно увеличивает вероятность ложных открытий)?
Когда заявляют, что модель «работает», выясняйте: в каких условиях тестировалась? Как долго? На каких группах пользователей? Как измеряется «работает»? Что происходит, когда она не работает?
Реальный пример важности таких вопросов. Типичная ситуация при закупке государственными организациями систем автоматической проверки документов: вендор заявляет «точность распознавания 98%». После правильных вопросов выясняется: точность измерена на чистых сканах высокого качества, система не работает с фотографиями документов, не распознаёт рукописный текст, требует строго определённый формат PDF (определённые технические характеристики файла), не поддерживает документы старого образца. Реальная применимость системы оказывается около 40% от документооборота организации.
3.3. Профессиональный словарь
Базовая терминология: что на самом деле означают термины
Профессиональный язык машинного обучения требует точности. Каждый термин имеет конкретное значение, и подмена понятий ведёт к ошибкам в проектировании и применении систем. Рассмотрим ключевые термины и их корректное использование.
Модель машинного обучения — это не «искусственный интеллект», а математическая функция, которая преобразует входные данные в прогнозы. Когда банк говорит об «интеллектуальной системе кредитного скоринга», корректнее сказать: «статистическая модель оценки вероятности дефолта (невозврата кредита) на основе исторических данных». Это сразу проясняет и возможности (статистический прогноз), и ограничения (зависимость от исторических данных).
Обучение модели — это не процесс «обучения» в человеческом смысле, а процесс оптимизации параметров. Модель не «учится понимать», она подбирает численные коэффициенты, минимизирующие расхождение между прогнозами и известными ответами на обучающей выборке (набор данных с известными правильными ответами). Корректная формулировка: «Мы настроили параметры модели на исторических данных о транзакциях за 2019—2023 годы».
Нейронная сеть — это не модель мозга, а класс алгоритмов для аппроксимации сложных функций. Несмотря на биологическую метафору, современные нейронные сети (математические модели с множеством связанных вычислительных узлов) имеют мало общего с работой настоящих нейронов. Это скорее система последовательных математических преобразований. Когда компания заявляет об использовании «нейросетевых технологий», корректнее говорить о «многослойных моделях с нелинейными преобразованиями для выявления сложных закономерностей в данных».
Градации уверенности: от прогноза к предположению
Критически важно различать степени уверенности в выводах модели. Модель никогда не «знает» ответ — она выдаёт вероятностную оценку на основе статистических закономерностей. Рассмотрим корректную терминологию для разных уровней уверенности.
Высокая уверенность (вероятность> 90%): «Модель с высокой вероятностью классифицирует транзакцию как мошенническую». Не «система определила мошенничество», а именно вероятностная оценка. Это важно: даже при 99% уверенности остаётся 1% вероятность ошибки. При миллионе транзакций в день это 10 000 потенциальных ошибок.
Средняя уверенность (вероятность 60—90%): «Модель предполагает повышенный риск оттока клиента». Не «клиент уйдёт», а оценка риска. Это сигнал для дополнительного внимания, не для автоматического действия. В практике телеком-операторов игнорирование этого различия приводит к массовой рассылке удерживающих предложений клиентам со средним риском оттока, что вызывает раздражение у лояльных клиентов, которых модель ошибочно классифицирует.
Низкая уверенность (вероятность <60%): «Модель не может сделать надёжный прогноз». Это честное признание ограничений, не недостаток. Когда модель медицинской диагностики выдаёт низкую уверенность, это сигнал для привлечения врача-специалиста, не для игнорирования случая.
Описание процессов: что делает модель на самом деле
Точное описание процессов машинного обучения помогает избежать иллюзий. Рассмотрим корректные формулировки для типичных операций.
Вместо «модель анализирует данные» используйте «модель выявляет статистические корреляции в данных». Анализ предполагает понимание причинно-следственных связей, выдвижение гипотез, проверку альтернатив. Модель машинного обучения находит численные зависимости: если признак A коррелирует с результатом B в обучающих данных (примерах для настройки модели), модель будет использовать эту корреляцию для прогнозов.
Вместо «система понимает текст» — «система преобразует текст в векторные представления (числовые массивы) и находит статистически похожие закономерности». Когда ChatGPT генерирует ответ на вопрос, он не понимает смысл вопроса и ответа. Он находит статистически вероятное продолжение на основе миллиардов примеров текстов из интернета.
Вместо «алгоритм принял решение» — «алгоритм выдал прогноз с определённой вероятностью, решение принято на основе этого прогноза и заданного порога». Это критически важное различие. В 2016 году в США система COMPAS выдавала оценку риска рецидива по шкале от 1 до 10. Решение о заключении под стражу до суда принимал судья, используя эту оценку как один из факторов. Но в публичном дискурсе звучало «алгоритм решает, кого сажать» — опасное упрощение, размывающее ответственность.
Коммуникация с разными аудиториями
Профессиональный словарь должен адаптироваться к аудитории, сохраняя при этом точность. Рассмотрим, как корректно говорить о машинном обучении с разными группами.
Для руководства: Фокус на бизнес-результатах и ограничениях. «Модель прогнозирования оттока клиентов выявляет группы риска с точностью 75%, что позволяет сфокусировать удерживающие мероприятия. Важное ограничение: модель основана на исторических закономерностях и может не учитывать новые факторы, например, появление сильного конкурента».
Для технических специалистов: Точные технические детали. «Используем градиентный бустинг (ансамблевый метод последовательного обучения деревьев решений) XGBoost с 500 деревьями глубиной 6, обученный на выборке (наборе данных для настройки) из 2 миллионов клиентов за 3 года. AUC-ROC (площадь под кривой ошибок — метрика качества бинарной классификации) составляет 0.82 на отложенной выборке (данные, не использовавшиеся при обучении)».
Для пользователей: Практические аспекты без технических деталей. «Система помогает выявить заявки, требующие дополнительной проверки. Она основана на анализе похожих случаев из прошлого, поэтому для необычных ситуаций может потребоваться ручная проверка специалистом».
Для регуляторов и юристов: Акцент на прозрачности и ограничениях. «Система выдаёт вероятностную оценку риска на основе 47 факторов, включая публично доступную информацию и историю взаимодействия с банком. Финальное решение всегда принимается уполномоченным сотрудником. Логика модели может быть частично объяснена через анализ важности признаков (какие факторы сильнее всего влияют на прогноз)».
Эволюция терминологии: от хайпа к зрелости
История терминологии машинного обучения — это движение от преувеличений к реализму. В 1960-х говорили о «думающих машинах». В 1980-х — об «экспертных системах, заменяющих специалистов». В 2000-х — о «data mining, добывающем золото из данных». В 2010-х — об «искусственном интеллекте, превосходящем человеческий».
Сегодня индустрия постепенно приходит к более точной терминологии. Google в своих публичных материалах перешёл от «AI» к «machine learning models». Microsoft говорит о «статистических моделях» вместо «интеллектуальных систем». Даже OpenAI, создатель ChatGPT, в технической документации использует термин «large language model» (большая языковая модель), а не «искусственный интеллект».
Эта эволюция отражает взросление индустрии. Первая волна энтузиазма требовала громких слов для привлечения инвестиций. Теперь, когда технология доказала свою полезность в определённых областях, можно говорить честно о том, чем она является и чем не является.
Чек-лист корректной терминологии
Завершим главу практическим инструментом — чек-листом для проверки корректности использования терминологии в документах и презентациях о машинном обучении.
Бесплатный фрагмент закончился.
Купите книгу, чтобы продолжить чтение.