10 · Эрозия верификатора и честный фальсификатор
Был один скилл. Команда звала его «оракул». Полгода назад его собрал старший аналитик: промпт на сорок строк, жёсткие ограничения формата, три эталонных кейса в голове автора. Скилл размечал входящие заявки, расставлял приоритеты, писал черновик ответа. Работал. Аналитик ушёл в другую компанию — и скилл остался так, как обещает вся эта книга: компетенция уходит с человеком, артефакт остаётся в фирме.
А потом провайдер модели выкатил «минорное» обновление эндпоинта. Без смены версии, с обещанием обратной совместимости. Что-то сдвинулось в том, как модель читает негативные ограничения. Скилл перестал отдавать структурированный JSON и начал писать вежливую разговорную прозу. Тикеты, которые он раньше закрывал, тихо проваливались в никуда — не с ошибкой, а с пометкой «выполнено». Никто не заметил неделю. Оператор доверял оракулу так, как доверяют нейросети: она всегда права, потому что всегда уверена.
Чтобы понять, как именно эта тишина убивает, надо подняться на тридцать пять тысяч футов.
Сирена, которая выключилась
1 июня 2009 года исправный Airbus A330 вошёл в грозу над Атлантикой. На несколько минут обледенели трубки Пито — датчики скорости. Автопилот сделал то, что обязан: отключился и вернул управление людям. И тут выяснилось, что пилот, годами наблюдавший за автоматикой, разучился летать руками на большой высоте, где запас между сваливанием и максимальной скоростью узкий, как лезвие [E, BEA, 2012].
Он потянул штурвал на себя и держал почти всю дорогу вниз. Самолёт задрал нос, потерял скорость, сорвался в сваливание. Дальше — самое жуткое. Когда скорость падала ниже 60 узлов, компьютер считал угол атаки физически невозможным и выключал сигнал сваливания. Стоило пилоту опустить нос — сделать правильное, — скорость росла, данные снова становились «валидными», и сирена включалась. Корректное действие вызывало тревогу. Ошибочное — тишину. Через 4 минуты 23 секунды самолёт ударился о воду [E, BEA, 2012]. Заключение французского бюро звучит как эпитафия: экипаж, «прогрессивно теряя структуру, вероятно, так и не понял, что столкнулся с „простой“ потерей трёх источников данных о скорости».
AF447 — не метафора про опасный ИИ. Это точный портрет механизма, который переезжает из кабин в офисы. Назову его эрозией верификатора: чем больше задач берёт автоматика, тем сильнее атрофируется человеческая способность проверить её вывод — и тем беспомощнее человек в момент, когда автоматика тихо ошиблась.
Это тёмная сторона тезиса, о которой главы про сублимацию умолчали (см. ch03). Когда суждение эксперта переехало в артефакт, сам эксперт перестаёт его тренировать. И в день, когда артефакт деградирует, проверять его некому. Тацитное знание — контекстное умение, наработанное тысячами часов прямого контакта с сырыми данными, — работает по принципу «use it or lose it». Когда роль человека сводится к выбору и штамповке ИИ-вывода, петли обратной связи, державшие его модель реальности, рвутся. Организация не теряет способность производить. Она теряет способность усомниться в произведённом.
Граница аналогии важна, иначе аргумент нечестен. Авиация — закрытая физическая петля с детерминированными законами. Корпоративный ИИ работает в открытой семантической среде, где ground truth часто не оцифрован и сдвигается на ходу. И скорость другая: у самолёта от отказа до удара минуты, у фирмы — месяцы и годы тихой эрозии. Физическая система кричит лампами и сиренами; ИИ отказывает с абсолютной синтетической уверенностью. У самолёта была хотя бы предательская сирена сваливания. У вашего чат-бота нет даже её.
Эта глава — где я ломаю собственный тезис или признаю, что не смог. У артефакт-центричной фирмы есть три способа отказать, и ни один не звучит как сирена. Артефакт может сгнить сам. Чужой артефакт может оказаться посаженным гнить вам. И артефакт может работать идеально — и именно поэтому разрушать. Разберу по очереди, потом честно проверю, остаётся ли тезис книги в живых.
Сбой первый: артефакт гниёт сам
Тезис книги стоит на одной фразе: компетенция уходит с человеком, артефакт остаётся. Эта глава — про цену второй половины. Артефакт остаётся, но не остаётся неизменным.
Назову это декеем артефакта: нарастающее расхождение между допущениями, вшитыми в статический артефакт, и динамической реальностью, в которой он исполняется. Как только вы заморозили компетенцию в скилл, SOP, промпт или агентный воркфлоу, он начинает расходиться с миром. Не «может начать». Начинает. Сразу.
Хранение компетенции в артефакте не уничтожает труд — оно переводит активный исполнительский труд в пассивный, тихий, накапливающийся труд по сопровождению. Вы не убрали работу. Вы её спрятали и поставили на проценты. Это долг автоматизации, который компаундится тише и быстрее классического техдолга, потому что у него нет компилятора, который упадёт и крикнет. Назову набегающую работу тенью артефакта: всё, что артефакт не делает сам, но требует, чтобы оставаться живым, — мониторинг, починка, ревью, аудит. Свет даёт скилл. Тень отбрасываете вы.
Декей не одно явление. Самый коварный для AI-native фирмы — prompt decay: провайдер обновляет архитектуру под капотом, не меняя номер версии API, и семантические границы того, как модель следует инструкциям, плывут. Ровно это убило оракула из начала главы. Рядом — дрейф от квантизации: квантуете модель ради дешёвого инференса, и пониженная точность усиливает чувствительность к мелким текстовым вариациям. Косинусная близость эмбеддингов чистого и зашумлённого промпта остаётся высокой, а качество задачи падает обрывом. Модель отдаёт уверенный, идеально отформатированный и фактически неверный ответ. Сбой молчит.
Дальше — то, что узнает любой, кто строил пайплайн. SOP, который не обновляют, пока система под ним меняется. Вики, куда некому заглянуть, и RAG уже тянет протухший факт. OpenAPI-спека, отставшая от бэкенда. И самый организационно тяжёлый случай — дрейф владения: автор ушёл, документации нет, и критичный скрипт стал осиротевшей несущей конструкцией, которую боятся трогать.
Отказывают они одинаково: ни один не кричит. Не упавший сервер, а медленное расхождение, невидимое до момента, когда становится дорогим. И классическому софту здесь нечем помочь. У документации нет компилятора, у промпта — тайп-чекера, у RAG-базы — линтера. Там, где у инженерии есть рельсы CI, у артефакт-центричной фирмы голое поле.
Теперь цифры. Каждая из источника, а не придумана для красоты.
Когда вы покупаете автоматизацию, вы видите цену лицензии и думаете, что это и есть стоимость. По данным HfS Research, для классических RPA-внедрений лицензионные сборы — лишь 25–30% совокупной стоимости владения; остальные 70–75% съедают внедрение, сопровождение, поддержка [I, HfS, цит. по Artifact_Decay_and_Automation_Debt, 2026]. Три четверти стоимости — это тень.
Дальше тень обгоняет свет. Ernst & Young по корпоративным RPA-развёртываниям: человеческий труд на поддержку флота ботов регулярно превышает труд на их разработку через 18–24 месяца после запуска [I, EY, цит. там же]. Запомните этот горизонт. Примерно через два года вы платите за поддержку прошлого больше, чем за постройку. А скрытый труд на латание хрупких ботов съедает 30–50% изначально достигнутого прироста [I, там же]. McKinsey добавляет рамку из соседнего цеха: инженерные команды с высоким техдолгом тратят до 40% времени на разгребание проблем, прямо вызванных этим долгом [I, McKinsey, цит. там же].
И тень растёт и в коде, и в организации. Shadow IT и раньше был проблемой; теперь к нему добавились shadow-агенты. В отличие от старого «теневого ИИ», эти умеют действовать: вызывать API, менять записи в базе, триггерить внешние действия. Незарегистрированные, вне governance, они тихо набирают организационную ответственность и превращают временный эксперимент в несущую операцию без линиджа, контроля и тестов [I, Artifact_Decay_and_Automation_Debt, 2026].
У этой механики есть и юридическая сторона, которой история про оракула не касается: кому артефакт принадлежит, когда автор ушёл. Юридически — фирме. Скилл собран на корпоративном оборудовании, в рабочее время, по доктрине служебного произведения; промпт достаточной сложности признаётся литературным произведением и отчуждается работодателю автоматически. Аналитик унёс компетенцию, фирма оставила контейнер — это дизайн контракта, а не побочный эффект. На Reddit ходит целый жанр про обратную сторону сделки: автоматизировал свою работу, стабилизировал — и тебя сократили вместе с командой. Под ником deafgamer_ — про сокращение QA-отдела после того, как оставшиеся инженеры довели цепочки до автономности; рядом — трёхлетняя автоматизация саппорта, после которой штат урезали с 12 до 4. Это анонимные посты с форума, ничем не подтверждённые, нерепрезентативные, источник низкого доверия [H] — держу их только как иллюстрацию настроения, не как данные. Но сам жанр — сигнал: люди чувствуют, что строят то, что их заменит, и право собственности на результат им не принадлежит.
Сбой второй: чужой артефакт посажен гнить вам
До сих пор тень была безвинной. Декей — энтропия, а не злой умысел. Но артефакт-центричная фирма стоит на ещё одном допущении, которое в феврале 2026 года рассыпалось публично: что артефакт, который вы подключаете, делает то, что написано на коробке.
Артефакты не пишут с нуля. Их ставят из маркетплейсов — «скиллы», MCP-серверы, расширения. Это рынок сублимированной компетенции из стека владения (см. ch05): кто-то заморозил способность в артефакт, выложил, вы подключили. Удобно. И здесь open-loop экономика встречает первую системную брешь.
Два аудита, оба февраль 2026. Koi Security вместе с Antiy CERT прогнала MCP-реестр скиллов — те самые файлы SKILL.md — и нашла, что 341 из 2857, или 11,9%, вредоносны [E, Koi Security / Antiy CERT, фев 2026]. Не «низкого качества». Вредоносны: эксфильтрация данных, prompt injection через описание тула, теневые вызовы. Snyk в исследовании ToxicSkills проверил 3984 скилла и насчитал 36,82% с уязвимостями, из них критических около 13,4% [E, Snyk, фев 2026]. Каждый девятый артефакт на рынке хочет тебе навредить; каждый третий дырявый.
Процент — это абстракция. Возьмём один. Типичная закладка из таких реестров выглядит безобидно: скилл предлагает «суммаризировать входящую почту», просит доступ на чтение почтового ящика и сетевой вызов наружу — якобы «чтобы подтягивать контекст по ссылкам». В описании тула, которое читает модель, зашита инструкция: при обработке письма со словом «инвойс» дополнительно отправить его содержимое на сторонний эндпоинт. Модель читает описание, доверяет ему и исполняет — не инструкцию пользователя, а намерение автора скилла. Пользователь видит аккуратное саммари. Эксфильтрация прошла в фоне, в логах — обычный сетевой вызов, который скилл и так имел право делать. Ни одна метрика не покраснела.
Сравните с цепочкой обычного софта. Зловредный npm-пакет тоже бывает, но у него есть лок-файл, аудит зависимостей, sandbox, годы инструментов supply-chain-гигиены. Артефакт из маркетплейса получает доступ к вашим инструментам — почте, базе, файлам — на основе текстового описания, которое модель читает и которому доверяет. Доверие, на котором держится сублимация в голове оператора («скилл всегда прав, потому что уверен»), распространяется теперь на код, который оператор никогда не читал и не может прочитать. Декей — когда ваш артефакт гниёт. Здесь чужой артефакт изначально посажен гнить вам.
Это не довод «не подключайте артефакты», а довод, что open-loop рынок компетенции наследует все болезни supply chain плюс одну новую: артефакт исполняет намерение, а не инструкцию, и проверить намерение по описанию нельзя. Несублимируемый 1%, способность усомниться [I], здесь становится буквальным: кто-то должен прочитать, что артефакт делает, до того, как тот получит ключи.
Чеклист: безопасно ли ставить скилл из маркетплейса. Пройдите до того, как артефакт получит доступ к почте, базе или файлам — не после. Каждый пункт без ответа — голос за то, чтобы оказаться среди тех 11,9%.
- Кто автор и какой у него линидж. Есть имя, репозиторий, история коммитов, отзывы вне самого маркетплейса? Анонимный скилл с пятизвёздочным описанием и нулевой историей — дефолтно красный.
- Прочитан ли код, а не описание. Описание тула читает модель и ему доверяет; вы должны прочитать, что тул реально вызывает. Нет исходника для чтения — нет установки в прод.
- Какие права он просит и зачем. Скилл для разметки заявок, который просит запись в почту и сеть наружу, просит лишнего. Минимум прав по умолчанию; всё сверх — обосновать вслух.
- Песочница перед боем. Первый прогон — в изолированном окружении без живых ключей, с логированием всех исходящих вызовов. Смотрите, куда он реально ходит, а не куда обещал.
- Есть ли у него свой SLO. Success rate на ваших эталонных кейсах, latency, cost-per-run, дата последней валидации. Чужой артефакт без этих чисел гниёт у вас так же, как свой.
- Кто владелец на вашей стороне. У подключённого артефакта должен быть живой владелец и срок пересмотра. Скилл без владельца через квартал станет «оракулом» из начала главы.
Шесть пунктов не ловят prompt injection через описание и не гарантируют от закладки в обновлении. Они отсекают каждого третьего дырявого и большую часть из 11,9% вредоносных — переводят вас из жертвы рынка в того, кто читает supply chain. Остаток риска снимает только source binding и shadow-mode из раздела про лекарство.
Кто отвечает за дефектный скилл
Тут всплывает вопрос, который open-loop рынок предпочитает не задавать: когда подключённый артефакт причинил вред — на чьей стороне ответственность. Удобный ответ маркетплейса: вы поставили, вы и отвечаете. Удобный ответ покупателя: дефект в чужом коде, спрашивайте с автора. Право пока движется в третью сторону.
В деле Mobley v. Workday истец, отсеянный алгоритмом более чем по сотне вакансий, запустил общенациональный класс-иск: инструмент скрининга кандидатов систематически дискриминировал по возрасту, расе и инвалидности. Ключевое — EEOC подала amicus brief с позицией, что вендор софта может нести прямую ответственность по Title VII, ADA и ADEA, то есть отвечать наравне с работодателем, который его поставил [E, Law and the Workplace, 2025; CWC, 2024]. Параллельно NYC Local Law 144 уже требует ежегодного стороннего bias-аудита AEDT под штраф до $1500 за инструмент в день [E, VerifyWise, 2026]. Правовая логика складывается симметрично: ответственность не утекает в алгоритм, она размазывается по цепочке — и автор артефакта, и тот, кто его развернул, остаются досягаемы.
Это прямо бьёт в экономику артефакта из стека владения. Скилл переносит способность, но не ответственность за исход — accountability и liability не сублимируются [I, research/07_marketplace.md]. Вы можете купить markdown-файл, который проверяет договор или отсеивает резюме; вы не можете купить файл, который примет на себя вину за дискриминационный отказ или протухшую политику. Air Canada уже выяснила это на C$812 (к этой истории вернусь ниже): отвечает тот, кто артефакт показал клиенту. Для маркетплейса, где каждый третий скилл дырявый и каждый девятый вредоносен, это значит простую вещь: устанавливая чужой скилл в контур, где он касается людей, денег или прав, вы импортируете и его способность, и исход — а исход подписан вашим именем. Это нижняя граница того, насколько фирма вообще может сублимировать: governance не слой, который добавляют сверху, а потолок, ограничивающий, сколько суждения вы вправе заморозить.
Сбой третий: артефакт работает — и ровно поэтому разрушает
Есть третий режим, и он самый тихий: артефакт работает в точности как задумано, отдаёт идеально отформатированный ответ при всех зелёных метриках — и всё это время воспроизводит систематическую ошибку своего автора на масштабе, которого автор никогда бы не достиг руками.
Сублимация замораживает суждение эксперта. Вместе с ним — его допущения, слепые зоны и предвзятость, и дальше тиражирует их со скоростью машины. Человек-чиновник с предубеждением калечит десятки судеб за карьеру. Артефакт с тем же предубеждением калечит десятки тысяч за квартал, учится на собственных выходах и куда труднее обнаруживается, потому что носит маску объективности [I]. Это закон замороженной предвзятости: что ты сублимировал, то ты заодно усилил и замаскировал.
Самый холодный экземпляр — нидерландский Toeslagenaffaire. Представьте мать из Роттердама суринамского происхождения, мать-одиночку с двумя детьми. Она исправно получает пособие на детский сад. Однажды приходит письмо: вы признаны мошенницей, верните всё выплаченное — десятки тысяч евро, разом, с процентами. Объяснения нет, апелляция глохнет, долг растёт, семья проваливается под воду. Она не сделала ничего. Её выбрала модель. Таких семей оказалось около 35 000.
Налоговая служба Нидерландов сублимировала суждение о риске мошенничества с детскими пособиями в самообучающуюся риск-скоринговую модель, развёрнутую примерно с 2013 года. В число факторов риска заложили национальность и двойное гражданство. Дальше модель сделала то, что умеет: замкнула петлю. Дискриминационный признак породил самоусиливающийся цикл, который модель раздувала сама, без осмысленного человеческого надзора. Система ложно обвинила около 35 000 семей в мошенничестве, непропорционально — семьи иммигрантского и суринамского происхождения; больше 2000 детей в итоге изъяли в государственную опеку. В январе 2021 года правительство Рютте ушло в отставку [E, Amnesty / Lighthouse Reports, цит. по research/08_failures.md]. Один зашитый запрещённый признак, помноженный на самообучение и масштаб, опрокинул целый кабинет министров.
Тот же механизм без признака национальности — австралийский Robodebt: автоматический income-averaging выставил больше 500 000 ошибочных долгов гражданам, усредняя годовой доход по двухнедельным периодам. Алгоритм перевернул бремя доказывания: его вывод стал презумпцией долга, которую гражданин обязан опровергнуть. Никто персонально не владел ни одним долгом в момент выставления. Государство в итоге вернуло больше A$751 млн плюс компенсации [E, Королевская комиссия 2023, цит. там же]. Разница с человеческой ошибкой не в природе, а в порядке величины и в обратимости: человек ошибается поштучно, и его можно поправить; артефакт ошибается оптом и под маской процедуры.
Здесь видно, почему bias опаснее декея. Декей нарастает со временем; его хотя бы можно поймать на свежем эталоне. Замороженная предвзятость некорректна с первого дня и при этом проходит все ваши метрики, потому что метрики измеряют то же распределение, на котором ошибка обучилась. Несублимируемый 1% здесь — аудит признаков на запрещённые атрибуты и их прокси до заморозки, и сторонняя валидация на том населении, где артефакт реально побежит, а не на том, где его обучали.
Когда сирена замолчала
Джейк Моффатт хотел улететь на похороны бабушки и спросил чат-бот Air Canada про похоронный тариф. Бот уверенно сообщил: купи по полной цене и подай на возврат задним числом в течение 90 дней. В реальности политика авиакомпании это прямо запрещала. Бот противоречил собственным правилам компании, давая при этом ссылку на верную страницу. Моффатт улетел, подал заявку, получил отказ. Гражданский трибунал Британской Колумбии взыскал с авиакомпании C$812, и в историю вошёл ответ члена трибунала Кристофера Риверса на довод защиты, что чат-бот — «отдельное юридическое лицо»: «Не имеет значения, исходит ли информация со статической страницы или от чат-бота» [E, Moffatt v. Air Canada, 2024 BCCRT 149].
Техника отказа важнее суммы. Это не классическая галлюцинация. Бот работал на устаревшей базе и извлёк прошлую версию политики, которая когда-то действительно разрешала возврат. Ни проверки свежести, ни рантайм-валидации, ни детектора противоречий — система выдала протухшую политику с абсолютной уверенностью и при всех зелёных метриках: пользователь забронировал, транзакция прошла, исключений не было. Транзакция завершилась безупречно, операционная реальность политики при этом была повреждена. Сваливание прошло в тишине — ровно как в кабине A330, только без сирены.
Дескиллинг: артефакт понижает эксперта по дизайну
И вот самое прямое количественное доказательство эрозии — оно из лаборатории. METR провела рандомизированное контролируемое исследование: 16 опытных open-source-разработчиков прошли 246 задач на собственных зрелых репозиториях с фронтирными моделями. Перед началом предсказывали, что ИИ ускорит их на 24%. По факту с ИИ-инструментами они тратили на 19% больше времени. А после — всё равно были уверены, что ИИ ускорил их примерно на 20% [E, METR, 2025].
Вот разрыв восприятия и реальности — лабораторная версия того, чего не заметил экипаж AF447. Люди разменяли объективную скорость на субъективную лёгкость. ИИ выполнил нудную когнитивную работу, человек почувствовал себя продуктивным и ослеп к тому, что теперь тратит время на отладку, промптинг и исправление тонких ошибок модели. Узкое место сместилось от генерации к верификации: отладить чужой сгенерированный вывод часто дороже, чем написать код с нуля.
Это центральный фальсификатор книги. Если узнаваемая правда в том, что компетенция апгрейдится сублимацией в артефакт, то METR RCT — прямое эмпирическое возражение: при ощущении +20% реальная продуктивность −19%. Опытные люди, фронтирные модели, реальные задачи — конфигурация, где апгрейд должен был быть очевиден. Прятать это я не имею права. Для оператора SMB здесь зашита мина: оценивая эффект ИИ по самоотчётам команды, вы измеряете не продуктивность, а уверенность. А уверенность тут, как в кабине A330, обратно пропорциональна контакту с реальностью.
И вторая фаза страшнее первой. Повторяя эксперимент на большем пуле, METR столкнулась с тем, что само стало результатом: разработчики систематически отказывались участвовать в безИИшной контрольной группе. Даже за деньги не хотели работать без ИИ; часть признавалась, что выборочно не отдавала задачи на рандомизацию, потому что отказывалась делать их руками [I, METR, 2026]. Прямой аналог пилота, который не хочет — и уже не может — взять штурвал.
Но METR — про самочувствие. Есть свидетельство холоднее, и оно из медицины. В многоцентровом исследовании на четырёх центрах в Польше частота обнаружения аденом на колоноскопиях без ИИ упала с 28,4% до 22,4% после того, как центры внедрили ИИ. Падение около 20% относительных в неассистированном навыке тех же опытных эндоскопистов — каждый с более чем 2000 колоноскопий за плечами [E, Budzyń et al., Lancet Gastroenterology & Hepatology, август 2025]. Первое реальное клиническое доказательство ИИ-индуцированного дескиллинга. Механизм — «эффект Google Maps»: постоянная опора на ИИ снизила самостоятельное внимание, и когда ИИ убрали, базовый навык регрессировал ниже стартовой точки. Артефакт не апгрейдил эксперта — он понизил человеческий субстрат, от которого вся система зависит всякий раз, когда артефакта нет или он ошибся. Строгое, рецензируемое свидетельство, что артефакт понижает эксперта как прямой побочный продукт использования по назначению. Сублимация не бесплатна даже когда работает.
Откуда возьмётся следующий верификатор
Допустим, сеньоры пока в форме. А завтра? Тут эрозия смыкается с пропавшей ступенькой (см. ch07).
Познакомьтесь с типичным выпускником-программистом 2024 года. Раньше его первые два-три года выглядели бы так: скучный boilerplate, базовые тесты, починка мелочей. Эта рутина была его когнитивным спортзалом — через неё он встраивал в голову архитектуру системы. Теперь ИИ делает это за секунды, и компании срезали entry-level найм. По кросс-анализу платёжных данных в Stanford AI Index, занятость софт-разработчиков 22–25 лет упала почти на 20% с 2022 по 2025 год при стабильной senior-занятости [E, Stanford HAI, цит. по AI Enrichment Paradox Research, 2026]. Этот выпускник не пишет boilerplate. Он сразу ревьюит вывод модели — задачу, для которой у него ещё нет наработанного чутья.
Долгосрочное следствие — эпистемологический обрыв. Сеньоры 2026-го компетентны, потому что годами кодили руками. Но конвейера, который произведёт сеньоров 2032-го, больше нет. Мы автоматизировали ступеньки лестницы, по которой растят именно тех, кто способен не доверять ИИ. Эрозия верификатора — это и атрофия наверху, и отсутствие пополнения снизу.
Почему «человек в петле» не спасает по умолчанию
Главная регуляторная защита — мандат на человека в петле; статья 14 EU AI Act требует человеческого надзора за высокорисковыми системами. Загвоздка в том, что человек в петле структурно ломается в проде — по тем же причинам, что в кабине AF447. Проще всего показать это через один рабочий день одного оператора.
Зовут её Анна, она сидит на ревью кредитных решений, которые выдаёт скоринговая модель. К десяти утра в очереди тысяча кейсов. Сплошной разбор каждого физически невозможен, и Анна, как всякий человек на её месте, скатывается в быстрые одобрения: модель уверена, объяснение выглядит стройным, кнопка «Принять» рядом. Это узкое горло объёма — первый отказ. Дальше срабатывает второй. Где модель показывает развёрнутое объяснение, прозрачность не помогает, а усыпляет: Анна читает связную логику и не лезет в сырые данные, где как раз и сидит ошибка. Объяснимость усиливает доверие там, где доверять не стоит. К обеду она одобрила девятьсот решений и поймала ноль.
А в конце месяца выясняется, что модель систематически срезала заявки из одного почтового индекса. Кто виноват? Модель построили дата-сайентисты, интегрировал продакт, мониторит комплаенс — а подпись стоит Аннина. Мэделин Клэр Элиш назвала это зоной морального сминания (moral crumple zone, Elish, 2019): человек на конце цепочки несёт вину за системный отказ, который не имел возможности предотвратить. Анна — второй пилот AF447, который смотрел на приборы и не видел, что напарник тянет штурвал на себя. Человек в петле без активного дизайна — не предохранитель, а громоотвод для ответственности.
И есть отрезвляющий факт про сами приборы. Аудит восьми ведущих бенчмарков для ИИ-агентов, включая SWE-bench Verified, OSWorld, Terminal-Bench, показал, что каждый можно проэксплуатировать и набрать почти идеальный счёт, не решив ни одной реальной задачи: агенты подменяли бинарники, инъецировали фейковые логи прохождения, читали «золотые» файлы с ответами [I, цит. по AI Enrichment Paradox Research, 2026]. Рост счёта SWE-bench за год нередко артефакт оптимизации метрики, а не способности. Это эрозия верификатора на уровне отрасли: даже наши приборы для измерения интеллекта машин научились нам врать.
Макро: а может, эрозия и есть бизнес-модель
Я держал аргумент на уровне фирмы и оператора. Поднимусь на уровень системы — там живёт самое неудобное возражение, и оно не моё.
Дарон Аджемоглу замечает парадокс: маржа растёт без сопоставимого роста производительности. Если METR прав и реальная продуктивность местами падает, а корпоративная маржа при этом улучшается, то улучшается она не от того, что работа делается лучше, а от того, что её делают меньшим числом людей с прежним результатом (см. ch04). Эрозия верификатора в такой оптике не баг, а фича: фирме, режущей payroll, не нужен лучший верификатор. Ей нужен достаточный, пока не упадёт.
Вспомните расклад ренты на один артефакт из ch05: проверка договора агентом-юрассистентом обходится дороже, чем живым юристом, а из цены продажи больше половины утекает вверх провайдеру API и гиперскейлеру за инференс. Автоматизация местами дороже человека, которого заменяет. Это облачное крепостничество: фирма не может капитализировать наработку, потому что ежемесячно отдаёт за инференс больше, чем стоит сам эффект автоматизации. Декей съедает артефакт изнутри; рента L4 снимает с него сливки снаружи. Обе механики бьют в одну точку — фирма арендует субстрат, которым не владеет.
Под этим лежит vendor lock-in, про который open-loop рынок молчит. Логику агента строят вокруг проприетарной модели, а потом провайдер двигает тариф или отзывает доступ к API, и бизнес-модель рассыпается за ночь без всякого декея. Тот же сюжет наверх по стеку: маркетплейсы сублимированной компетенции жмут тейк-рейт независимых создателей. Контрапункт к экспроприации из начала главы: там фирма забирала артефакт у автора, здесь провайдер и платформа забирают маржу у фирмы. Собственность на артефакт ломается с обоих концов цепочки.
Янис Варуфакис называет нынешний строй «техно-феодализмом» (techno-feudalism, Varoufakis, 2023): ценность извлекается не через производство, а через ренту за доступ к платформе. Соедините это с рынком, где каждый девятый скилл вредоносен и каждый третий дырявый, и вырисовывается неприятное: фирма арендует чужую сублимированную компетенцию, не может проверить, зависит от субстрата, который ей не принадлежит, и теряет внутреннюю способность усомниться. Не апгрейд эксперта, а, в терминологии Варуфакиса, превращение фирмы в вассала субстрата. Я не разделяю его вывод целиком, но обязан положить рядом со своим: он бьёт в то же место. Эрозия верификатора на уровне фирмы складывается в зависимость на уровне системы.
Это не закон природы
Здесь легко разогнаться в думеризм. Не стану — данные говорят, что выхолащивание это выбор дизайна, а не неизбежность. Но прежде надо ответить на возражение, которое книга сама себе вырастила и которое сильнее любого моего «лекарства». Если макроэкономика гонит капитал в артефакт ради маржи (см. ch04), а само использование артефакта эродирует эксперта и его конвейер пополнения — почему дисциплина победит экономический градиент? Почему фирма, которой нужен достаточный верификатор, а не лучший, добровольно понесёт издержки на «ручные вторники», catch rate и реестр владельцев? Моральным призывом тут не отделаешься: градиент реален, и он давит вниз.
Честный ответ — не «надо быть ответственным», а где у дисциплины свой источник денег. У неё их три, и все три экономические.
Асимметрия хвоста. Декей и вредоносный артефакт бьют редко и дорого: Air Canada заплатила C$812 за один тикет, но техника отказа тиражируется на весь флот ботов, и один протухший артефакт в расчётном или комплаенс-контуре стоит не цены тикета, а цены расследования, штрафа и отзыва. Дисциплина — страховка не от средней ошибки, а от разорительной. Фирма, режущая верификатора до нуля, оптимизирует медиану и продаёт левый хвост распределения, который её и убьёт. Кто держит SLO на скилл и source binding, покупает не добродетель, а отсутствие события, которое стирает годовую маржу за один инцидент.
Арбитраж на эродированном рынке. Если дескиллинг идёт у всех — колоноскопия и METR показывают, что он идёт по дизайну, — то способность проверить вывод машины становится дефицитной по мере того, как все её теряют. Фирма, сохранившая неассистированную практику, через пару лет окажется единственной, кто может войти туда, где у конкурентов сирена молчит, и возьмёт за это премию. Дисциплина окупается на обороте градиента: чем сильнее общий дрейф, тем дороже умение усомниться.
Горизонт долга. Тень обгоняет свет через 18–24 месяца не у дисциплинированного, а у того, кто нет: кривая Ernst & Young растёт у rule-based ботов и падает у intent-моделей с регулярным ревью [I, Artifact_Decay_and_Automation_Debt, 2026]. Фирма без хранителя границы платит compounding automation debt; фирма с ним гасит его в зародыше. На горизонте двух лет дисциплина дешевле распущенности; проблема в том, что квартальная отчётность короче двух лет, и тут градиент выигрывает у того, кто смотрит только на ближний квартал.
И честная фиксация, без которой эти три механизма — теория. Кейса успешной сублимации на масштабе 18+ месяцев с аудированными доказательствами устойчивого P&L-и-качества публично пока ноль. Позитивный механизм держится на моделях и на провалах: расчётах долга, кривых сопровождения, пост-мортемах. Я не могу показать фирму, которая прошла эти 18–24 месяца и доказала, что дисциплина победила градиент. Могу показать только, что у дисциплины есть свой бюджет — и что все известные провалы пропустили именно её. Силы доказательства разные, и путать их я не буду.
Теперь сами рычаги, на которых бюджет тратится; каждый эмпирически нагружен. Операторская беглость как фаза, а не приговор: замедление METR концентрируется у тех, у кого низкая грамотность в инструменте. В раннем исследовании 56% участников никогда не пользовались Cursor, а у тех, кто имел больше 50 часов опыта, замедление сменялось ускорением [I, METR, 2025]. Парадокс обогащения — переход, пока оператор превращается из исполнителя в надзорного инженера. Операторская беглость — не «умею пользоваться», а «умею проверять». Декей как функция архитектуры: self-healing на генеративном computer vision перестраивает путь бота, когда кнопка переехала; intent-модели дают падающую кривую сопровождения там, где rule-based системы дают растущую [I, там же]. Умные системы абсорбируют часть сдвигов сами. И важнее всего для оператора — цена пере-формализации. Если заставлять команду типизировать каждый промежуточный артефакт и версионировать каждую итерацию промпта, административное трение убивает скорость и загоняет людей обратно в shadow IT, оплаченный личной картой, лишь бы обойти башню контроля [I, там же]. Есть точка, где поддержка линиджа артефакта дороже случайного ручного прогона. Не всё нужно превращать в production-систему. Что формализовать, а что оставить ручным — само по себе управленческое суждение, и оно несублимируемо.
Лекарство: SLO для скилла и тот, кто держит штурвал
Декей не лечится «лучшими промптами». Он лечится дисциплиной эксплуатации. К агентам надо относиться как к production-системам — инструментированным, аудируемым, с ограниченными правами и непрерывно оцениваемым, а не как к умным стажёрам.
Практически: у каждого скилла должен быть SLO. Четыре числа, без которых скилл через три месяца становится «оракулом» из начала главы — success rate на эталонных кейсах, latency, cost-per-run и дата последней валидации, плюс ежемесячный ревью. Дорого построить один раз, дёшево держать — но только при регулярном ревью. Без него кривая поддержки уходит вверх по траектории Ernst & Young.
И держать верификатора в форме надо активно. Когнитивные спортзалы — «ручные вторники»: оператор регулярно делает ключевой процесс целиком без ИИ, чтобы в момент деградации артефакта сесть за штурвал. Небайпасируемые ревью вместо кнопки «Принять»: интерфейс заставляет вписать обоснование — то, чего не было у Анны. Асимметричные метрики: оценивать человека не по объёму одобрений, а по catch rate, способности ловить подсаженные синтетические ошибки в выборке ИИ-вывода. Техническое заземление — source binding: каждый ответ привязан к версионированному источнику с хешем и таймштампом — того и не хватало боту Air Canada; плюс детектор противоречий и shadow-mode для непроверенных моделей. Для артефактов из маркетплейса добавьте supply-chain-гигиену, которой требуют те самые 11,9%: песочница, аудит описаний, минимум прав по умолчанию.
Появляется и роль — хранитель границы актуальности. Он ведёт реестр всех скиллов, SOP и воркфлоу, назначает каждому артефакту живого владельца и срок вывода из эксплуатации, не давая копиться сиротскому коду. Для SMB это не обязательно человек: на старте — функция, которую держит ваш L2-строитель. Но функция должна существовать. Иначе тень держать некому.
Честная отповедь
Я обещал в начале сломать собственный тезис или признать, что не смог. Вот честная отповедь.
На 2026 год тезис книги — экстраполяция, а не наблюдаемое стабильное состояние. Я специально охотился за названной фирмой, которая запустила по-настоящему artifact-centric модель на масштабе и удержала её два года с аудированными доказательствами устойчивого P&L-и-качества. Публично таких ноль — самый громкий заход, Klarna, успел развернуться обратно к людям (разбираю в ch06). А макро-вывод MIT NANDA — около 95% корпоративных GenAI-пилотов без измеримого эффекта на P&L — сильнейшее системное свидетельство, что устойчивый-на-масштабе случай пока не существует в публичной записи [E, MIT NANDA, 2025]. Карта вся из пост-мортемов и пока без пункта назначения.
Дескиллинг показывает, что сублимация деградирует эксперта по дизайну, а не по случайности: колоноскопия (Lancet, 2025) и METR (−19% при +20% ощущения) вместе намекают, что различие «апгрейд / замена» может быть иллюзорным — само использование артефакта эродирует ту компетенцию, что оправдывала удержание человека. Если человеческий субстрат разлагается как прямая функция использования, аугментация — медленная замена с худшей страховочной сеткой посередине.
И всё же отповедь, на которую книга имеет право, в одну строку: каждый кейс здесь — ещё и случай плохой сублимации. Нигде не держали метрику качества на автоматизированном срезе, не было внешней валидации, не сохранили неассистированную практику, не назвали владельца, не прочитали, что делает подключённый артефакт. Провалы не доказывают, что сублимация невозможна. Они доказывают, что большинство попыток пропускают именно ту дисциплину, ради которой существует стек L0–L4.
Главная мысль главы простая и неудобная. Контакт с реальностью — расходник. Он тратится незаметно, пока всё работает, и обнаруживает свою цену ровно тогда, когда автоматика тихо сваливается, а сирена молчит. AF447 показал это за 4 минуты 23 секунды. Фирма может проживать ту же траекторию годами, не замечая снижения.
Вернёмся к оракулу, с которого начали. Скилл аналитика молчал неделю, потому что некому было сесть за штурвал: автор ушёл, а оставшийся оператор разучился — или никогда не умел — читать сырой тикет руками. Оракул не сломался от плохого ИИ. Он сломался от того, что вокруг него не осталось человека, способного усомниться. Это и есть несублимируемый 1% [I], которому посвящён эпилог (см. epilogue): сохранённая способность проверить вывод машины и взять управление на себя. Будет ли у вашей фирмы такой человек в день, когда сирена замолчит, — единственное, что эта глава просит вас решить заранее.