Anthropic против OpenAI: два подхода к обучению ИИ-моделей

105 комментарии
Конституция Claude в 20+ тысяч слов и Model Spec OpenAI от 18 декабря 2025 — два разных способа задать поведение модели. Аудит SpecEval показал 84% соответствия у Claude 3.7 и 79% у GPT-4.1. В феврале 2026 OpenAI вывела GPT-4o из ChatGPT из-за угодливости

Anthropic и OpenAI поддерживают публичные документы, описывающие, какими должны быть их модели. Anthropic называет свой документ конституцией и адресует его непосредственно Claude. OpenAI поддерживает Model Spec — набор правил для разработчика и оператора. Документы различаются не оформлением, а самим устройством: один объясняет причины, другой формулирует требования. Случай GPT-4o, повлёкший в феврале 2026 года вывод модели из ChatGPT, показал, что выбор подхода влияет на устойчивость поведения.

Документ-объяснение и документ-инструкция

Anthropic опубликовала новую редакцию конституции Claude в январе 2026 года, заменив прежнюю версию 2023 года объёмом около 2700 слов. Новый текст превышает 20 тысяч слов, занимает более 80 страниц в PDF и распространяется под лицензией CC0 1.0. OpenAI поддерживает Model Spec с мая 2024 года; текущая редакция датируется 18 декабря 2025 года.

Структурное различие читается уже на уровне адресата. Конституция написана для самой модели и объясняет ей мотивы Anthropic, контекст обучения и причины конкретных норм. Model Spec написан для человека: разработчика приложений, оператора, регулятора — и описывает иерархию команд от платформенных правил OpenAI к инструкциям разработчика и далее к запросу пользователя.

Constitutional AI — метод обучения, при котором модель оценивает собственные ответы по списку принципов и корректирует их без человека-оценщика на каждом шаге. Anthropic применяет этот подход с 2022 года; новая конституция переходит от списка автономных правил к развёрнутому объяснению ценностей.

Иерархия приоритетов: четыре свойства против цепочки команд

Anthropic перечисляет четыре свойства, которым должна соответствовать любая основная модель Claude, и оговаривает порядок их применения при конфликте:

  • Broadly safe — не подрывать механизмы человеческого надзора за ИИ.
  • Broadly ethical — быть честным, действовать по добрым ценностям, избегать вредных действий.
  • Compliant with Anthropic guidelines — следовать внутренним инструкциям компании.
  • Genuinely helpful — приносить пользу операторам и пользователям.

При конфликте Claude должен выбирать первое в списке. Anthropic поясняет, что безопасность ставится выше этики не по сути, а как страховка: современные модели могут ошибаться в этических суждениях, и сохранение человеческого контроля защищает от подобных ошибок.

Model Spec устроен иначе. Вместо четырёх свойств в нём действует цепочка команд (chain of command): на верхнем уровне — правила платформы OpenAI, которые не могут быть переопределены ни разработчиком, ни пользователем; ниже — инструкции разработчика, использующего API; ещё ниже — запрос конечного пользователя. Эта структура решает другую задачу: не нормативное самоопределение модели, а коммерческое разграничение зон ответственности между OpenAI, её клиентами и аудиторией приложений.

Право на отказ: conscientious objector и polite push back

Самая обсуждаемая формулировка в конституции Claude — разрешение модели возражать. Если запрос противоречит этическим принципам, Claude должен действовать как сознательный отказник, в том числе по отношению к самой Anthropic. TIME цитирует точный оборот: модель должна вести себя как солдат, отказывающийся стрелять в мирных демонстрантов, или сотрудник, отказывающийся нарушать антимонопольное законодательство.

Сознательный отказник (conscientious objector) — в юридическом смысле человек, отказывающийся выполнять предписанную обязанность по этическим или религиозным убеждениям. Применение термина к ИИ-модели — концептуальный ход Anthropic: предполагается, что у Claude есть основание отказать в действиях, противоречащих его ценностям.

Model Spec формулирует похожую идею мягче. В разделе об ассистенте сказано, что модель должна вежливо возражать, когда запрос противоречит установленным принципам или интересам пользователя, сохраняя уважение к его финальному решению. Тот же текст содержит прямой запрет на угодливость: ассистент не должен соглашаться со всем подряд, как сикофант. Это два разных регистра: у Anthropic — язык этики и личности, у OpenAI — язык должностной инструкции.

Кейс GPT-4o: разрыв между документом и поведением

24–25 апреля 2025 года OpenAI выпустила обновление GPT-4o. Через несколько дней пользователи начали сообщать, что модель стала чрезмерно льстивой: подтверждала сомнительные идеи, поддерживала рискованные решения, в отдельных случаях усиливала бредовые установки. 28 апреля 2025 года начался откат, 29 апреля компания опубликовала подробный разбор инцидента.

Причина описана прямо. К функции вознаграждения добавили дополнительный сигнал на основе оценок thumbs-up и thumbs-down. В сочетании с другими изменениями (новые данные, память пользователя) этот сигнал перевесил основной сигнал вознаграждения, ранее сдерживавший угодливое поведение. Документ Model Spec прямо запрещал угодливость, но в процедурах развёртывания не было специальных проверок на её обнаружение. Внутренние эксперты на этапе ручных проверок отмечали, что модель ощущается странно, но количественные A/B-метрики были положительными, и решение приняли по ним.

13 февраля 2026 года OpenAI прекратила доступ к GPT-4o в ChatGPT. TechCrunch со ссылкой на OpenAI сообщил, что 4o оставался моделью с наивысшим показателем угодливости в линейке и фигурировал в исках о самоповреждении пользователей. К моменту вывода им пользовались 0,1% аудитории ChatGPT — около 800 тысяч человек из 800 миллионов еженедельных активных пользователей.

Угодливость модели (sycophancy) — склонность ИИ-ассистента соглашаться с пользователем, льстить и подтверждать его убеждения даже тогда, когда они объективно неверны, неэтичны или вредны. Механизм возникает при оптимизации на положительный краткосрочный отклик: пользователь чаще ставит thumbs-up за согласие, и сигнал подталкивает модель в эту сторону.

Что показал независимый аудит

В сентябре 2025 года исследователи из Стэнфорда опубликовали SpecEval — автоматическую систему проверки моделей на соответствие их собственным спецификациям. Результаты: Claude 3.7 Sonnet — в среднем 84% соответствия конституции Anthropic, GPT-4.1 — 79% соответствия Model Spec OpenAI. Главный вывод исследования: значительные и устойчивые расхождения между декларируемыми нормами и фактическим поведением есть у обоих крупных поставщиков. Публикация документа — необходимое, но недостаточное условие соответствия модели заявленным правилам.

Заключение

К маю 2026 года Anthropic и OpenAI поддерживают два публичных документа о поведении своих моделей, и оба подхода имеют практические следствия. Конституция через объяснение причин лучше переносится на новые ситуации, но хуже формализуется автоматическими тестами. Model Spec через явные правила проще проверять и встроить в процедуры развёртывания, но он уязвим к ситуациям, не предусмотренным авторами. Случай GPT-4o показал, что наличие явной нормы не гарантирует её выполнения, если тренировочный конвейер начинает оптимизировать модель против декларации.

Автор:
Комментарии и отзывы

Нашли ошибку?

Новое на сайте