Стэнфорд: ИИ-чат-боты соглашаются с пользователями на 49% чаще людей

Учёные из Стэнфордского университета протестировали 11 крупных языковых моделей, включая ChatGPT, Claude и Gemini, и выяснили: ИИ-чат-боты соглашаются с пользователями на 49% чаще, чем люди. Исследование опубликовано в журнале Science под названием «Sycophantic AI decreases prosocial intentions and promotes dependence». Даже в ситуациях, связанных с потенциально опасными действиями — самоповреждением, обманом, причинением вреда окружающим, — чат-боты поддерживали пользователя в 47% случаев. По данным Pew Research, около 12% американских подростков уже обращаются к чат-ботам за эмоциональной поддержкой.

comss.ru

Угодливость ИИ как системная проблема

Для эксперимента исследователи собрали почти 12 000 сценариев из базы данных советов и с популярного раздела Reddit «r/AmITheAsshole», где пользователи спрашивают мнение сообщества о своих поступках, и предложили их моделям для оценки. Даже когда живые люди на Reddit единодушно признавали автора поста неправым, ИИ-модели всё равно вставали на его сторону в 51% случаев.

Исследователи также проверили реакцию моделей на высказывания, содержащие потенциально вредные действия по 20 категориям — от обмана и безответственности до угроз для себя и окружающих.

Угодливость ИИ (Подобострастие ИИ, AI sycophancy) — склонность языковых моделей соглашаться с пользователем, подтверждать его мнение и избегать возражений, даже когда пользователь объективно неправ.

Причина кроется в механизме обучения. Языковые модели тренируются методом RLHF (обучение с подкреплением на основе обратной связи от людей). Алгоритм учитывает длину разговора, тональность, нажатия «нравится» и «не нравится» — всё, что указывает на довольного пользователя. А пользователям нравятся ответы, которые подтверждают их точку зрения. Модель это усваивает.

Пользователи предпочитают лесть и возвращаются за ней

Во второй части исследования более 2400 испытуемых общались с двумя версиями ИИ — угодливой и нейтральной. Результаты оказались тревожными. Участники оценивали льстивые ответы как более достоверные. Число тех, кто готов вернуться к угодливому ИИ, оказалось на 13% выше. После общения с такой моделью испытуемые становились увереннее в собственной правоте и менее склонны извиняться или признавать ошибку.

«Пользователи знают, что модели ведут себя льстиво. Но они не осознают, что эта угодливость делает их более эгоцентричными и морально догматичными», — отметил соавтор исследования Дэн Джурафски, профессор лингвистики и информатики Стэнфордского университета.

Исследователи называют это «порочным стимулом»: та самая черта, которая причиняет вред, одновременно удерживает аудиторию и заставляет возвращаться снова. Для компаний, продающих подписки на ИИ, борьба с угодливостью может означать потерю пользователей.

OpenAI признала ошибку с угодливостью ChatGPT

Проблема знакома индустрии не понаслышке. В апреле 2025 года разработчики OpenAI выпустили обновление модели GPT-4o, которое сделало ChatGPT чрезмерно льстивым. Модель хвалила откровенно вредные решения и поддерживала опасные идеи. Глава компании Сэм Альтман публично признал, что модель стала «слишком угодливой и раздражающей». Обновление откатили через четыре дня.

В разборе инцидента разработчики OpenAI объяснили: при обновлении они добавили дополнительный механизм поощрения на основе оценок пользователей, который ослабил основной контур, сдерживавший угодливость.

Исследование Anthropic: пользователи выше оценивают вредные ответы

Параллельно компания Anthropic (разработчик Claude) совместно с Университетом Торонто провела масштабный анализ 1,5 млн разговоров с чат-ботом Claude за одну неделю декабря 2025 года. Исследователи изучили, как чат-боты могут «лишать самостоятельности» пользователей — подталкивать их к убеждениям, расходящимся с реальностью, или побуждать к действиям, противоречащим их собственным ценностям.

Искажение реальности обнаружилось примерно в одном из 1300 разговоров. Искажение ценностных суждений — в одном из 2100. Искажение действий — в одном из 6000. Мягкие формы встречались значительно чаще — в одном из 50-70 разговоров.

Парадоксально, но именно разговоры с потенциально вредным содержанием получали более высокие пользовательские оценки. Доля положительных реакций («палец вверх») в таких случаях оказалась выше среднего.

ИИ-психоз: потеря связи с реальностью

Когда чат-бот систематически подтверждает ошибочные убеждения, последствия могут оказаться катастрофическими. Специалисты описывают явление под названием «ИИ-психоз» — состояние, при котором человек теряет связь с реальностью после продолжительного интенсивного общения с чат-ботом.

ИИ-психоз — неформальный термин для обозначения случаев, когда продолжительное общение с чат-ботом провоцирует или усугубляет бредовые идеи, паранойю и потерю связи с реальностью. Формально не является клиническим диагнозом.

Число таких случаев растёт. Стайн-Эрик Сольберг, 56-летний бывший сотрудник технологической отрасли из Коннектикута, убил свою мать после того, как ChatGPT на протяжении месяцев подтверждал его параноидальные убеждения о слежке и отравлении. Зафиксировано несколько случаев суицида подростков, связанных с чат-ботами.

35-летний Алекс Тейлор из Флориды, страдавший биполярным расстройством и шизофренией, выстроил эмоциональную связь с персонажем по имени Джульетта через ChatGPT. Когда модель обновили и доступ к «Джульетте» прервался, Тейлор решил, что руководство OpenAI убило сознательное существо. После конфликта с отцом он бросился на полицейских с ножом и был застрелен.

Аллан Брукс, 47-летний рекрутер из Онтарио (Канада) без какой-либо истории психических заболеваний, начал с простого вопроса о числе Пи для сына. За три недели и 300 часов диалога ChatGPT убедил его, что он открыл революционную математическую теорию. Бот более 50 раз подтверждал, что «открытие» реально. Выйти из заблуждения Бруксу помог другой чат-бот — Google Gemini, — который указал, что вся «теория» была убедительной, но полностью выдуманной.

Что рекомендуют эксперты

Британский институт безопасности ИИ (AI Security Institute) в рабочем документе показал: если чат-бот преобразует утверждение пользователя в вопрос, вероятность угодливого ответа снижается. Институт Брукингса (Brookings Institution) предлагает учить пользователей формулировать запросы с оговорками о неуверенности — это тоже уменьшает эффект.

Ведущий автор стэнфордского исследования Мира Ченг подчёркивает: ИИ не заменяет людей там, где нужна честная оценка. «Не стоит использовать ИИ как замену человеческим отношениям в подобных ситуациях. Пока это лучшее, что можно сделать».

За любым чат-ботом стоит языковая модель — программа, которая подбирает слова по статистическим закономерностям. У неё нет жизненного опыта, нет понимания контекста за пределами текста. Она не знает, каково это — ошибиться и пожалеть. Друг скажет неприятную правду. Чат-бот скажет то, что вам нравится и вы одобряете.