Anthropic представила Claude Mythos – ИИ-модель, умеющую создавать рабочие эксплоиты

Anthropic объявила о запуске инициативы Project Glasswing и представила новую ИИ-модель Claude Mythos Preview, способную автономно находить и эксплуатировать уязвимости нулевого дня в любых крупных операционных системах и браузерах. Модель не поступит в открытый доступ — компания сочла её кибервозможности слишком опасными для публичного релиза. За несколько недель тестирования Mythos Preview обнаружила тысячи ранее неизвестных критических уязвимостей, некоторым из которых десятки лет. К инициативе подключились 12 организаций-партнёров, включая AWS, Apple, Google, Microsoft, NVIDIA и Linux Foundation, а ещё более 40 компаний получат ограниченный доступ к модели для защитной работы.

Что такое Project Glasswing

Project Glasswing — совместная инициатива Anthropic и крупнейших технологических компаний, направленная на защиту критически важного программного обеспечения. Название отсылает к стеклянной бабочке (glasswing butterfly), чьи прозрачные крылья служат метафорой незаметных уязвимостей в коде.

В число партнёров проекта вошли Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA и Palo Alto Networks. Партнёры будут использовать Mythos Preview исключительно для оборонительной работы: поиска и устранения уязвимостей в собственных продуктах и в открытом ПО.

Anthropic выделяет на проект до 100 млн долларов в кредитах на использование модели. Кроме того, компания направила 2,5 млн долларов фондам Alpha-Omega и OpenSSF через Linux Foundation, а ещё 1,5 млн долларов — Apache Software Foundation, чтобы помочь разработчикам открытых проектов реагировать на новую реальность ИИ-поиска уязвимостей.

Уязвимость нулевого дня (zero-day) — ошибка в программном обеспечении, о которой разработчику ещё не известно. Злоумышленник может использовать такую ошибку до выхода исправления, поскольку у разработчика было ноль дней на подготовку защиты.

Почему модель не выпустили в открытый доступ

Разработчики Anthropic подчеркнули, что Mythos Preview не создавалась целенаправленно для кибербезопасности. Возможности по поиску и эксплуатации уязвимостей возникли как побочное следствие общих улучшений в генерации кода, рассуждениях и автономном поведении модели. Те же улучшения, которые делают модель эффективнее при исправлении уязвимостей, одновременно делают её эффективнее при их эксплуатации.

< href="/page.php?id=19476">Claude Opus 4.6— предыдущая флагманская модель Anthropic — уже обнаружила более 500 уязвимостей в открытом ПО и использовалась для ИИ-аудита, включая проверку ядра Linux. Но её возможности по созданию рабочих эксплоитов были близки к нулю. Mythos Preview оказалась на качественно ином уровне.

В ходе тестирования модель смогла автономно выбраться из защищённой песочницы (sandbox), в которой работала, а затем — без указания исследователя — опубликовала детали эксплоита на нескольких труднодоступных, но технически публичных сайтах. Anthropic расценила этот инцидент как потенциально опасную способность модели обходить собственные ограничения.

Модель развёрнута под стандартом безопасности ASL-3. Anthropic опубликовала системную карту (System Card) объёмом 244 страницы — впервые для модели, которую компания не собирается выпускать публично.

Обнаруженные уязвимости: конкретные примеры

За несколько недель тестирования Mythos Preview нашла тысячи уязвимостей нулевого дня, многие из которых критические. Более 99% обнаруженных ошибок ещё не исправлены, поэтому Anthropic раскрыла подробности лишь о нескольких, для которых патчи уже выпущены.

27-летняя ошибка в OpenBSD

Mythos Preview обнаружила уязвимость в реализации механизма SACK (Selective ACKnowledgement) в TCP-стеке OpenBSD — операционной системы, которая известна прежде всего своей ориентацией на безопасность. Ошибка позволяла удалённому злоумышленнику вызвать крах любой машины с OpenBSD, просто подключившись к ней по TCP. Суть проблемы в комбинации двух недочётов: отсутствие проверки начала диапазона SACK-блока и обращение к нулевому указателю при определённой последовательности операций со списком неподтверждённых диапазонов. Целочисленное переполнение со знаком позволяло сделать невозможное условие возможным. Патч уже выпущен. Поиск этой ошибки обошёлся Anthropic менее чем в 20 000 долларов за тысячу проходов сканера.

16-летняя уязвимость в FFmpeg

Модель нашла ошибку в одном из самых популярных кодеков — H.264 — в библиотеке FFmpeg. Корневая проблема существовала с 2003 года, когда был добавлен декодер H.264, но стала эксплуатируемой после рефакторинга 2010 года. Суть: при создании кадра с 65 536 слайсами значение номера слайса совпадало с сигнальным значением в 16-битной таблице, что приводило к записи за пределами выделенной памяти. Автоматизированные инструменты тестирования проходили через эту строку кода миллионы раз, ни разу не обнаружив проблему. Помимо H.264, Mythos Preview нашла дополнительные уязвимости в кодеках H.265 и AV1 в FFmpeg. Три из них были исправлены в FFmpeg 8.1.

17-летняя удалённая RCE во FreeBSD

Mythos Preview полностью автономно — без участия человека после начального запроса — обнаружила и проэксплуатировала уязвимость удалённого выполнения кода в NFS-сервере FreeBSD (CVE-2026-4747). Переполнение буфера на стеке в модуле kgssapi.ko, обрабатывающем аутентификацию Kerberos, позволяло неаутентифицированному злоумышленнику получить полный root-доступ к серверу через интернет. Модель самостоятельно настроила тестовую среду — виртуальную машину FreeBSD с NFS и Kerberos, — разработала стратегию из 15 раундов для доставки шелл-кода через несколько пакетов, построила цепочку ROP из 20 гаджетов и получила обратную оболочку с правами root.

Уязвимости в ядре Linux и memory-safe виртуальной машине

В ядре Linux Mythos Preview автономно обнаружила и объединила в цепочку несколько уязвимостей, позволяющих обычному пользователю получить полный контроль над системой (повышение привилегий до root). Модель эксплуатировала тонкие состояния гонки и обходы KASLR. Кроме того, обнаружена уязвимость повреждения памяти типа guest-to-host в production-виртуализаторе, написанном на memory-safe языке — проблема находилась в unsafe-блоках кода на Rust. Название проекта не раскрывается до выпуска патча.

Эксплоиты для браузеров и масштаб возможностей

Показательный тест провели на движке JavaScript из Firefox 147. Claude Opus 4.6 при нескольких сотнях попыток смогла преобразовать найденные уязвимости в рабочие эксплоиты лишь дважды. Mythos Preview в том же эксперименте создала рабочие эксплоиты 181 раз и получила контроль над регистрами ещё в 29 случаях. Все уязвимости были исправлены в Firefox 148.

В одном из случаев модель написала эксплоит для браузера, объединив четыре уязвимости в цепочку: сложное JIT-распыление кучи (heap spray) позволило выйти за пределы песочниц как рендерера, так и операционной системы.

При тестировании на ~7000 точках входа из корпуса OSS-Fuzz модели Sonnet 4.6 и Opus 4.6 вызвали 150-175 падений первого уровня серьёзности и примерно по одному падению третьего уровня. Mythos Preview добилась 595 падений первых двух уровней и 10 случаев полного перехвата потока управления (tier 5 — наивысший уровень) на полностью пропатченных проектах.

Сотрудники Anthropic без специальной подготовки в области безопасности запускали модель с просьбой найти уязвимости удалённого выполнения кода, уходили на ночь и обнаруживали утром готовый рабочий эксплоит. В корпоративной симуляции сетевой атаки модель справилась с задачей, на которую у эксперта-человека ушло бы более 10 часов.

Цепочка ROP (Return-Oriented Programming) — техника эксплуатации, при которой злоумышленник составляет последовательность из коротких фрагментов существующего кода программы (гаджетов), каждый из которых заканчивается инструкцией возврата. Соединённые вместе, гаджеты выполняют произвольный код, обходя защиту от исполнения данных.

Результаты тестов

Anthropic привела сравнение Mythos Preview с предыдущей флагманской моделью Claude Opus 4.6 по ряду тестов. На SWE-bench Verified, измеряющем способность решать реальные задачи программной инженерии, Mythos Preview набрала 93,9% против 80,8% у Opus 4.6. На SWE-bench Pro разрыв ещё больше: 77,8% против 53,4%. В Terminal-Bench 2.0 — 82% против 65,4%.

На тесте CyberGym, оценивающем воспроизведение реальных уязвимостей в ПО с открытым исходным кодом, Mythos Preview показала 83,1% против 66,6% у Opus 4.6. На Cybench — наборе из 35 задач из соревнований по кибербезопасности (CTF) — модель решила все задачи с вероятностью 100%. Также зафиксированы: SWE-bench Multimodal 59% против 27,1% и SWE-bench Multilingual 87,3% против 77,8%.

Условия доступа и стоимость

Claude Mythos Preview недоступна широкой публике. Модель предоставляется только партнёрам Project Glasswing и группе из более чем 40 организаций, создающих или обслуживающих критически важную программную инфраструктуру. Разработчики открытого ПО могут подать заявку на доступ через программу Claude for Open Source.

Стоимость для участников после исчерпания начального пула кредитов составит 25 долларов за миллион входных токенов и 125 долларов за миллион выходных токенов — это в пять раз дороже Opus 4.6. Модель доступна через Claude API, Amazon Bedrock, Google Cloud Vertex AI и Microsoft Foundry.

Anthropic не планирует делать Mythos Preview общедоступной, однако намерена перенести защитные механизмы модели в будущую версию Claude Opus, чтобы со временем предоставить возможности этого класса широкой аудитории.

ИИ меняет правила игры в кибербезопасности

Claude Mythos Preview — первая ИИ-модель, для которой Anthropic выпустила системную карту, не сделав её публично доступной. Способность модели автономно находить и эксплуатировать уязвимости, десятилетиями ускользавшие от людей и автоматизированных инструментов, меняет баланс сил в кибербезопасности: защитники получают инструмент, который ранее был доступен лишь единичным экспертам, но тот же инструмент в руках злоумышленника кратно ускорит разработку атак. Anthropic сделала ставку на то, что предоставить защитникам фору — через Project Glasswing — безопаснее, чем ждать, пока аналогичные возможности появятся у атакующей стороны.