ИИ написал компилятор для ядра Linux за две недели: результаты теста Claude Opus 4.6

Исследователь из команды безопасности Anthropic Николас Карлини опубликовал отчет об эксперименте, в ходе которого 16 экземпляров модели Claude Opus 4.6 работали над созданием компилятора языка C с нуля. Использование новой функции «команды агентов» (agent teams) позволило моделям действовать в полуавтономном режиме.

За две недели работы и почти 2000 сессий кодинга агенты написали около 100 000 строк кода на языке Rust. Затраты на оплату API составили примерно 20 000 долларов. Итоговый программный продукт оказался способен собрать загружаемое ядро Linux 6.9 для архитектур x86, ARM и RISC-V.

Ход эксперимента и технические достижения

В рамках проекта каждый экземпляр Claude работал в отдельном контейнере Docker, имея доступ к общему репозиторию Git. Агенты самостоятельно распределяли задачи, создавая файлы блокировки, и отправляли готовый код в общий поток. Примечательно, что процесс не контролировался центральным управляющим агентом — модели сами разрешали возникающие конфликты слияния (merge conflicts).

Anthropic представила новую модель Claude Opus 4.6 с контекстом до 1 млн токенов

Полученный компилятор, опубликованный Anthropic на GitHub, успешно обрабатывает код крупных проектов с открытым исходным кодом, включая PostgreSQL, SQLite, Redis, FFmpeg и QEMU. В наборе тестов GCC torture test разработка достигла показателя прохождения 99%. Кроме того, компилятор справился со сборкой и запуском игры Doom.

Ограничения и проблемы масштабируемости

Несмотря на достигнутые результаты, Карлини отметил ряд существенных недостатков. Компилятор не имеет бэкенда для 16-битной архитектуры x86, необходимого для загрузки Linux в реальном режиме, поэтому для этого этапа приходится использовать GCC. Собственные ассемблер и компоновщик (линкер) работают с ошибками, а генерируемый код уступает по эффективности GCC даже при включенных оптимизациях.

Качество кода на Rust также оставляет желать лучшего и не соответствует уровню эксперта. Серьезные проблемы начались при достижении объема в 100 000 строк. Карлини сообщил, что на этом этапе исправление ошибок и добавление новых функций часто приводило к поломке уже работающего функционала. Модель достигла предела своих возможностей по поддержанию связности кодовой базы.

Роль человека и настройки окружения

Anthropic позиционирует проект как разработку в «чистой комнате» (без доступа к интернету), однако это утверждение вызвало споры. Базовая модель обучалась на огромных массивах общедоступного кода, включая исходные тексты GCC и Clang.

Заявленная сумма в 20 000 долларов покрывает только расходы на токены API и не учитывает затраты на обучение модели и человеческий труд. Значительная часть работы заключалась не в написании кода агентами, а в создании инженерной обвязки вокруг них. Карлини разработал сложные системы тестирования и непрерывной интеграции, адаптированные под особенности языковых моделей.

Для эффективной работы потребовалось ограничить вывод данных тестирования, так как излишне подробные логи переполняли контекстное окно модели. Также был внедрен «быстрый режим» тестов, проверяющий лишь выборку от 1% до 10% случаев, поскольку у Claude отсутствует чувство времени. Когда агенты массово застревали на одной ошибке ядра, использовался эталонный компилятор GCC для параллелизации задач.

Эксперимент продемонстрировал, что современные модели способны создавать сложные программные продукты, такие как мультиархитектурные компиляторы, но для этого требуются значительные усилия со стороны инженеров по настройке среды и верификации результатов.

Существующие ограничения не должны преуменьшать реальную значимость эксперимента. Еще год назад языковые модели не могли создать функциональный мультиархитектурный компилятор даже при неограниченном бюджете и плотном контроле. Новизна проекта заключается в методологии: параллельные агенты координировали работу через Git при минимальном участии человека. Инженерные решения, разработанные Карлини для повышения продуктивности агентов — контекстно-зависимый вывод тестов, жесткие временные рамки (time-boxing) и использование GCC в качестве эталона для распараллеливания, — могут стать важным вкладом в развитие инструментов агентной разработки.

Сам Карлини неоднозначно оценил полученные результаты. Он отметил, что работа над компилятором была увлекательной, но он не ожидал, что подобное станет технически возможным уже в начале 2026 года. Исследователь также выразил обеспокоенность, ссылаясь на свой опыт в тестировании на проникновение. По его словам, перспектива развертывания программистами программного обеспечения, код которого они лично не проверяли, вызывает серьезные опасения в сфере безопасности.

Обновления программ, что нового

• Telegram для Android получил масштабный редизайн в стиле Liquid Glass
• ИИ написал компилятор для ядра Linux за две недели: результаты теста Claude Opus 4.6
• iQOO 15 Ultra против Red Magic 11 Pro: различия в охлаждении, дисплеях и производительности
• Android 16 QPR3 для Pixel: 6 ключевых изменений, которые появятся уже в марте
• NIST: принудительная смена паролей каждые 90 дней устарела и снижает безопасность
• Утечка: Snapdragon 8 Elite Gen 6 может получить систему охлаждения от Samsung Exynos