Исследователи нашли способ прятать вредоносные команды в уменьшенных изображениях для ИИ

Исследователи разработали новую атаку, позволяющую похищать данные пользователей, внедряя вредоносные инструкции в изображения, которые обрабатываются системами искусственного интеллекта до передачи их в большую языковую модель.

Метод основан на использовании изображений в полном разрешении, которые содержат инструкции, невидимые человеческому глазу, но проявляющиеся при снижении качества изображения с помощью алгоритмов ресемплинга.

Эта техника была разработана исследователями из компании Trail of Bits Кикиморой Морозовой (Kikimora Morozova) и Сухой Сабих Хуссейн (Suha Sabi Hussain). Она основана на теории, представленной в статье конференции USENIX в 2020 году учеными Технического университета Брауншвейга (Германия), где рассматривалась возможность атаки через изменение масштаба изображения в машинном обучении.

Метод действия атаки

Когда пользователи загружают изображения в системы ИИ, они автоматически уменьшаются в размере и качестве для повышения производительности и снижения затрат.

В зависимости от конкретной системы при ресемплинге могут использоваться разные алгоритмы: ближайший сосед (nearest neighbor), билинейная или бикубическая интерполяция.

Все эти методы создают артефакты алиасинга, которые позволяют скрытым узорам проявляться на уменьшенной версии изображения, если исходное изображение было специально подготовлено для этой цели.

В примере от Trail of Bits определенные темные участки вредоносного изображения при бикубическом ресемплинге окрашиваются в красный цвет, а на их фоне проявляется скрытый черный текст.

Пример скрытого сообщения, появляющегося на уменьшенном изображении

Такое скрытое сообщение, появляющееся на уменьшенной копии изображения, распознается языковой моделью как часть пользовательских инструкций и автоматически объединяется с легитимным вводом.

С точки зрения пользователя ничего подозрительного не происходит, однако на деле модель исполняет скрытые команды, которые могут привести к утечке данных или другим опасным действиям.

В одном из экспериментов с использованием Gemini CLI исследователи смогли вывести данные из сервиса Календарь Google на произвольный адрес электронной почты. Для этого они применяли Zapier MCP с параметром trust=True, позволяющим автоматически подтверждать вызовы инструментов без согласия пользователя.

Trail of Bits отмечает, что под каждую модель ИИ атаку необходимо настраивать в зависимости от используемого ею алгоритма уменьшения изображений. Тем не менее исследователи подтвердили, что их метод применим к следующим системам:

Google Gemini CLI
Vertex AI Studio (с бэкендом Gemini)
Веб-интерфейс Gemini
Gemini API через утилиту llm CLI
Google Assistant на Android-смартфоне
Genspark

Так как вектор атаки является распространенным, его применение может выйти далеко за пределы протестированных инструментов. Более того, для демонстрации своей разработки исследователи создали и опубликовали Anamorpher (находится в стадии бета-тестирования) — инструмент с открытым исходным кодом, позволяющий генерировать изображения для всех перечисленных алгоритмов уменьшения масштаба.

В качестве мер защиты исследователи Trail of Bits рекомендуют системам ИИ вводить ограничения на размеры изображений при загрузке. Если уменьшение масштаба неизбежно, пользователю следует показывать предпросмотр того варианта изображения, который будет передан в большую языковую модель (LLM).

Кроме того, разработчики советуют запрашивать у пользователей явное подтверждение выполнения любых чувствительных операций, особенно если в изображении обнаружен текст.

Исследователи отмечают:

Самая надежная защита, однако, заключается во внедрении безопасных архитектурных паттернов и системных механизмов, которые снижают последствия атак с внедрением подсказок (prompt injection), выходя за рамки только мультимодальных сценариев.

Угрозы безопасности

• Сбой в pCloud: пользователи видят чужие папки в своих аккаунтах
• Уязвимость обхода путей в WinRAR активно используется множеством хакеров
• Новый MaaS-сервис Stanley обещает обход модерации Chrome Web Store для фишинговых расширений
• Пользователей LastPass атакуют фишинговыми письмами под видом техподдержки
• Трояны Android.Phantom заражают смартфоны через игры и пиратские моды, используя ИИ и видеотрансляции для накрутки кликов
• Атака CrashFix: фальшивый блокировщик рекламы для Chrome и Edge вызывает сбой браузера и заражает ПК

Исследователи нашли способ прятать вредоносные команды в уменьшенных изображениях для ИИ

Метод действия атаки

Угрозы безопасности

Новое на сайте