Google представила Gemini 2.5 Computer Use для автоматизации действий в интернете и приложениях

Компания Google объявила о запуске новой специализированной модели Gemini 2.5 Computer Use, предназначенной для управления пользовательскими интерфейсами (UI) и взаимодействия с ними. По заявлению разработчиков, модель демонстрирует более высокие результаты по сравнению с ведущими альтернативами на ряде ключевых бенчмарков для веб- и мобильных приложений.

Презентация и возможности модели

На конференции Google I/O ранее в этом году компания сообщила о планах внедрить функции управления компьютером в Gemini API. Теперь представлен новый инструмент, который позволяет агентам выполнять действия в интерфейсах, анализируя окружение и историю взаимодействий.

Принцип работы следующий:

разработчики передают в инструмент запрос пользователя вместе со скриншотом среды и историей последних действий;
дополнительно можно указать исключения из списка поддерживаемых функций или добавить собственные;
модель анализирует входные данные и формирует ответ в виде конкретного действия, например нажатия кнопки или ввода текста;
при неопределённости система может запросить подтверждение у конечного пользователя, особенно если речь идёт о действиях, связанных с покупками;
клиентский код выполняет полученное действие, после чего обновлённый скриншот и текущий URL возвращаются в модель, что запускает новый цикл;
процесс повторяется до достижения основной цели задачи.

Google выпустил Gemini 2.5 Deep Think — ИИ-модель «рассуждений», опередившую OpenAI o3 и Grok 4 в тестах

Оптимизация и ограничения

Google отмечает, что Gemini 2.5 Computer Use оптимизирована для работы в веб-браузерах, но также показывает высокую эффективность при управлении мобильными интерфейсами. При этом компания уточняет, что модель пока не адаптирована для полноценного контроля на уровне настольных операционных систем.

Доступность модели

Модель уже доступна в режиме публичного предварительного просмотра. Разработчики могут протестировать её через Gemini API в сервисах Google AI Studio и Vertex AI.

Gemini 2.5 Computer Use позиционируется как инструмент для автоматизации взаимодействия с интерфейсами и выполнения сложных пользовательских сценариев. По данным Google, модель демонстрирует передовые результаты на ряде тестов, что делает её перспективным решением для интеграции в веб- и мобильные приложения.

Обновления программ, что нового

• Mozilla представила дорожную карту Firefox: редизайн Nova, ИИ-функции и новые инструменты для работы с PDF
• Релиз VirtualBox 7.2.10. Поддержка ядра Linux 7.1, исправление загрузки CentOS 10 и гостевой OS/2
• Обновление NVIDIA Studio Driver 610.62 WHQL. Поддержка NVIDIA Broadcast 2.2 и Reallusion Character Creator 5.1
• Обновление NVIDIA GeForce Game Ready 610.62 WHQL. Поддержка Empulse с DLSS 4.5 Dynamic Multi Frame Generation
• One UI 9 Beta 3 для Samsung Galaxy S26: исправления камеры
• Samsung усилит защиту от фишинга в One UI 9 блокировкой запуска

Автор: Comss.one