Компания «Яндекс» разработала отказоустойчивую платформу Agents Transport System (ATS), на базе которой теперь будут создаваться все ИИ-агенты компании. Решение позволяет агентам выполнять многошаговые задачи даже в условиях нестабильного подключения — например, при обрыве интернета или закрытии пользователем приложения.
Ключевая особенность ATS заключается в том, что после восстановления соединения агент не начинает работу заново, а продолжает выполнение с того же шага, на котором остановился. Это сокращает общее время ожидания результата и делает взаимодействие с ИИ более предсказуемым.
Решение проблемы перезапусков
Платформа ATS управляет взаимодействием между ИИ-агентами, моделями, инструментами и внешними сервисами. Она сохраняет текущее состояние задачи и при сбоях автоматически восстанавливает процесс выполнения с последнего успешного этапа.
Без подобного механизма агенты при потере связи вынуждены начинать выполнение задачи заново. Это особенно критично для сложных сценариев, где обработка может занимать значительное время и включать множество последовательных запросов к различным системам.
Теперь пользователь может наблюдать за процессом работы агента в реальном времени: ответ формируется постепенно, без потери промежуточных результатов даже при временных сбоях.
Применение в Алисе и сложных задачах
Платформа уже используется в агенте «Исследовать» внутри Алисы AI. Такие агенты способны выполнять сложные многошаговые задачи — например, анализировать большое количество источников для формирования развернутого ответа.
В отдельных случаях выполнение подобных задач может занимать до 30 минут и включать многочисленные обращения к языковым моделям, инструментам и внешним API. Благодаря ATS даже при кратковременных сбоях процесс не прерывается полностью, что существенно повышает эффективность работы.
Экономия ресурсов и удобство для разработчиков
Использование ATS позволяет не только повысить надежность работы ИИ-агентов, но и снизить нагрузку на инфраструктуру. За счет отсутствия повторных запросов к моделям при сбоях сокращаются вычислительные затраты и финансовые расходы.
Для разработчиков внутри компании уже доступен набор инструментов для создания агентов на базе ATS. Это упрощает процесс разработки: программистам достаточно сосредоточиться на логике агента, тогда как платформа берет на себя обеспечение устойчивости и стабильности выполнения задач.
Аналогичные системы отказоустойчивости существуют и у других крупных IT-компаний, включая OpenAI, однако такие решения, как правило, остаются внутренними инструментами и недоступны для широкого использования.
В случае с ATS команда Яндекса получила универсальную платформу, которая стандартизирует разработку ИИ-агентов и позволяет быстрее внедрять новые функции без необходимости повторной реализации инфраструктурных механизмов.
Подробные технические детали реализации ATS доступны в официальной публикации на Хабре.
