Российская модель Alice AI VLM обошла Gemini 2.5 Flash, GPT-4.1 mini и Claude 4.5 Sonnet в распознавании русского текста на изображениях

Российская визуально-текстовая модель Alice AI VLM, разработанная компанией «Яндекс», заняла второе место в лидборде бенчмарка MWS Vision Bench — первого русскоязычного теста для бизнес-OCR и мультимодальных моделей, ориентированного на реальные прикладные сценарии. В рейтинге модель опередила такие решения, как Gemini 2.5 Flash (Google), GPT-4.1 mini (OpenAI), Claude 4.5 Sonnet (Anthropic) и другие, уступив лишь Gemini 2.5 Pro от Google.

Бенчмарк MWS Vision Bench оценивает, насколько эффективно модели анализируют изображения и текст в условиях, приближённых к реальным бизнес-задачам. В тестах используются сложные русскоязычные документы — договоры, счета, формы, сканы с искажениями и смешанной версткой. Результаты Alice AI VLM показывают, что российская разработка уже конкурирует с ведущими мировыми мультимодальными моделями и по качеству распознавания русскоязычного текста превосходит многие зарубежные решения.

По итогам испытаний Alice AI VLM продемонстрировала высокую точность извлечения текста, корректную интерпретацию визуально-текстовой информации и устойчивость к типичным проблемам OCR — шумам, нестандартным шрифтам и сложной структуре документов. Это делает модель востребованной для автоматизации документооборота и аналитики в корпоративных системах.

«Результаты MWS Vision Bench подтверждают, что российские модели перешли от экспериментальных наработок к реальной прикладной ценности. Alice AI VLM и другие визуально-языковые модели ускорят автоматизацию документооборота, снизят долю ручной правки и повысят качество данных в бизнес-процессах. Для компаний это означает более быстрые решения, меньше ошибок и экономию в операционной работе — от банков и страховых компаний до логистики и госуслуг», — прокомментировал Павел Голосов, директор ИОН РАНХиГС.

Ранее «Яндекс» представил новое семейство генеративных моделей для практических задач Alice AI, в состав которого вошла и визуально-языковая модель Alice AI VLM. Она поддерживает контекст до 32k токенов, обучена на расширенном наборе данных и использует обновлённый OCR-датасет, что повышает точность и эффективность работы с текстом на изображениях.

Алиса AI — новая универсальная нейросеть Яндекса для учёбы, работы и повседневных задач

Успех Alice AI VLM в независимом русскоязычном бенчмарке подчёркивает растущую конкурентоспособность отечественных ИИ-разработок и их готовность к применению в реальных бизнес- и государственных системах.

МГУ и Яндекс создали LORuGEC – первый открытый датасет и метод обучения нейросетей сложным правилам русского языка

Обновления программ, что нового

• Релиз Android 17 для Pixel: «Пузыри» из любого приложения и другие улучшения
• Mozilla представила дорожную карту Firefox: редизайн Nova, ИИ-функции и новые инструменты для работы с PDF
• Релиз VirtualBox 7.2.10. Поддержка ядра Linux 7.1, исправление загрузки CentOS 10 и гостевой OS/2
• Обновление NVIDIA Studio Driver 610.62 WHQL. Поддержка NVIDIA Broadcast 2.2 и Reallusion Character Creator 5.1
• Обновление NVIDIA GeForce Game Ready 610.62 WHQL. Поддержка Empulse с DLSS 4.5 Dynamic Multi Frame Generation
• One UI 9 Beta 3 для Samsung Galaxy S26: исправления камеры

Автор: Comss.one

Российская модель Alice AI VLM обошла Gemini 2.5 Flash, GPT-4.1 mini и Claude 4.5 Sonnet в распознавании русского текста на изображениях

Обновления программ, что нового

Новое на сайте