Яндекс улучшил «Поиск по архивам» с помощью модели Alice AI VLM – теперь быстрее находить сведения о предках

90 комментарии
Яндекс обновил сервис «Поиск по архивам» с помощью мультимодальной модели Alice AI VLM. Теперь система распознаёт не только текст исторических документов, но и роли участников событий, что позволяет быстрее искать данные о предках и находить людей в нужном контексте

Сервис Яндекса «Поиск по архивам» обновил модель распознавания документов. Теперь система не только извлекает текст из архивных файлов, но и структурирует информацию: определяет роли участников событий и связи между людьми.

Благодаря этому пользователи смогут быстрее находить сведения о предках. В документе сразу будет видно, где именно упоминается нужный человек и в каком контексте он связан с записью.

Как изменился поиск

Раньше пользователям приходилось просматривать все совпадения по имени, включая служебные пометки, даты и упоминания других участников записи. Новая модель позволяет искать точнее — с учётом типа события и роли человека.

Например, в документе о рождении можно отфильтровать роли «родившийся», «отец» и «мать», а в свидетельстве о браке — «жених», «невеста» или «свидетель». Так сервис сразу показывает упоминания человека в нужном контексте.

За распознавание отвечает Alice AI VLM

Обновлённый Поиск по архивам работает на собственной мультимодальной модели Яндекса — Alice AI VLM. Она анализирует изображения документов и текст, что особенно важно для архивных материалов с рукописными записями, устаревшей орфографией и сложной структурой.

По данным Яндекса, модель уже обладает глубоким пониманием русского языка и изображений. Это позволило обучить её извлекать структурированные данные без создания огромных специализированных выборок.

Точность новой системы

Качество модели оценивали по доле людей, которых удаётся найти по ФИО в архивном поиске. Средняя точность составила 90,5%.

  • записи о рождении — 92,7%;
  • записи о браке — 89,7%;
  • записи о смерти — 87,2%.

Что такое Поиск по архивам

Поиск по архивам — сервис Яндекса для поиска упоминаний о людях, населённых пунктах и событиях в исторических документах XVIII–XX веков, расшифрованных нейросетью.

В базе сервиса доступно более 20 млн страниц документов из архивов Москвы, Московской, Оренбургской, Вологодской, Иркутской, Астраханской и других областей. Также сервис помогает искать информацию в дореволюционных и советских газетах, а также справочниках.

Для обработки исторических документов используется нейросетевая технология Яндекса на основе оптического распознавания символов.

Автор: По материалам Яндекс
Комментарии и отзывы

Нашли ошибку?

Новое на сайте