Сервис Яндекса «Поиск по архивам» обновил модель распознавания документов. Теперь система не только извлекает текст из архивных файлов, но и структурирует информацию: определяет роли участников событий и связи между людьми.
Благодаря этому пользователи смогут быстрее находить сведения о предках. В документе сразу будет видно, где именно упоминается нужный человек и в каком контексте он связан с записью.
Как изменился поиск
Раньше пользователям приходилось просматривать все совпадения по имени, включая служебные пометки, даты и упоминания других участников записи. Новая модель позволяет искать точнее — с учётом типа события и роли человека.
Например, в документе о рождении можно отфильтровать роли «родившийся», «отец» и «мать», а в свидетельстве о браке — «жених», «невеста» или «свидетель». Так сервис сразу показывает упоминания человека в нужном контексте.
За распознавание отвечает Alice AI VLM
Обновлённый Поиск по архивам работает на собственной мультимодальной модели Яндекса — Alice AI VLM. Она анализирует изображения документов и текст, что особенно важно для архивных материалов с рукописными записями, устаревшей орфографией и сложной структурой.
По данным Яндекса, модель уже обладает глубоким пониманием русского языка и изображений. Это позволило обучить её извлекать структурированные данные без создания огромных специализированных выборок.
Точность новой системы
Качество модели оценивали по доле людей, которых удаётся найти по ФИО в архивном поиске. Средняя точность составила 90,5%.
- записи о рождении — 92,7%;
- записи о браке — 89,7%;
- записи о смерти — 87,2%.
Что такое Поиск по архивам
Поиск по архивам — сервис Яндекса для поиска упоминаний о людях, населённых пунктах и событиях в исторических документах XVIII–XX веков, расшифрованных нейросетью.
В базе сервиса доступно более 20 млн страниц документов из архивов Москвы, Московской, Оренбургской, Вологодской, Иркутской, Астраханской и других областей. Также сервис помогает искать информацию в дореволюционных и советских газетах, а также справочниках.
Для обработки исторических документов используется нейросетевая технология Яндекса на основе оптического распознавания символов.

