МГУ и Яндекса создали LORuGEC – первый открытый датасет и метод обучения нейросетей сложным правилам русского языка

МГУ совместно с Яндексом представил LORuGEC — первый открытый датасет, посвящённый редким и сложным ошибкам русского языка, а также новый метод обучения ИИ, который позволяет моделям точнее исправлять грамматику, пунктуацию и орфографию. Датасет и алгоритм обучения уже опубликованы в открытом доступе и могут использоваться в образовательных сервисах, проверке работ или создании языковых инструментов. О разработке Яндекс рассказал на Конгрессе молодых ученых в «Сириусе». Это главное мероприятие Десятилетия науки и технологий в России, которое проходит 26-28 ноября в Научно-технологическом университете «Сириус».

Работа получила высокую оценку сообщества: статья про LORuGEC и метод дообучения нейросетей получила приз за лучшую научную работу на воркшопе по инновациям в применении ИИ для образования, прошедшем на международной конференции ACL 2025. Там же свои разработки представили Google, Apple, IBM, Bloomberg AI и другие технологические компании.

Первый открытый датасет сложных ошибок русского языка

Большие языковые модели научились уверенно писать тексты, но тонкости русской грамматики остаются сложным вызовом. В открытых корпусах данных почти отсутствуют примеры ошибок по действительно трудным правилам — тем, что проверяют на олимпиадах и ЕГЭ.

LORuGEC исправляет этот пробел. В него вошло почти 1000 предложений, каждое привязано к конкретной языковой норме. Датасет охватывает 48 правил русского языка, среди которых:

пунктуация в сложноподчинённых предложениях;
слитное и раздельное написание слов с «не»;
согласование подлежащего и сказуемого в сложных конструкциях;
другие ошибки, характерные для экзаменационных и академических текстов.

Материал готовился совместно с лингвистами и опирается на справочную литературу, что обеспечивает высокое качество и точность примеров.

Метод обучения, который помогает моделям избегать лишних исправлений

Чтобы нейросеть могла исправлять редкие и сложные ошибки, исследователи предложили новый подход — Retrieval-Augmented Generation (RAG) для задач грамматической коррекции. Его ключевая идея — не переобучать модель на небольшом датасете, а подсказывать ей правильные примеры прямо во время генерации.

Модель GECTOR анализирует входное предложение, определяет тип ошибки и находит в LORuGEC несколько предложений с аналогичными нарушениями. Затем эти примеры передаются большой языковой модели как подсказки. Благодаря этому:

ИИ не исправляет текст лишний раз — меняет только действительно ошибочные места;
модель различает близкие, но разные ошибки (например, конкретный пропуск запятой перед «что»);
качество коррекции повышается без необходимости дорогостоящего дообучения.

Результаты показали рост точности на 5–10% по международной метрике F0,5. У YandexGPT 5 Pro точность достигла 83%, у YandexGPT 5 Lite — 71%. Метод успешно сработал и на зарубежных моделях, что подтверждает его универсальность.

«В создании датасета нам помогали студенты-лингвисты и справочная литература. Мы собрали тысячу предложений, в которых не только исправлены ошибки, но и указаны соответствующие правила. Затем разработали метод, который подбирает примеры с такими же ошибками и помогает ИИ корректно их исправлять. Это пример успешной коллаборации науки и индустрии: совместная работа лингвистов и инженеров позволила создать решение, которое действительно понимает тонкости русского языка».

Алексей Сорокин, старший научный сотрудник Института ИИ МГУ, разработчик в отделе Поиска Яндекса

Обновления программ, что нового

• МГУ и Яндекса создали LORuGEC – первый открытый датасет и метод обучения нейросетей сложным правилам русского языка
• В России стартовали продажи нового планшета POCO Pad M1: большой 12,1-дюймовый экран и батарея 12 000 мАч
• Представлены флагманы Poco F8 Ultra и F8 Pro с чипами Snapdragon и оптикой Light Fusion
• Новое приложение Qwen Chat для iPhone и Android скачали более 10 млн раз. Чат-бот доступен в России без ограничений
• Qualcomm представила процессор Snapdragon 8 Gen 5: характеристики и особенности
• Honor представила умные часы Watch X5 с AMOLED-экраном и защитой IP68 за 65 долларов

МГУ и Яндекса создали LORuGEC – первый открытый датасет и метод обучения нейросетей сложным правилам русского языка

Первый открытый датасет сложных ошибок русского языка

Метод обучения, который помогает моделям избегать лишних исправлений

Обновления программ, что нового

Новое на сайте