Яндекс представил новую метрику RATE для точной оценки качества машинного перевода

Исследователи Яндекса представили новый метод оценки и улучшения машинного перевода

Исследователи Яндекса представили новый подход к оценке качества машинного перевода, который помогает выявлять ошибки не только в передаче смысла, но и в стиле, тоне и естественности языка. Такой метод особенно важен для современных моделей, которые уже достаточно точны, но иногда выбирают слишком официальный или, наоборот, чрезмерно разговорный вариант. Например, фраза sorry, my bad может быть переведена как «приношу извинения, это моя вина» вместо более естественного «извини, я ошиблась».

Новый метод получил название RATE (Refined Assessment for Translation Evaluation — улучшенная оценка качества перевода). Он не служит прямой метрикой для дообучения моделей, но позволяет разработчикам точнее понимать, какие типы ошибок встречаются в переводах и как улучшить естественность результата.

Что такое RATE и чем он отличается от существующих методов

RATE оценивает качество перевода сразу по трём критериям, которые действительно важны для пользователя:

точность передачи смысла;
естественность звучания;
соответствие стилю исходного текста.

Этот подход делает метрику универсальной — она подходит для оценки новостей, постов в соцсетях, художественных текстов и деловой переписки. RATE фиксирует не только наличие ошибки, но и её значимость — от несущественных стилистических шероховатостей до серьёзных искажений содержания.

Сравнение с популярными международными метриками MQM (Multidimensional Quality Metrics) и ESA (Error Span Annotation) показало, что RATE выявляет в семь раз больше ошибок. Эксперименты проводились на данных конкурса WMT, а оценивали результаты профессиональные тренеры ИИ. Это говорит о том, что многие недостатки, заметные пользователю, ранее просто не фиксировались существующими методами.

Мировое признание

Исследование представили на международной конференции EMNLP 2025 — одном из ключевых научных событий в области обработки естественного языка. Среди участников конференции были Microsoft Research, Google Research, OpenAI, Anthropic, Amazon, NVIDIA Research, Huawei, Baidu, Intel Labs, Adobe Research и другие центры ИИ-исследований.

Эксперимент также подтвердил: хотя современные модели перевода достигли высокой точности, эталоном плавности и естественности речи остаётся человеческий перевод. При этом большая языковая модель Яндекса уже вплотную приблизилась к этому уровню, превзойдя модели вроде Claude-3.5 и GPT-4 по показателям естественности перевода.

Когда мы работали с другими методами, нам не хватало детализации. MQM слишком сложный, а ESA замечает только грубые ошибки. Эти метрики помогают проверить точность, но не позволяют оценить, насколько перевод получается естественным. А именно это сегодня стало главным критерием для пользователя. RATE даёт более полную картину и подсказывает разработчикам, как улучшать модель.

Екатерина Еникеева, руководитель команды оценки качества перевода

Как Яндекс применяет RATE

Яндекс уже использует новую метрику для анализа и улучшения собственных моделей перевода. RATE помогает адаптировать тон и стиль перевода под разные сценарии — от деловой переписки до неформального общения. Также метод используется для создания новых алгоритмов, которые лучше учитывают особенности живой человеческой речи, а не только формальные требования к тексту.

В перспективе RATE может стать инструментом для развития всей отрасли машинного перевода, поскольку закрывает пробел между точностью передачи смысла и естественностью результата — теми аспектами, которые пользователь замечает чаще всего.

Обновления программ, что нового

• Обновление AMD Ryzen Chipset Driver 8.02.18.557 для Windows 10 и Windows 11: возвращена поддержка AMS Mailbox и S0i3 Filter
• Apple выпустила четвёртые бета-версии iOS 26.4, iPadOS 26.4 и macOS Tahoe 26.4 для разработчиков
• Realme Note 80 – бюджетник с защитой MIL-STD-810H и батареей 6300 мА·ч
• OnePlus 15T: официальный дизайн с плоским корпусом и аккумулятором 7500 мА·ч
• Ключи доступа против паролей: почему технология проигрывает привычке
• Обновления Samsung Galaxy со 2 по 8 марта 2026 года: патчи безопасности и подготовка бета-версии One UI 8.5 для новых устройств