Исследователи Яндекса представили новый метод оценки и улучшения машинного перевода
Исследователи Яндекса представили новый подход к оценке качества машинного перевода, который помогает выявлять ошибки не только в передаче смысла, но и в стиле, тоне и естественности языка. Такой метод особенно важен для современных моделей, которые уже достаточно точны, но иногда выбирают слишком официальный или, наоборот, чрезмерно разговорный вариант. Например, фраза sorry, my bad может быть переведена как «приношу извинения, это моя вина» вместо более естественного «извини, я ошиблась».
Новый метод получил название RATE (Refined Assessment for Translation Evaluation — улучшенная оценка качества перевода). Он не служит прямой метрикой для дообучения моделей, но позволяет разработчикам точнее понимать, какие типы ошибок встречаются в переводах и как улучшить естественность результата.
Что такое RATE и чем он отличается от существующих методов
RATE оценивает качество перевода сразу по трём критериям, которые действительно важны для пользователя:
- точность передачи смысла;
- естественность звучания;
- соответствие стилю исходного текста.
Этот подход делает метрику универсальной — она подходит для оценки новостей, постов в соцсетях, художественных текстов и деловой переписки. RATE фиксирует не только наличие ошибки, но и её значимость — от несущественных стилистических шероховатостей до серьёзных искажений содержания.
Сравнение с популярными международными метриками MQM (Multidimensional Quality Metrics) и ESA (Error Span Annotation) показало, что RATE выявляет в семь раз больше ошибок. Эксперименты проводились на данных конкурса WMT, а оценивали результаты профессиональные тренеры ИИ. Это говорит о том, что многие недостатки, заметные пользователю, ранее просто не фиксировались существующими методами.
Мировое признание
Исследование представили на международной конференции EMNLP 2025 — одном из ключевых научных событий в области обработки естественного языка. Среди участников конференции были Microsoft Research, Google Research, OpenAI, Anthropic, Amazon, NVIDIA Research, Huawei, Baidu, Intel Labs, Adobe Research и другие центры ИИ-исследований.
Эксперимент также подтвердил: хотя современные модели перевода достигли высокой точности, эталоном плавности и естественности речи остаётся человеческий перевод. При этом большая языковая модель Яндекса уже вплотную приблизилась к этому уровню, превзойдя модели вроде Claude-3.5 и GPT-4 по показателям естественности перевода.
Когда мы работали с другими методами, нам не хватало детализации. MQM слишком сложный, а ESA замечает только грубые ошибки. Эти метрики помогают проверить точность, но не позволяют оценить, насколько перевод получается естественным. А именно это сегодня стало главным критерием для пользователя. RATE даёт более полную картину и подсказывает разработчикам, как улучшать модель.
Екатерина Еникеева, руководитель команды оценки качества перевода
Как Яндекс применяет RATE
Яндекс уже использует новую метрику для анализа и улучшения собственных моделей перевода. RATE помогает адаптировать тон и стиль перевода под разные сценарии — от деловой переписки до неформального общения. Также метод используется для создания новых алгоритмов, которые лучше учитывают особенности живой человеческой речи, а не только формальные требования к тексту.
В перспективе RATE может стать инструментом для развития всей отрасли машинного перевода, поскольку закрывает пробел между точностью передачи смысла и естественностью результата — теми аспектами, которые пользователь замечает чаще всего.
Обновления программ, что нового
• После ОЗУ, SSD и видеокарт: процессоры AMD Ryzen могут резко подорожать в ближайшее время
• Яндекс представил новую метрику RATE для точной оценки качества машинного перевода
• Роскомнадзор подтвердил блокировку FaceTime в России из-за угроз безопасности
• РБК: Роскомнадзор начал блокировать еще три протокола VPN — SOCKS5, VLESS и L2TP
• Обновление Intel ARC Game On Driver 32.0.101.8331 WHQL. Исправления для Battlefield 6
• Apple выпустила релиз-кандидаты iOS 26.2, iPadOS 26.2 и macOS Tahoe 26.2