Исследователи Яндекса представили новый метод оценки и улучшения машинного перевода
Исследователи Яндекса представили новый подход к оценке качества машинного перевода, который помогает выявлять ошибки не только в передаче смысла, но и в стиле, тоне и естественности языка. Такой метод особенно важен для современных моделей, которые уже достаточно точны, но иногда выбирают слишком официальный или, наоборот, чрезмерно разговорный вариант. Например, фраза sorry, my bad может быть переведена как «приношу извинения, это моя вина» вместо более естественного «извини, я ошиблась».
Новый метод получил название RATE (Refined Assessment for Translation Evaluation — улучшенная оценка качества перевода). Он не служит прямой метрикой для дообучения моделей, но позволяет разработчикам точнее понимать, какие типы ошибок встречаются в переводах и как улучшить естественность результата.
Что такое RATE и чем он отличается от существующих методов
RATE оценивает качество перевода сразу по трём критериям, которые действительно важны для пользователя:
- точность передачи смысла;
- естественность звучания;
- соответствие стилю исходного текста.
Этот подход делает метрику универсальной — она подходит для оценки новостей, постов в соцсетях, художественных текстов и деловой переписки. RATE фиксирует не только наличие ошибки, но и её значимость — от несущественных стилистических шероховатостей до серьёзных искажений содержания.
Сравнение с популярными международными метриками MQM (Multidimensional Quality Metrics) и ESA (Error Span Annotation) показало, что RATE выявляет в семь раз больше ошибок. Эксперименты проводились на данных конкурса WMT, а оценивали результаты профессиональные тренеры ИИ. Это говорит о том, что многие недостатки, заметные пользователю, ранее просто не фиксировались существующими методами.
Мировое признание
Исследование представили на международной конференции EMNLP 2025 — одном из ключевых научных событий в области обработки естественного языка. Среди участников конференции были Microsoft Research, Google Research, OpenAI, Anthropic, Amazon, NVIDIA Research, Huawei, Baidu, Intel Labs, Adobe Research и другие центры ИИ-исследований.
Эксперимент также подтвердил: хотя современные модели перевода достигли высокой точности, эталоном плавности и естественности речи остаётся человеческий перевод. При этом большая языковая модель Яндекса уже вплотную приблизилась к этому уровню, превзойдя модели вроде Claude-3.5 и GPT-4 по показателям естественности перевода.
Когда мы работали с другими методами, нам не хватало детализации. MQM слишком сложный, а ESA замечает только грубые ошибки. Эти метрики помогают проверить точность, но не позволяют оценить, насколько перевод получается естественным. А именно это сегодня стало главным критерием для пользователя. RATE даёт более полную картину и подсказывает разработчикам, как улучшать модель.
Екатерина Еникеева, руководитель команды оценки качества перевода
Как Яндекс применяет RATE
Яндекс уже использует новую метрику для анализа и улучшения собственных моделей перевода. RATE помогает адаптировать тон и стиль перевода под разные сценарии — от деловой переписки до неформального общения. Также метод используется для создания новых алгоритмов, которые лучше учитывают особенности живой человеческой речи, а не только формальные требования к тексту.
В перспективе RATE может стать инструментом для развития всей отрасли машинного перевода, поскольку закрывает пробел между точностью передачи смысла и естественностью результата — теми аспектами, которые пользователь замечает чаще всего.
Обновления программ, что нового
• Обзор обновлений Samsung 12-18 января: патч для S25 Ultra и расширение тестов One UI 8.5 на бюджетные модели
• OpenAI раскрыла детали рекламы в ChatGPT: как будут выглядеть спонсируемые ответы и ограничения на показ объявлений
• OnePlus 13 получил январский патч безопасности и функцию прямой подачи питания в обход батареи
• В Chrome Beta тестируются вертикальные вкладки. Как включить
• AMD выпустит драйвер Adrenalin Edition 26.1.1 с «AI Bundle» уже на следующей неделе
• Oppo Find X9 Pro занял 5-е место в рейтинге камер DxOMark, опередив Honor Magic 8 Pro