Качество машинного перевода

В настоящее время, несмотря на большие достижения в разработке программ для автоматизации перевода, машинный перевод все ещё не способен выдавать адекватный и эквивалентный результат, поэтому возникает вопрос об оценке текстов, переведенных с помощью автоматизированного компьютерного перевода ^[1].

Оценка качества перевода править

На сегодняшний день существуют различные системы машинного перевода, некоторые из них выполняют перевод на довольно высоком уровне. Но для того, чтобы выявить, какие именно системы подходят для работы с теми или иными языками или типами текстов, необходимо осуществлять тестирование этих систем и анализировать качество перевода на основе больших фрагментов текстов.

Японский ученый Макато Нагао, специалист по компьютерным наукам, предложил шкалу оценки машинного перевода на основе лингвостилистического анализа, от пяти до одного балла ^[2].

1 балл — смысл предложения понятен и не возникает никаких вопросов, грамматика, словоупотребление и стиль соответствуют общей структуре текста и не требуют постредактирования
2 балла — смысл предложения понятен, но возникают большие проблемы с грамматикой, словоупотреблением и стилем.
3 балла — общий смысл предложения понятен, но смысл некоторых его частей вызывает сомнение из-за неправильного грамматического строя.
4 балла — присутствуют ошибки словоупотребления и стилистики, требуется обращение к оригиналу.
5 баллов — в предложении имеется большое количество грамматических, слово-употребительных и стилистических ошибок, смысл предложения с трудом можно понять после внимательного изучения.

Для автоматической оценки работы машинных переводчиков зачастую используются показатель Word Error Rate или WER, метрики BLEU и NIST. Эти инструменты позволяют успешно сравнивать работу разных систем МП и оценивать улучшения в работе конкретной системы ^[3].

BLEU править

Метрика BLEU (Bilingual Evaluation Understudy) на данный момент самая популярная в современной оценке МП. Позволяет учитывать не только точность перевода отдельных слов, но и цепочек слов (N-граммы) [МП: обзор методов].

Метрика BLEU была разработана сотрудниками компании IBM и является одной из самых простых в использовании метрик оценки машинного перевода. Алгоритм BLEU оценивает качество перевода по шкале от 0 до 100 на основании сравнения машинного перевода с человеческим и поиска общих слов и фраз. Основная идея разработчиков метрики состоит в том, что чем лучше машинный перевод, тем больше он должен быть похож на человеческий ^[4].

Лучше всего такая метрика работает не на уровне предложений, а на уровне большого текста. На маленьком объёме текста метрика зачастую обнуляется из-за отсутствия совпадающих 4-грамм и работает некорректно. Существуют также доработанные варианты метрики, которые подходят для сравнения на уровне предложения.

NIST править

Метрика NIST была разработана на основе BLEU, но имеет одно фундаментальное отличие. Если для получения высокой оценки BLEU важнее правильный порядок слов, то NIST выше оценивает правильный выбор лексики ^[5].

WER править

Word Error Rate, или взвешенное расстояние Левенштейна, позволяет измерять расстояние между машинным и образцовым переводом так же, как мы измеряем расстояние между словарным словом и словом с опечаткой (считая символами не буквы, а целые слова) [МП: обзор методов]. По сути WER измеряет минимальное количество изменений, которые необходимо сделать, чтобы из результата работы МП получить эталонный перевод ^[6]. При этом WER может учитывать различные варианты эталонного перевода с разным порядком слов ^[5].

Примечания править

↑ Архивированная копия (неопр.). Дата обращения: 8 января 2021. Архивировано 11 января 2021 года.
↑ Maschinelle Übersetzung^[de]
↑ [Vilar, 2006]
↑ [Молчанов, 2013]
↑ ¹ ² [Zhang, 2004]
↑ [Koehn, 2010]

Ссылки править

[1] Архивная копия от 11 января 2021 на Wayback Machine
[2] Архивная копия от 2 апреля 2022 на Wayback Machine
[Vilar D., Jia Xu, D’Haro L., Ney H. Error Analysis of Machine Translation Output. In International Conference on Language Resources and Evaluation, pages 697—702, Genoa, Italy, 2006.]
[Машинный перевод: обзор методов и оценка качества. URL: http://lpcs.math.msu.su/~pentus/mfk2015/Lecture07_20151021.pdf Архивная копия от 9 января 2021 на Wayback Machine]
[Молчанов А. Статистические и гибридные методы перевода в технологиях компании ПРОМТ. М., 2013.]
[Koehn, P. Statistical Machine Translation. Cambridge, UK, 2010.]
[Zhang Y., Vogel S., Waibel A. Interpreting BLEU/NIST Scores: How Much Improvement do We Need to Have a Better System? // Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC-2004), Lisbon, Portugal, 2004.]

[1] Архивированная копия (неопр.). Дата обращения: 8 января 2021. Архивировано 11 января 2021 года.

[2] Maschinelle Übersetzung^[de]

[3] [Vilar, 2006]

[4] [Молчанов, 2013]

[автоссылка1-5] ¹ ² [Zhang, 2004]

[6] [Koehn, 2010]

[1]

[2]

[3]

[4]

[5]

[6]