MateCat

MateCat (англ. CAT, Computer assisted translation, машинный перевод) — онлайн-средство машинного перевода. Сайт является бесплатным для переводческих компаний, переводчиков и корпоративных пользователей. MateCat является открытым кодом и свободным программным обеспечением.

MateCat
URL matecat.com

История создания программы править

Название MateCat является аббревиатурой Machine Translation Enhanced Computer Assisted Translation (Машинный Перевод, Усовершенствоанный Компьютерный Перевод), это 3-летний исследовательский проект (длящийся с 11.2011 по 10.2014) финансируемый 7-й Рамочной Программой Европейской Комиссии (Seventh Framework Programme (FP7)) для проведения исследований, технологических разработок и демонстраций в рамках финансируемого соглашения № 287688.[1] Проект получил грант в размере уже более 2.500.000 евро от Европейских фондов.[2]

Консорциум проекта возглавляет FBK (Fondazione Bruno Kessler), международный исследовательский центр, базирующийся в Тренто, Италия.

CAT Средства править

Целью MateCat является создание инструмента для редактирования машинного перевода. Система способна учиться на ошибках, автоматически улучшаться со временем, а также специализироваться на узко-специализированном языке (например, юридической терминологии), чтобы предоставить пользователю наиболее точные предложения по переводу в полностью автоматизированной и легко понятной манере[3]

CAT Средства предоставляют доступ к архиву переводов, базам данных по терминологии, средствам языкового согласования и, с недавнего времени, к механизмам машинного перевода. В большинстве случаев архив переводов — это хранилище переведённых сегментов. Во время перевода CAT средства запрашивают в архиве переводов точные или примерные совпадения для текущего исходного сегмента. Эти совпадения предлагаются пользователю в качестве вариантов перевода. Как только сегмент переведен, его оригинал и текст перевода добавляются в архив переводов для будущих запросов. Интеграция предложений от механизмов машинного перевода в качестве дополнения к совпадениям в архиве переводов обоснована недавними исследованиями[4][5][6], которые показали, что редактирование вариаантов, предлагаемых системой машинного перевода, существенно повышает качество переведённого текста.

Технологии править

MateCat работает как веб-сервер, доступный через браузер. Веб-сервер CAT соединяется с другими сервисами через общедоступные приложения: архив переводов MyMemory[7], коммерческий сервер машинного перевода Google Translate, и серверы базе Moses[8], указанные в конфигурационном файле. В то время как серверы MyMemory и GT всегда работают и доступны, специализированные серверы Moses должны быть сначала установлены и настроены. Связь с серверами Moses расширяет возможности общедоступного сервиса Google Translate для поддержки самонастраивающихся, адаптированных под пользователя и информативных функций машинного перевода. XLIFF[9] — формат файла, изначально поддерживаемый версией инструмента MateCat с открытым исходным кодом; однако внешние преобразователи файлов также могут быть добавлены в конфигурацию MateCat. Инструмент поддерживает кодировку Unicode (UTF-8), включая не-латинские алфавиты и языки с написанием справа налево, а также обрабатывает тексты с встроенной разметкой.

Поддержка серверов Moses улучшает связь машинного перевода с CAT. В частности, перевод, предлагаемый Google Translate, дополняется информацией об обратной связи, при каждом редактировании текущего сегмент, а также обогащается информацией системы машинного перевода, включая рейтинг достоверности, рекомендуемые сочетания слов и т. д. Разработанный сервер машинного перевода поддерживает многопоточность для одновременного обслуживания нескольких переводчиков, обрабатывает текстовые сегменты, включая встроенную разметку, и адаптируется к редакторским правкам, выполняемым каждым пользователем[10]

Во время редактирования MateCat собирает информацию о времени работы с каждым сегмента, которая обновляется каждый раз, когда сегмент открывается и закрывается. Более того, для каждого сегмента сохраняется информация о всех вариантах перевода, предложенных системой, и о том варианте, который был выбран при окончательном редактировании. Эта информация доступна в любое время по ссылке «Редакция» на странице редактирования (Рис.1). Кроме того, для каждого сегмента, отсортированного от самого медленного до самого быстрого с точки зрения скорости перевода, сообщается подробная статистика о времени операций редактирования, что является источником информации для анализа производительности после завершения проекта.

Примечания править

  1. José, M., & Machado, B. (2014). Free and open-source software — a translator’s good friend, 3. Retrieved from http://ec.europa.eu/translation/portuguese/magazine Архивная копия от 20 января 2022 на Wayback Machine
  2. EUROPEAN COMMISSION. (2017). EUROPEAN COMMISSION STAFF WORKING DOCUMENT INTERIM EVALUATION of HORIZON 2020 ANNEX 2. Brussels. Retrieved from http://ec.europa.eu/transparency/regdoc/rep/10102/2017/EN/SWD-2017-221-F1-EN-MAIN-PART-12.PDF Архивная копия от 2 июля 2018 на Wayback Machine
  3. MateCat. Дата обращения: 11 января 2021. Архивировано 15 декабря 2019 года.
  4. Marcello, Federico, Cattelan, Alessandro, Trombetti, Marco. Measuring user productivity in machine translation enhanced computer assisted translation (англ.) // Proceedings of the Tenth Conference of the Association for Machine Translation in the Americas (AMTA). — 2012. Архивировано 30 октября 2014 года.
  5. Green, Spence, Heer, Jeffrey, Manning, Christopher. The efficacy of human post-editing for language translation (англ.) // Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. — 2013. — P. 439–448. Архивировано 1 марта 2019 года.
  6. Läubli, Samuel, Fishel, Mark, Massey, Gary, Ehrensberger-Dow, Maureen, Volk, Martin. Assessing Post-Editing Efficiency in a Realistic Translation Environment (англ.) // Proceedings of MT Summit XIV Workshop on Post-editing Technology and Practice / Michel Simard Sharon O'Brien and Lucia Specia (eds.). — Nice, France, 2013. — P. 83–91. Архивировано 23 апреля 2018 года.
  7. MyMemory is the world's largest Translation Memory (TM) built collaboratively via MT and human contributions (англ.). Mymemory.translated.net. Дата обращения: 30 октября 2014. Архивировано 9 февраля 2010 года.
  8. Moses is the most popular open source statistical MT toolkit (англ.). Statmt.org. Дата обращения: 30 октября 2014. Архивировано 8 февраля 2010 года.
  9. Docs.oasis-open.org (англ.). Docs.oasis-open.org. Дата обращения: 30 октября 2014. Архивировано 29 октября 2014 года.
  10. Nicola Bertoldi, Mauro Cettolo, and Marcello Federico. 2013. Cache-based Online Adaptation for Machine Translation Enhanced Computer Assisted Translation. In Proceedings of the MT Summit XIV, pages 35-42, Nice, France, September.

Ссылки править