Автоматическое получение размеченного корпуса: различия между версиями

[отпатрулированная версия][отпатрулированная версия]
Содержимое удалено Содержимое добавлено
→‎Итог: обширные дополнения, перевод с англ-вики
Строка 28:
===Проблемы===
===Будущее области===
Кроме вышеперечисленных техник получения корпуса из веба, также были проведены некоторые другие эксперименты, использующие интернет:
* Интернет как социальная сеть несколько раз был успешно использован для коллаборативной аннотации анонимными пользователями (проект OMWE, Open Mind Word Expert project)<ref>Chklovski, Tim & Rada Mihalcea. 2002. Building a sense tagged corpus with Open Mind Word Expert. Proceedings of the ACL SIGLEX Workshop on Word Sense Disambiguation: Recent Successes and Future Directions, Phila- delphia, U.S.A., 116–122.</ref>: он был применён уже три раза для задач Senseval-3 (для английского, румынского языков и мультиязыковой задачи).
* Интернет также использовался для обогащения значений [[WordNet]]'a знаниями о теме корпуса(domain-specific information): так называемые topic signatures<ref>Agirre, Eneko, Olatz Ansa, Eduard H. Hovy & David Martínez. 2000. Enriching very large ontologies using the WWW. Proceedings of the Ontology Learning Workshop, European Conference on Artificial Intelligence (ECAI), Berlin, Germany.</ref> and Web directories<ref>Santamaría, Celina, Julio Gonzalo & Felisa Verdejo. 2003. Automatic association of Web directories to word senses. Computational Linguistics, 29(3): 485–502.</ref>, которые успешно применялись для [[WSD|разрешения многозначности]].
* Также, с недавних пор проводятся исследования по изучению возможности использования Википедии для разрешения многозначностей, перечисленных на страницах значений многозначных слов<ref>Denis Turdakov, Pavel Velikhov. Semantic Relatedness Metric for Wikipedia Concepts Based on Link Analysis and its Application to Word Sense Disambiguation // SYRCoDIS.— 2008.</ref><ref>Турдаков Денис. Устранение лексической многозначности терминов Википедии на основе скрытой модели Маркова // XI Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции».— 2009. [http://rcdl2009.krc.karelia.ru/doc/full_text/267_275_Section08-1.pdf зав (russian)]</ref>.
 
Однако, возможности, открывающиеся и предоставляемые интернетом ещё не до конца исследованы. К примеру, малоизвестно как использовать лексическую информацию, полученную с помощью knowledge-based систем разрешения многозначности; и также непонятно каким образом получать из интернета [[битекст|параллельные корпусы]], хотя и эффективные алгоритмы для обработки таких корпусов уже существую. Следовательно, следует ждать в этой области ещё многих интересных результатов в ближайшем будущем.
 
==Примечания==