Автоматическое получение размеченного корпуса: различия между версиями

[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
Нет описания правки
Строка 1:
{{введение}}
Если методы [[обучение без учителя|обучения без учителя]] в [[Word-sense disambiguation|проблеме разрешения многозначности]] полагаются на неаннотированный (неразмеченныйне размеченный) [[корпус]], то [[обучение с учителем]] коренным образом зависят от размеченного корпуса тестов. Проблема получения достаточного количества знаний является одной из самых главных преград в реализации высокоэффективных алгоритмов [[обучение с учителем|обучения]]. Однако, если алгоритм реализуется не такими крупными с точки зрения ресурсов мероприятиями, как Senseval, а более мелкая, то в подобных случаях получение качественно размеченного корпуса не представляется возможным из-за огромных трудозатрат, которые необходимы для осуществления этого процесса вручную. Поэтому перед исследователями, нуждающимися в подобных корпусах, встала задача получения размеченного корпуса автоматически.
 
Выходом является автоматическое нахождение таких контекстов, в которых искомое многозначное слово со 100-процентной вероятностью принимает необходимое нам значение. И такие методы были придуманы; всего существует несколько способов, в корне отличающихся друг от друга.
Строка 17:
* [[Каталог ресурсов в Интернете|каталоги веб-страниц]] (такие как [[Open Directory Project]]);
* выравненные [[Битекст|билингвальные тексты]] (однако, несмотря на быстрый рост подобных материалов, их количество для русского языка ещё недостаточно велико);
* [[Коллаборация|коллаборативная работа]] в стиле [[Википедия|Вики]] (Open Mind Word Expert project): принцип заключается в том, что лёгкие случаи разрешения многозначности решаются машиной, трудные — показываются волонтёрам в интернете; этот метод, к сожалению, не показал достаточно высоких результатов из-за непрофессионализмане профессионализма добровольцев (62.8 % согласия между людьми по сравнению 85,5 % на Senseval).
 
== Итог ==
Строка 42:
* Также с недавних пор проводятся исследования по изучению возможности использования Википедии для разрешения многозначностей, перечисленных на страницах значений многозначных слов<ref>Denis Turdakov, Pavel Velikhov. Semantic Relatedness Metric for Wikipedia Concepts Based on Link Analysis and its Application to Word Sense Disambiguation // SYRCoDIS.— 2008.</ref><ref>Турдаков Денис. Устранение лексической многозначности терминов Википедии на основе скрытой модели Маркова // XI Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции».— 2009. [http://rcdl2009.krc.karelia.ru/doc/full_text/267_275_Section08-1.pdf зав (russian)]</ref>.
 
Однако возможности, открывающиеся и предоставляемые интернетом, ещё не до конца исследованы. К примеру, малоизвестномало известно как использовать лексическую информацию, полученную с помощью knowledge-based систем разрешения многозначности; и также непонятно каким образом получать из интернета [[битекст|параллельные корпусы]], хотя и эффективные алгоритмы для обработки таких корпусов уже существуют. Следовательно, следует ждать в этой области ещё многих интересных результатов в ближайшем будущем.
 
== Примечания ==