Автоматическое получение размеченного корпуса: различия между версиями
[непроверенная версия] | [непроверенная версия] |
Содержимое удалено Содержимое добавлено
Нет описания правки |
|||
Строка 1:
{{введение}}
Если методы [[обучение без учителя|обучения без учителя]] в [[Word-sense disambiguation|проблеме разрешения многозначности]] полагаются на неаннотированный (
Выходом является автоматическое нахождение таких контекстов, в которых искомое многозначное слово со 100-процентной вероятностью принимает необходимое нам значение. И такие методы были придуманы; всего существует несколько способов, в корне отличающихся друг от друга.
Строка 17:
* [[Каталог ресурсов в Интернете|каталоги веб-страниц]] (такие как [[Open Directory Project]]);
* выравненные [[Битекст|билингвальные тексты]] (однако, несмотря на быстрый рост подобных материалов, их количество для русского языка ещё недостаточно велико);
* [[Коллаборация|коллаборативная работа]] в стиле [[Википедия|Вики]] (Open Mind Word Expert project): принцип заключается в том, что лёгкие случаи разрешения многозначности решаются машиной, трудные — показываются волонтёрам в интернете; этот метод, к сожалению, не показал достаточно высоких результатов из-за
== Итог ==
Строка 42:
* Также с недавних пор проводятся исследования по изучению возможности использования Википедии для разрешения многозначностей, перечисленных на страницах значений многозначных слов<ref>Denis Turdakov, Pavel Velikhov. Semantic Relatedness Metric for Wikipedia Concepts Based on Link Analysis and its Application to Word Sense Disambiguation // SYRCoDIS.— 2008.</ref><ref>Турдаков Денис. Устранение лексической многозначности терминов Википедии на основе скрытой модели Маркова // XI Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции».— 2009. [http://rcdl2009.krc.karelia.ru/doc/full_text/267_275_Section08-1.pdf зав (russian)]</ref>.
Однако возможности, открывающиеся и предоставляемые интернетом, ещё не до конца исследованы. К примеру,
== Примечания ==
|