Разрешение лексической многозначности: различия между версиями

[непроверенная версия][отпатрулированная версия]
Содержимое удалено Содержимое добавлено
→‎Другие области: викификация
викификация
Строка 1:
{{Плохой перевод|язык=en|оригинал=Word sense disambiguation}}{{викифицировать}}
{{Лингвистика}}
'''Разрешение лексической многозначности''' ({{lang-en|word sense disambiguation, WSD}}) — это неразрешенная проблема [[обработка естественного языка|обработки естественного языка]], которая заключается в задаче выбора значения (или смысла) [[полисемия|многозначного слова]] или [[Словосочетание|словосочетания]] в зависимости от [[контекст]]а, в котором оно находится. Данная задача возникает в [[дискурсивный анализ|дискурсивном анализе]], при оптимизации [[релевантность|релевантности]] результатов поисковыми системами, при разрешении [[анафора (лингвистика)|анафорических отсылок]], в исследовании лингвистической [[когерентностьКогерентность (лингвистика)|когерентности]] текста, при анализе [[умозаключение|умозаключений]].
 
Научные исследования по разрешению лексической многозначности находятся в поле зрения [[прикладная лингвистика|прикладной]] и [[компьютерная лингвистика|компьютерной лингвистики]] достаточно давно и имеют многолетнюю историю. С течением лет количество предложенных решений и их эффективность неуклонно росли до тех пор, пока эффективность не достигла определённого уровня сравнительно-эффективных показателей точности для определённого спектра слов и типов [[Многозначность|многозначностей]]. Полного решения задача пока не получила, поскольку на пути успешного решения стоит много проблем, напрямую связанных с языковыми особенностями человеческой речи.
Строка 27:
В 70-х, проблема WSD стала частью систем семантической интерпретации, разрабатываемых в рамках области [[ИИ]], однако они по большей части состояли из вручную выведенных правил, и поэтому полностью зависели от количества имеющихся знаний, добывать которые в то время было чрезвычайно трудоёмко.
 
К 80-м годам такие объёмные ресурсы, как [[:en:Oxford Advanced Learner’s Dictionary of Current English|Oxford Advanced Learner’s Dictionary of Current English]], стали доступны и ручное выписывание правил было вытеснено автоматическим [[АвтоматическоеИзвлечение извлечение данныхзнаний|автоматическим извлечением знаний]] из подобных источников, однако методы всё ещё не вышли из класса так называемых «методов, основанных на знаниях».
 
Однако, в 90-х, «статистическая революция» полностью изменила подходы и методы в компьютерной лингвистике, и задача разрешения лексической многозначности стала проблемой, к которой применимы всевозможные методы обучения с учителем<ref>Mark Johnson, How the Statistical Revolution Changes (Computational) Linguistics, (http://www.aclweb.org/anthology/W/W09/W09-0103.pdf)</ref>.
Строка 40:
 
=== Определение части речи ===
Во-вторых, в некоторых языках {{Не[[частеречная переведено 2|проблема определения части речи|проблема определения части речи|en|Part-of-speech tagging}} словаразметка]] может быть очень близко связана с проблемой разрешения многозначностей, в результате чего эти две задачи могут друг другу мешать. Ученые так и не пришли к единому мнению, стоит ли разделять их на две автономные составляющие, однако перевес находится на стороне тех, кто считает, что это необходимо<ref>Lynette Hirschmann, The evolution of evaluation (1998) — Computer Speech and Knowledge</ref>.
 
=== Человеческий фактор и согласованность ручных результатов ===