Автоматическое получение размеченного корпуса: различия между версиями

[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
викификация с помощью AWB
орфография
Строка 22:
Автоматическое получение примеров для тренировки классификатора (обучение с учителем), как оказалось, является наилучшим подходом майнинга интернета для [[WSD|разрешения лексической многозначности]]. Стоит привести некоторые обнадёживающие результаты:
* В некоторых экспериментах, качества данных из интернета практически сравнялось с качеством корпуса, сделанным человеком: сочетание получения с помощью однозначных синонимов и бутстреппинга из SemCor’овских примеров<ref>Mihalcea, Rada. 2002. Bootstrapping large sense tagged corpora. Proceedings of the Language Resources and Evaluation Conference (LREC), Las Palmas, Spain.</ref> и примеры, полученные из [[Open Directory Project|ODP]]<ref name=autogenerated1>Santamaría, Celina, Julio Gonzalo & Felisa Verdejo. 2003. Automatic association of Web directories to word senses. Computational Linguistics, 29(3): 485—502.</ref>. В первом, однако, примеры из SemCor’a необходимы и существуют только для английского языка, и тестирование проводилось со слишком небольшим количеством существительных, а во втором покрытие эксперимента слишком мало и неизвестно, насколько сильно ухудшается качество полученного корпуса при его увеличении.
* Также, было показано<ref>Agirre, Eneko & David Martínez. 2004. Unsupervised WSD based on automati- cally retrieved examples: The importance of bias. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Barcelona, Spain, 25-33.</ref>, что почти любая техника обучения с учителем, тренированная на автоматически полученных из интернета корпусах, превосходит все техники обучения без учителя, участвовашиеучаствовавшие в Senseval-2.
* Примеры из интернета принесли огромную пользу в плане эффективности лучшим английским all-words алгоритмам на Senseval-2<ref>Mihalcea, Rada. 2002a. Word sense disambiguation with pattern learning and automatic feature selection. Natural Language Engineering, 8(4): 348—358.</ref>.