Корпусная лингвистика: различия между версиями

[отпатрулированная версия][отпатрулированная версия]
Содержимое удалено Содержимое добавлено
м откат правок 85.238.102.245 (обс.) к версии AKA MBG
Метка: откат
Строка 41:
 
=== Использование поисковых машин ===
В качестве корпуса может использоваться множество текстов, доступных в [[интернет]]е (то есть миллиарды словоупотреблений для основных мировых языков). Для лингвистов самым распространенным способом работы с Интернетом остаётся составление запросов к поисковой машине и интерпретация результатов либо по числу найденных страниц, либо по первым возвращенным ссылкам. В английском языке такая методология получила название {{lang-en|Googleology}}<ref>Kilgarriff A. [http://www.kilgarriff.co.uk/Publications/2007-K-CL-Googleology.pdf Googleology is bad science.] ''Computational Linguistics,'', 33(1), 2007.</ref>, для русского более подходящим названием может стать [[Яндексология]]{{нет АИ|19|05|2019}}. Необходимо отметить, что такой подход годится для решения ограниченного класса задач, так как средства разметки текстов, используемые в вебе, не описывают ряд лингвистических особенностей текста (указание [[ударение|ударений]], грамматических классов, границ [[словосочетание|словосочетаний]] и т. д.). Кроме того, дело осложняется малой распространённостью [[семантическая вёрстка|семантической вёрстки]].
 
На практике ограниченность такого подхода приводит к тому, что проверить, например, сочетаемость двух слов проще всего через запрос вида «слово1 слово2». По полученным результатам можно судить, насколько распространено такое сочетание и в каких текстах оно чаще встречается. См. также [[статистика запросов]].