Корпусная лингвистика: различия между версиями

[непроверенная версия][отпатрулированная версия]
Содержимое удалено Содержимое добавлено
Addbot (обсуждение | вклад)
м Интервики (всего 19) перенесены на Викиданные, d:q865083
мНет описания правки
Строка 1:
'''Ко́рпусная лингви́стика'''  — раздел [[лингвистика|языкознания]], занимающийся разработкой, созданием и использованием текстовых (лингвистических) корпусов. Термин введён в употребление в [[1960-е|60-х]] годах [[XX век]]а в связи с развитием практики создания корпусов, которому начиная с [[1980-е|80-х]] способствовало развитие вычислительной техники.
 
Лингвистическим корпусом называют совокупность [[текст]]ов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной [[поисковая система|поисковой системой]]. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, [[жанр]]ом, автором, периодом создания текстов).
Строка 10:
== История ==
 
Первым большим компьютерным корпусом считается Брауновский корпус (БК, {{lang-en|Brown Corpus}}, BC), который был создан в [[1960-е]] годы в [[Университет Брауна|Университете Брауна]] и содержал 500 фрагментов текстов по 2 тысячи слов в каждом, которые были опубликованы на английском языке в США в 1961 году. В результате он задал стандарт в 1 млн [[словоупотребление|словоупотреблений]] для создания представительных корпусов на других языках. По модели близкой к БК в 1970-е годы был создан [[частотный словарь]] русского языка [[Засорина, Л.Н.|Засориной]], построенный на основе корпуса текстов объемомобъёмом также в 1 миллион слов и включавший примерно в равной пропорции общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных областей и драматургию. По аналогичной модели был построен и русский корпус, созданный в [[1980-е]] годы в [[Университет Уппсалы|Университете Уппсалы]], Швеция.
 
Размер в один миллион слов достаточен для лексикографического описания только самых [[частотность|частотных]] слов, поскольку слова и грамматические конструкции средней частоты встречаются по несколько раз на миллион слов (со статистической точки зрения язык является большим набором редких событий). Так, каждое из таких обыденных слов, как {{lang-en|polite}} (вежливый) или {{lang-en|sunshine}} (солнечный свет) встречается в БК всего 7 раз, выражение {{lang-en|polite letter}} лишь один раз, а такие устойчивые выражения как {{lang-en|polite conversation, smile, request}} ни разу.
 
По этим причинам, а также в связи с ростом компьютерных мощностей, способных работать с большими объемамиобъёмами текстов, в [[1980-е]] годы в мире было предпринято несколько попыток создать корпуса большего размера. В Великобритании такими проектами были [[Банк Английского]] (Bank of English) в [[Бирмингемский университет|Бирмингемском Университете]] и [[Британский Национальный Корпус]] ([http://www.natcorp.ox.ac.uk/ British National Corpus], BNC). В [[СССР]] таким проектом был [[Машинный Фондфонд русского языка]], создававшийся по инициативе [[Ершов, Андрей Петрович|А.  П.  Ершова]].
 
== Современное состояние ==
Строка 20:
Наличие большого количества текстов в электронной форме существенно облегчило задачу создания больших представительных корпусов размером в десятки и сотни миллионов слов, но не ликвидировало проблем: сбор тысяч текстов, снятие проблем с авторскими правами, приведение всех текстов в единую форму, балансировка корпуса по темам и жанрам отнимают много времени. Представительные корпуса существуют (или разрабатываются) для немецкого, польского, чешского, словенского, финского, новогреческого, армянского, китайского, японского, болгарского и других языков.
 
[[Национальный корпус русского языка]], создаваемый при [[РАН]], содержит на сегодняшний день более 300  млн словоупотреблений.<ref>[http://www.ruscorpora.ru/corpora-stat.html Статистика национального корпуса русского языка]</ref>
 
Наряду с представительными корпусами, которые охватывают большой набор жанров и функциональных стилей, в лингвистических исследованиях часто используются и оппортунистические коллекции текстов, например, газеты (часто [[Wall Street Journal]] и [[New York Times]]), новостные ленты ([[Рейтер]]), коллекции художественной литературы ([[Библиотека Мошкова]] или [[Проект Гутенберг]]).
Строка 27:
 
=== Проблема представительности ===
Корпус состоит из конечного числа текстов, но он призван адекватно отражать лексикограмматические феномены, типичные для всего объемаобъёма текстов в соответствующем языке (или [[подъязык]]е). Для представительности важен как размер, так и структура корпуса. Представительный размер зависит от задачи, поскольку он определяется тем, как много примеров может быть найдено для исследуемых феноменов. В связи с тем, что со статистической точки зрения язык содержит большое число относительно редких слов ([[Закон Ципфа]]), для исследования первых пяти тысяч [[Частотный словарь|наиболее частотных слов]] (например, ''убыток, извиняться'') требуется корпус размером около 10-20 миллионов словоупотреблений, в то время как для описания первых двадцати тысяч слов (''незатейливый, сердцебиение, роиться'') уже требуется корпус свыше ста миллионов словоупотреблений.
 
=== Проблема разметки ===
Строка 41:
 
=== Использование поисковых машин ===
В качестве корпуса может использоваться множество текстов, доступных в [[интернет]]е (то есть миллиарды словоупотреблений для основных мировых языков). Для лингвистов самым распространенным способом работы с Интернетом остаётся составление запросов к поисковой машине и интерпретация результатов либо по числу найденных страниц, либо по первым возвращенным ссылкам. В английском языке такая методология получила название {{lang-en|Googleology}} <ref>Kilgarriff A. [http://www.kilgarriff.co.uk/Publications/2007-K-CL-Googleology.pdf Googleology is bad science.] ''Computational Linguistics,'', 33(1), 2007.</ref>, для русского более подходящим названием может стать [[Яндексология]]. Необходимо отметить, что такой подход годится для решения ограниченного класса задач, так как средства разметки текстов, используемые в вебе, не описывают ряд лингвистических особенностей текста (указание [[ударение|ударений]], грамматических классов, границ [[словосочетание|словосочетаний]] и  т.  д.). Кроме того дело осложняется малой распространённостью [[семантическая вёрстка|семантической вёрстки]].
 
На практике ограниченность такого подхода приводит к тому, что проверить, например, сочетаемость двух слов проще всего через запрос вида «слово1 слово2». По полученным результатам можно судить, насколько распространено такое сочетание и в каких текстах оно чаще встречается. См. также [[статистика запросов]].
Строка 48:
Второй способ заключается в автоматическом извлечении большого количества страниц из Интернета и их дальнейшем использовании в качестве обычного корпуса, что дает возможность провести его разметку и использовать лингвистические параметры в запросах. Этот способ позволяет быстро создать представительный корпус для любого языка в достаточной степени представленного в Интернете, но его жанровое и тематическое разнообразие будет отражать интересы пользователей Интернета.<ref>Baroni M. and Bernardini S. (editors). [http://wackybook.sslmit.unibo.it WaCky! Working papers on the Web as Corpus.] Gedit, Bologna, 2006.</ref>
 
Всё большую популярность в научной среде получает использование Википедии  — как корпуса текстов.<ref>См. работы: [[:en:Wikipedia:Wikipedia in academic studies|Wikipedia in academic studies]]</ref>
 
=== Проект Татоэба ===
В 2006 году появился сайт [[Татоэба]] (Tatoeba), позволяющий на свободной основе добавлять новые и изменять существующие предложения на различных языках, связанные между собой по смыслу. В его основу лёг лишь англо-японский корпус, а уже сейчас число языков превышает 80, а число предложений  — 600000<ref>[http://tatoeba.org/rus/stats/sentences_by_language Список предложений по языкам]</ref>. Любой желающий может добавлять новые предложения и их переводы, а при необходимости  — бесплатно скачать целиком или частично все языковые корпуса.
 
=== Открытый корпус русского языка ===
[[Файл:operncorpora_interface.png|thumb|Интерфейс системы разметки Открытого корпуса русского языка]]
Интерес представляет проект [http://opencorpora.org открытого корпуса русского языка], который не только использует опубликованные под свободными лицензиями тексты, но и позволяет любому желающему принять участие в лингвистической разметке корпуса. Такая форма [[краудсорсинг]]а стала возможной благодаря разбиению задачи разметки на небольшие задания, с большинством из которых может справиться человек без специальной лингвистической подготовки.<ref name="opencorpora">{{статья|автор=Бочаров В.В., Грановский Д.В.|заглавие=Программное обеспечение для коллективной работы над морфологической разметкой корпуса|ссылка=http://opencorpora.org/doc/articles/2011_CorpusLing.pdf|язык=ru|издание=Труды международной конференции «Корпусная лингвистика – 2011»|место=Санкт-Петербург|издательство=СПб.: С.-Петербургский гос. университет, Филологический факультет|год=2011}}</ref> Корпус постоянно пополняется, все тексты и программное обеспечение, связанные с ним доступны под лицензиями [[GNU GPL|GNU GPL v2]] и [[CC-BY-SA]].
 
== См. также ==