Корпусная лингвистика: различия между версиями
[непроверенная версия] | [отпатрулированная версия] |
Содержимое удалено Содержимое добавлено
Addbot (обсуждение | вклад) м Интервики (всего 19) перенесены на Викиданные, d:q865083 |
Valdis72 (обсуждение | вклад) мНет описания правки |
||
Строка 1:
'''Ко́рпусная лингви́стика'''
Лингвистическим корпусом называют совокупность [[текст]]ов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной [[поисковая система|поисковой системой]]. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, [[жанр]]ом, автором, периодом создания текстов).
Строка 10:
== История ==
Первым большим компьютерным корпусом считается Брауновский корпус (БК, {{lang-en|Brown Corpus}}, BC), который был создан в [[1960-е]] годы в [[Университет Брауна|Университете Брауна]] и содержал 500 фрагментов текстов по 2 тысячи слов в каждом, которые были опубликованы на английском языке в США в 1961 году. В результате он задал стандарт в 1 млн [[словоупотребление|словоупотреблений]] для создания представительных корпусов на других языках. По модели близкой к БК в 1970-е годы был создан [[частотный словарь]] русского языка [[Засорина, Л.Н.|Засориной]], построенный на основе корпуса текстов
Размер в один миллион слов достаточен для лексикографического описания только самых [[частотность|частотных]] слов, поскольку слова и грамматические конструкции средней частоты встречаются по несколько раз на миллион слов (со статистической точки зрения язык является большим набором редких событий). Так, каждое из таких обыденных слов, как {{lang-en|polite}} (вежливый) или {{lang-en|sunshine}} (солнечный свет) встречается в БК всего 7 раз, выражение {{lang-en|polite letter}} лишь один раз, а такие устойчивые выражения как {{lang-en|polite conversation, smile, request}} ни разу.
По этим причинам, а также в связи с ростом компьютерных мощностей, способных работать с большими
== Современное состояние ==
Строка 20:
Наличие большого количества текстов в электронной форме существенно облегчило задачу создания больших представительных корпусов размером в десятки и сотни миллионов слов, но не ликвидировало проблем: сбор тысяч текстов, снятие проблем с авторскими правами, приведение всех текстов в единую форму, балансировка корпуса по темам и жанрам отнимают много времени. Представительные корпуса существуют (или разрабатываются) для немецкого, польского, чешского, словенского, финского, новогреческого, армянского, китайского, японского, болгарского и других языков.
[[Национальный корпус русского языка]], создаваемый при [[РАН]], содержит на сегодняшний день более 300
Наряду с представительными корпусами, которые охватывают большой набор жанров и функциональных стилей, в лингвистических исследованиях часто используются и оппортунистические коллекции текстов, например, газеты (часто [[Wall Street Journal]] и [[New York Times]]), новостные ленты ([[Рейтер]]), коллекции художественной литературы ([[Библиотека Мошкова]] или [[Проект Гутенберг]]).
Строка 27:
=== Проблема представительности ===
Корпус состоит из конечного числа текстов, но он призван адекватно отражать лексикограмматические феномены, типичные для всего
=== Проблема разметки ===
Строка 41:
=== Использование поисковых машин ===
В качестве корпуса может использоваться множество текстов, доступных в [[интернет]]е (то есть миллиарды словоупотреблений для основных мировых языков). Для лингвистов самым распространенным способом работы с Интернетом остаётся составление запросов к поисковой машине и интерпретация результатов либо по числу найденных страниц, либо по первым возвращенным ссылкам. В английском языке такая методология получила название {{lang-en|Googleology}}
На практике ограниченность такого подхода приводит к тому, что проверить, например, сочетаемость двух слов проще всего через запрос вида «слово1 слово2». По полученным результатам можно судить, насколько распространено такое сочетание и в каких текстах оно чаще встречается. См. также [[статистика запросов]].
Строка 48:
Второй способ заключается в автоматическом извлечении большого количества страниц из Интернета и их дальнейшем использовании в качестве обычного корпуса, что дает возможность провести его разметку и использовать лингвистические параметры в запросах. Этот способ позволяет быстро создать представительный корпус для любого языка в достаточной степени представленного в Интернете, но его жанровое и тематическое разнообразие будет отражать интересы пользователей Интернета.<ref>Baroni M. and Bernardini S. (editors). [http://wackybook.sslmit.unibo.it WaCky! Working papers on the Web as Corpus.] Gedit, Bologna, 2006.</ref>
Всё большую популярность в научной среде получает использование Википедии
=== Проект Татоэба ===
В 2006 году появился сайт [[Татоэба]] (Tatoeba), позволяющий на свободной основе добавлять новые и изменять существующие предложения на различных языках, связанные между собой по смыслу. В его основу лёг лишь англо-японский корпус, а уже сейчас число языков превышает 80, а число предложений
=== Открытый корпус русского языка ===
[[Файл:operncorpora_interface.png|thumb|Интерфейс системы разметки Открытого корпуса русского языка]]
Интерес представляет проект [http://opencorpora.org открытого корпуса русского языка], который не только использует опубликованные под свободными лицензиями тексты, но и позволяет любому желающему принять участие в лингвистической разметке корпуса. Такая форма
== См. также ==
|