Корпусная лингвистика: различия между версиями

[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
мНет описания правки
Строка 1:
'''Ко́рпусна́яКо́рпусная<ref>Встречаются ударения как на первом, так и на предпоследнем слоге. «...прилагательное"Прилагательное должно произноситься с ударением на первом слоге  — «кóрпусный» (Большой толковый словарь русского язы-каязыка, СПб., 1998). В то же время анализ узуса специалистов пока свидетельствует в пользу форм «корпусá», «корпуснóй», «корпуснáя», которые используются часто, так что можно, видимо, с осторожностью сказать, что в настоящее время этот вопрос остается открытым». Захаров В.П., Богданова С.Ю. [https://www.academia.edu/7912159/КОРПУСНАЯ_ЛИНГВИСТИКА_CORPUS_LINGUISTICS Корпусная лингвистика]. СПб, 2013</ref> лингви́стика''' — раздел [[лингвистика|языкознания]], занимающийся разработкой, созданием и использованием [[Корпус текстов|текстовых корпусов]]. Термин введён в употребление в [[1960-е]] годы в связи с развитием практики создания корпусов, которому начиная с [[1980-е|1980-х]] способствовало развитие вычислительной техники.
 
Лингвистическим корпусом называют совокупность [[текст]]ов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной [[поисковая система|поисковой системой]]{{нет АИ|8|12|2013}}. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, [[жанр]]ом, автором, периодом создания текстов).
Строка 11:
Первым большим компьютерным корпусом считается Брауновский корпус (БК, {{lang-en|Brown Corpus}}, BC), который был создан в [[1960-е]] годы в [[Университет Брауна|Университете Брауна]] и содержал 500 фрагментов текстов по 2 тысячи слов в каждом, которые были опубликованы на английском языке в США в 1961 году. В результате он задал стандарт в 1 млн [[словоупотребление|словоупотреблений]] для создания представительных корпусов на других языках. По модели близкой к БК в 1970-е годы был создан [[частотный словарь]] русского языка [[Засорина, Л.Н.|Засориной]], построенный на основе корпуса текстов объёмом также в 1 миллион слов и включавший примерно в равной пропорции общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных областей и драматургию. По аналогичной модели был построен и русский корпус, созданный в [[1980-е]] годы в [[Университет Уппсалы|Университете Уппсалы]], Швеция.
 
Размер в один миллион слов достаточен для лексикографического описания только самых [[частотность|частотных]] слов, поскольку слова и грамматические конструкции средней частоты встречаются по несколько раз на миллион слов (со статистической точки зрения язык является большим набором редких событий). Так, каждое из таких обыденных слов, как {{lang-en|polite}} (вежливый) или {{lang-en|sunshine}} (солнечный свет) встречается в БК всего 7 раз, выражение {{lang-en|polite letter}} лишь один раз, а такие устойчивые выражения как {{lang-en|polite conversation, smile, request}} — ни разу.
 
По этим причинам, а также в связи с ростом компьютерных мощностей, способных работать с большими объёмами текстов, в [[1980-е]] годы в мире было предпринято несколько попыток создать корпусы большего размера. В Великобритании такими проектами были [[Банк Английского]] (Bank of English) в [[Бирмингемский университет|Бирмингемском университете]] и [[Британский национальный корпус]] ([http://www.natcorp.ox.ac.uk/ British National Corpus], BNC). В [[СССР]] таким проектом был [[Машинный фонд русского языка]], создававшийся по инициативе [[Ершов, Андрей Петрович|А. П. Ершова]].
 
== Современное состояние ==
Наличие большого количества текстов в электронной форме существенно облегчило задачу создания больших представительных корпусов размером в десятки и сотни миллионов слов, но не ликвидировало проблем: сбор тысяч текстов, снятие проблем с авторскими правами, приведение всех текстов в единую форму, балансировка корпуса по темам и жанрам отнимают много времени. Представительные корпусакорпусы существуют (или разрабатываются) для немецкого, польского, чешского, словенского, финского, новогреческого, армянского, китайского, японского, болгарского и других языков.
 
Наличие большого количества текстов в электронной форме существенно облегчило задачу создания больших представительных корпусов размером в десятки и сотни миллионов слов, но не ликвидировало проблем: сбор тысяч текстов, снятие проблем с авторскими правами, приведение всех текстов в единую форму, балансировка корпуса по темам и жанрам отнимают много времени. Представительные корпуса существуют (или разрабатываются) для немецкого, польского, чешского, словенского, финского, новогреческого, армянского, китайского, японского, болгарского и других языков.
 
[[Национальный корпус русского языка]], создаваемый при [[РАН]], содержит на сегодняшний день более 500 млн словоупотреблений<ref>[http://www.ruscorpora.ru/corpora-stat.html Статистика национального корпуса русского языка]</ref>.
Строка 50 ⟶ 49 :
 
=== Проект Татоэба ===
В 2006 году появился сайт [[Татоэба]] (Tatoeba), позволяющий на свободной основе добавлять новые и изменять существующие предложения на различных языках, связанные между собой по смыслу. В его основу лёг лишь англо-японский корпус, а уже сейчас число языков превышает 80, а число предложений — 600000<ref>[http://tatoeba.org/rus/stats/sentences_by_language Список предложений по языкам]</ref>. Любой желающий может добавлять новые предложения и их переводы, а при необходимости — бесплатно скачать целиком или частично все языковые корпусакорпусы.
 
=== Открытый корпус русского языка ===