Корпусная лингвистика: различия между версиями
[непроверенная версия] | [непроверенная версия] |
Содержимое удалено Содержимое добавлено
Gromolyak (обсуждение | вклад) |
Gromolyak (обсуждение | вклад) мНет описания правки |
||
Строка 1:
'''
Лингвистическим корпусом называют совокупность [[текст]]ов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной [[поисковая система|поисковой системой]]{{нет АИ|8|12|2013}}. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, [[жанр]]ом, автором, периодом создания текстов).
Строка 11:
Первым большим компьютерным корпусом считается Брауновский корпус (БК, {{lang-en|Brown Corpus}}, BC), который был создан в [[1960-е]] годы в [[Университет Брауна|Университете Брауна]] и содержал 500 фрагментов текстов по 2 тысячи слов в каждом, которые были опубликованы на английском языке в США в 1961 году. В результате он задал стандарт в 1 млн [[словоупотребление|словоупотреблений]] для создания представительных корпусов на других языках. По модели близкой к БК в 1970-е годы был создан [[частотный словарь]] русского языка [[Засорина, Л.Н.|Засориной]], построенный на основе корпуса текстов объёмом также в 1 миллион слов и включавший примерно в равной пропорции общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных областей и драматургию. По аналогичной модели был построен и русский корпус, созданный в [[1980-е]] годы в [[Университет Уппсалы|Университете Уппсалы]], Швеция.
Размер в один миллион слов достаточен для лексикографического описания только самых [[частотность|частотных]] слов, поскольку слова и грамматические конструкции средней частоты встречаются по несколько раз на миллион слов (со статистической точки зрения язык является большим набором редких событий). Так, каждое из таких обыденных слов, как {{lang-en|polite}} (вежливый) или {{lang-en|sunshine}} (солнечный свет) встречается в БК всего 7 раз, выражение {{lang-en|polite letter}} лишь один раз, а такие устойчивые выражения как {{lang-en|polite conversation, smile, request}} — ни разу.
По этим причинам, а также в связи с ростом компьютерных мощностей, способных работать с большими объёмами текстов, в [[1980-е]] годы в мире было предпринято несколько попыток создать корпусы большего размера. В Великобритании такими проектами были [[Банк Английского]] (Bank of English) в [[Бирмингемский университет|Бирмингемском университете]] и [[Британский национальный корпус]] ([http://www.natcorp.ox.ac.uk/ British National Corpus], BNC). В [[СССР]] таким проектом был [[Машинный фонд русского языка]], создававшийся по инициативе [[Ершов, Андрей Петрович|А. П. Ершова]].
== Современное состояние ==
Наличие большого количества текстов в электронной форме существенно облегчило задачу создания больших представительных корпусов размером в десятки и сотни миллионов слов, но не ликвидировало проблем: сбор тысяч текстов, снятие проблем с авторскими правами, приведение всех текстов в единую форму, балансировка корпуса по темам и жанрам отнимают много времени. Представительные
▲Наличие большого количества текстов в электронной форме существенно облегчило задачу создания больших представительных корпусов размером в десятки и сотни миллионов слов, но не ликвидировало проблем: сбор тысяч текстов, снятие проблем с авторскими правами, приведение всех текстов в единую форму, балансировка корпуса по темам и жанрам отнимают много времени. Представительные корпуса существуют (или разрабатываются) для немецкого, польского, чешского, словенского, финского, новогреческого, армянского, китайского, японского, болгарского и других языков.
[[Национальный корпус русского языка]], создаваемый при [[РАН]], содержит на сегодняшний день более 500 млн словоупотреблений<ref>[http://www.ruscorpora.ru/corpora-stat.html Статистика национального корпуса русского языка]</ref>.
Строка 50 ⟶ 49 :
=== Проект Татоэба ===
В 2006 году появился сайт [[Татоэба]] (Tatoeba), позволяющий на свободной основе добавлять новые и изменять существующие предложения на различных языках, связанные между собой по смыслу. В его основу лёг лишь англо-японский корпус, а уже сейчас число языков превышает 80, а число предложений — 600000<ref>[http://tatoeba.org/rus/stats/sentences_by_language Список предложений по языкам]</ref>. Любой желающий может добавлять новые предложения и их переводы, а при необходимости — бесплатно скачать целиком или частично все языковые
=== Открытый корпус русского языка ===
|