Корпусная лингвистика: различия между версиями

[отпатрулированная версия][отпатрулированная версия]
Содержимое удалено Содержимое добавлено
Нет описания правки
Метки: через визуальный редактор с мобильного устройства из мобильной версии через расширенный мобильный режим
Нет описания правки
Метки: через визуальный редактор с мобильного устройства из мобильной версии через расширенный мобильный режим
Строка 20:
Наличие большого количества текстов в электронной форме существенно облегчило задачу создания больших представительных корпусов размером в десятки и сотни миллионов слов, но не ликвидировало проблем: сбор тысяч текстов, снятие проблем с авторскими правами, приведение всех текстов в единую форму, балансировка корпуса по темам и жанрам отнимают много времени. Представительные корпусы существуют (или разрабатываются) для немецкого, польского, чешского, словенского, финского, новогреческого, армянского, китайского, японского, болгарского и других языков.
 
[[Национальный корпус русского языка]], создаваемый при [[Российская академия наук|РАН]], содержит на сегодняшний день более 500 млн словоупотреблений<ref>[{{Cite web|url=http://www.ruscorpora.ru/new/corpora-stat.html |title=Статистика. национальногоНациональный корпусакорпус русского языка]|publisher=www.ruscorpora.ru|accessdate=2019-12-27}}</ref>.
 
Наряду с представительными корпусами, которые охватывают большой набор жанров и функциональных стилей, в лингвистических исследованиях часто используются и оппортунистические коллекции текстов, например, газеты (часто [[The Wall Street Journal]] и [[The New York Times]]), новостные ленты ([[Рейтер]]), коллекции художественной литературы ([[Библиотека Максима Мошкова]] или [[Проект «Гутенберг»]]).
 
== Проблемы ==