Корпусная лингвистика: различия между версиями

[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
отмена правки 50537949 участника 178.65.17.146 (обс)
Строка 20:
Наличие большого количества текстов в электронной форме существенно облегчило задачу создания больших представительных корпусов размером в десятки и сотни миллионов слов, но не ликвидировало проблем: сбор тысяч текстов, снятие проблем с авторскими правами, приведение всех текстов в единую форму, балансировка корпуса по темам и жанрам отнимают много времени. Представительные корпуса существуют (или разрабатываются) для немецкого, польского, чешского, словенского, финского, новогреческого, армянского, китайского, японского, болгарского и других языков.
 
[[Национальный корпус русского языка]], создаваемый при [[РАН]], содержит на сегодняшний день более 300 млн словоупотреблений.{<ref>[http://www.ruscorpora.ru/corpora-stat.html Статистика национального корпуса русского языка]</ref>
 
Наряду с представительными корпусами, которые охватывают большой набор жанров и функциональных стилей, в лингвистических исследованиях часто используются и оппортунистические коллекции текстов, например, газеты (часто [[Wall Street Journal]] и [[New York Times]]), новостные ленты ([[Рейтер]]), коллекции художественной литературы ([[Библиотека Мошкова]] или [[Проект Гутенберг]]).