Корпусная лингвистика: различия между версиями
[непроверенная версия] | [непроверенная версия] |
Содержимое удалено Содержимое добавлено
Trolzen (обсуждение | вклад) отмена правки 50537949 участника 178.65.17.146 (обс) |
|||
Строка 20:
Наличие большого количества текстов в электронной форме существенно облегчило задачу создания больших представительных корпусов размером в десятки и сотни миллионов слов, но не ликвидировало проблем: сбор тысяч текстов, снятие проблем с авторскими правами, приведение всех текстов в единую форму, балансировка корпуса по темам и жанрам отнимают много времени. Представительные корпуса существуют (или разрабатываются) для немецкого, польского, чешского, словенского, финского, новогреческого, армянского, китайского, японского, болгарского и других языков.
[[Национальный корпус русского языка]], создаваемый при [[РАН]], содержит на сегодняшний день более 300 млн словоупотреблений.
Наряду с представительными корпусами, которые охватывают большой набор жанров и функциональных стилей, в лингвистических исследованиях часто используются и оппортунистические коллекции текстов, например, газеты (часто [[Wall Street Journal]] и [[New York Times]]), новостные ленты ([[Рейтер]]), коллекции художественной литературы ([[Библиотека Мошкова]] или [[Проект Гутенберг]]).
|