Корпус текстов

Внешние видеофайлы
<img alt="" src="//upload.wikimedia.org/wikipedia/commons/1/1a/Silk-film.png" decoding="async" width="16" height="16" class="mw-file-element" data-file-width="16" data-file-height="16"> Внешние видеофайлы
<img alt="" src="//upload.wikimedia.org/wikipedia/commons/1/1a/Silk-film.png" decoding="async" width="16" height="16" class="mw-file-element" data-file-width="16" data-file-height="16">	Орехов Б. В. «Интернет-коллекции текстов на малых языках России: методика сбора, очистки и анализа» // Семинар «Компьютерная лингвистика», 2016

В лингвистике кóрпус (множественное число — кóрпусы^[1]) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке. Корпус текстов является предметом исследования корпусной лингвистики.

Основные свойства корпуса править

Среди множества определений корпуса можно выделить его главные свойства:

электронный — в современном понимании корпус должен быть в электронном виде
репрезентативный — должен хорошо «представлять» объект, который моделирует
размеченный — главное отличие корпуса от коллекции текстов
прагматически ориентированный — должен быть создан под определённую задачу

Классификация корпусов править

Одна из возможных классификаций корпусов^[2].

Классифицировать корпусы можно по различным признакам: цель создания корпуса, тип языковых данных, «литературность», жанр, динамичность, тип разметки, объём текстов и так далее. По критерию параллельности, например, корпусы можно разделить на одноязычные, двуязычные и многоязычные. Многоязычные и двуязычные делятся на два типа:

параллельные — множество текстов и их переводов на один или несколько языков.
сопоставимые (псевдопараллельные) — оригинальные тексты на двух или нескольких языках.

Разметка корпусов править

Разметка заключается в приписывании текстам и их компонентам специальных тегов: лингвистических и внешних (экстралингвистических). Выделяют следующие лингвистические типы разметки: морфологическая, семантическая, синтаксическая, анафорическая, просодическая, дискурсная и т. д. К некоторым корпусам применяются дальнейшие структурные уровни анализа. В частности, некоторые небольшие корпусы могут быть полностью синтаксически размечены. Такие корпусы обычно называют глубоко аннотированными или синтаксическими, а сама синтаксическая структура при этом является деревом зависимостей.

Ручная разметка (аннотирование) текстов — дорогостоящая и трудоемкая задача. На данный момент в открытом доступе представлены различные программные средства для разметки корпусов^[3]. Условно их можно разделить на обособленные (stand-alone) и веб-ориентированные (web-based). При этом акцент разработчиков в последние годы сместился в сторону веб-приложений. Данные системы обладают рядом преимуществ:

возможность одновременной разметки одного документа несколькими людьми
не требуют установки дополнительных программных средств, кроме браузера
гибкое разграничение прав доступа
отображение текущего прогресса процесса разметки
возможность модификации размечаемого корпуса

Интернет как корпус править

Современные технологии позволяют создавать «веб-корпусы», то есть корпусы, полученные путём обработки интернет-источников:

Веб-корпус представляет собой особый вид лингвистического корпуса, который создан путем постепенной загрузки текстов из интернета при помощи автоматизированных процедур, которые на лету определяют язык и кодировку отдельных веб страниц, удаляют шаблоны, элементы навигации, ссылки и рекламу (т. н. boilerplate), осуществляют трансформацию на текст, фильтрацию, нормализацию и дедупликацию полученных документов, которые затем можно обработать традиционными инструментами корпусной лингвистики (токенизация, мирфосинтаксическая и синтаксическая аннотация) и внедрить в поисковую корпусную систему. Создание веб-корпуса не только намного дешевле, но прежде всего его размер может быть даже на порядок больше традиционных корпусов^[4].
— Владимѝр Бенко ARANEA — СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ

Применение править

Корпус — основное понятие и база данных корпусной лингвистики. Анализ и обработка разных типов корпусов являются предметом большинства работ в области компьютерной лингвистики (например, извлечение ключевых слов), распознавания речи и машинного перевода, в которых корпусы часто применяются при создании скрытых марковских моделей для маркирования частей речи и других задач. Корпусы и частотные словари могут быть полезны в обучении иностранным языкам.

Корпусы текстов русского языка править

См. также править

Примечания править

↑ ГРАМОТА.РУ – справочно-информационный интернет-портал «Русский язык» | Словари | Проверка слова (неопр.). gramota.ru. Дата обращения: 26 декабря 2019. Архивировано 17 сентября 2019 года.
↑ Диаграмма создана по материалам книги "Захаров В. П., Богданова С. Ю. Корпусная лингвистика: учебник. 3-е изд., перераб. —СПб.: Изд-во С.-Петерб. ун-та, 2020. — 234 с."
↑ Ванюшкин, Гращенко, 2017.
↑ ARANEA : СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ — Сообщество "Письменное наследие" (неопр.). textualheritage.org. Дата обращения: 26 декабря 2019. Архивировано 9 августа 2020 года.
↑ Глазкова, А. (2018), "Автоматический поиск фрагментов, содержащих биографическую информацию, в тексте на естественном языке", Труды Института системного программирования РАН, 30(6): 221–236, doi:10.15514/ISPRAS-2018-30(6)-12
↑ Рубцова, Ю. (2015), "Построение корпуса текстов для настройки тонового классификатора", Программные продукты и системы, 1(109): 72–78, doi:10.15827/0236-235x.109.072-078 Источник (неопр.). Дата обращения: 24 августа 2020. Архивировано 7 августа 2020 года.

Литература править

Ванюшкин А.С., Гращенко Л.А. Оценка алгоритмов извлечения ключевых слов: инструментарий и ресурсы // Новые информационные технологии в автоматизированных системах. — 2017. — Вып. 20. — ISSN 2227-0973.
Николаев И. С., Митренина О. В., Ландо Т. М. Прикладная и компьютерная лингвистика. — М.: URSS, 2016. — 320 с.

[1] ГРАМОТА.РУ – справочно-информационный интернет-портал «Русский язык» | Словари | Проверка слова (неопр.). gramota.ru. Дата обращения: 26 декабря 2019. Архивировано 17 сентября 2019 года.

[2] Диаграмма создана по материалам книги "Захаров В. П., Богданова С. Ю. Корпусная лингвистика: учебник. 3-е изд., перераб. —СПб.: Изд-во С.-Петерб. ун-та, 2020. — 234 с."

[_888ba3dfab8467bf-3] Ванюшкин, Гращенко, 2017.

[4] ARANEA : СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ — Сообщество "Письменное наследие" (неопр.). textualheritage.org. Дата обращения: 26 декабря 2019. Архивировано 9 августа 2020 года.

[5] Глазкова, А. (2018), "Автоматический поиск фрагментов, содержащих биографическую информацию, в тексте на естественном языке", Труды Института системного программирования РАН, 30(6): 221–236, doi:10.15514/ISPRAS-2018-30(6)-12

[6] Рубцова, Ю. (2015), "Построение корпуса текстов для настройки тонового классификатора", Программные продукты и системы, 1(109): 72–78, doi:10.15827/0236-235x.109.072-078 Источник (неопр.). Дата обращения: 24 августа 2020. Архивировано 7 августа 2020 года.

[1]

[2]

[3]

[4]