Открыть главное меню

Глубоко аннотированный корпус русского языка

Глубоко́ анноти́рованный ко́рпус ру́сского языка́ (ГАК), также известный как СинТа́гРус (англ. SynTagRus, сокр. от англ. Syntactically Tagged Russian text corpus «синтаксически аннотированный корпус русских текстов») — первый аннотированный корпус текстов русского языка, разрабатываемый с 2000 года Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАН[⇨]. Корпус состоит из текстов различных жанров; общее количество словоупотреблений составляет около 1 000 000[⇨].

СинТагРус основан на идеологии многоцелевого лингвистического процессора ЭТАП. Особенностью корпуса является наличие нескольких уровней аннотации разной глубины, включая полную морфологическую и синтаксическую разметку со снятой омонимией. Форматом разметки является XML[⇨].

ГАК распространяется по некоммерческой лицензии[⇨]. Кроме того, корпус был сконвертирован[⇨] в различные форматы; некоторые из этих версий (или конвертеров) находятся в открытом доступе, а ограниченная версия оригинального корпуса входит в состав Национального корпуса русского языка.

ИсторияПравить

Результатом появления в начале 1990-х годов корпусов с синтаксической разметкой стало развитие эмпирических методов в задачах обработки естественного языка. Причем использование таких корпусов нашло свое применение не только в контексте собственно синтаксического анализа, но и в ряде других задач, среди которых разрешение лексической многозначности, семантический анализ и др.[1]

К концу 1990-х годов для большинства основных европейских языков были созданы аннотированные корпусы, тогда как для русского языка таких корпусов фактически не существовало[2]. Более того, даже существовавшие на тот момент неразмеченные корпуса (например, Уппсальский корпус русского языка) не были общедоступными[3].

По этим причинам с 2000 года началась разработка глубоко аннотированного корпуса СинТагРус[2]. При этом разработчики принимали участие и в создании Национального корпуса русского языка; в частности, СинТагРус (с некоторыми ограничениями) является составной, но полностью автономной частью НКРЯ с момента создания последнего[4][5].

Разработка глубоко аннотированного корпуса русского языка осуществляется Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАН[6].

Состав корпусаПравить

Исходным материалом для ГАК послужил Уппсальский корпус русского языка: было взято около 10 000 предложений из текстов художественных произведений. Впоследствии в корпус были добавлены короткие (до 30 предложений) тексты, взятые с сайтов популярных новостных изданий (yandex.ru, rbc.ru, polit.ru, lenta.ru, strana.ru, news.ru)[2][7].

СинТагРус постоянно развивается и по состоянию на 2017 год[8] состоял из примерно 67 000 предложений (около 1 000 000 словоупотреблений), взятых из текстов следующих жанров[9][5][10]:

Типы и формат разметкиПравить

Отличительной особенностью СинТагРуса по сравнению с другими аннотированными корпусами русского языка является наличие нескольких уровней аннотации разной глубины, которые могут извлекаться из корпуса независимо, причем количество этих уровней потенциально не ограничено и постепенно растет с целью возможности использования корпуса для решения большего круга задач. Языком разметки корпуса является XML, а формат разметки совместим с формализмом TEI, за исключением некоторых дополнительно введенных элементов и атрибутов. В основном разметка произвольного текста осуществляется в два шага[7]:

  1. Предварительная разметка текста в автоматическом режиме средствами лингвистического процессора ЭТАП, являющегося практической реализацией модели «Смысл — Текст».
  2. Проверка и, в случае необходимости, корректирование разметки экспертом-лингвистом.

Далее будут перечислены имеющиеся в корпусе типы разметки.

Разбиение текста на предложения и лексические элементыПравить

Каждый текст в ГАК разбит на предложения. Каждое предложение является элементом с именем S и у каждого такого элемента есть атрибут ID, значением которого является порядковый номер предложения в тексте. Аналогично, каждое предложение разбито на лексические элементы с именем W и у каждого такого элемента есть атрибут ID, значением которого является порядковый номер слова в данном предложении[7].

Морфологическая разметкаПравить

Морфологическая структура[11] словоформы представляет собой имя лексемы, или лемму, которой приписывается часть речи и морфологические характеристики, то есть значения соответствующих морфологических категорий. Для соответствующей словоформы (элемента W) лемма является значением атрибута LEMMA, а часть речи и морфологические характеристики совместно являются значением атрибута FEAT[5][12].

Синтаксическая разметкаПравить

Синтаксическая структура предложения представляет собой дерево зависимостей, где каждая дуга (стрелка) идет из главного слова («хозяина») в зависимое слово («слугу») и помечена именем какого-либо синтаксического отношения. Каждое слово предложения, кроме одного (называемого вершиной предложения), зависит от какого-то слова по одному из синтаксических отношений. Отношения связывают только отдельные слова, а не словосочетания. В случае так называемых синтаксических групп один из членов группы выступает в качестве представителя (локальной вершины) группы во внешних связях и подчиняет остальные члены группы[11].

Каждое отношение соответствует определенному классу синтаксических конструкций. Особенностью синтаксической модели, на основе которой строятся структуры в данном корпусе, является то, что в ней различается много типов конструкций и, соответственно, используется большое число отношений (около 70)[9].

Для записи информации о синтаксической структуре предложения в СинТагРусе используются два атрибута каждого слова (элемента W) предложения: DOM, значением которого является ID слова-хозяина, и LINK, значением которого является имя соответствующего синтаксического отношения[12].

Микросинтаксическая разметкаПравить

Под микросинтаксическими единицами в ГАК понимаются фразеологизмы с синтаксической спецификой. Если в некотором предложении корпуса (элемент S) встречается микросинтаксическая единица, то добавляется новый атрибут предложения MICROSYNT, значением которого является имя соответствующей микросинтаксической единицы и её линейные границы[8].

Лексико-семантическая разметкаПравить

Поскольку из-за явления омонимии слова в предложениях корпуса могут быть многозначными, каждой словоформе (элементу W), помимо леммы, приписывается атрибут KSNAME, значением которого является имя соответствующей статьи толково-комбинаторного словаря лингвистического процессора ЭТАП. За счет этого не только уточняется значение многозначного слова, но и устанавливается связь со статьями словаря, который используется процессором ЭТАП, и становится доступной содержащаяся в этих статьях информация о семантических свойствах слов, что важно и для тех случаев, когда омонимии нет[6].

Лексико-функциональная разметкаПравить

В предложениях отмечаются словосочетания, которые можно интерпретировать в терминах лексических функций. Для разметки таких словосочетаний внутри предложения (элемента S) создаются дополнительные элементы отдельно от самих словоформ (элементов W)[9].

Обработка эллиптических конструкцийПравить

В СинТагРусе опущенные фрагменты эллиптированных предложений восстанавливаются явно. Соответствующая восстановленная словоформа размечается точно так же, как и другие словоформы; в частности, от таких «фантомных» слов проводятся все необходимые синтаксические связи. При этом словоформе приписывается атрибут NODETYPE со значением FANTOM[2][13].

Конвертация в другие форматыПравить

Предпринимались неоднократные попытки перевода ГАК в другие форматы разметки: известны эксперименты по переводу корпуса в форматы HPSG и PDT[9]. Кроме того, СинТагРус был успешно переведен в форматы CoNLL-U[13], PTB[14] и SD[15]. Однако конвертация, во-первых, во всех случаях касалась только морфологической и синтаксической разметок, а во-вторых, осуществлялась в автоматическом режиме, что стало препятствием на пути к полноценной конвертации. Так, например, часть речи NID не удалось однозначно перевести в формат CoNLL-U (в котором такой части речи нет) автоматически, поэтому все предложения СинТагРуса, в которых хотя бы одна словоформа имела такую часть речи, были исключены из корпуса перед конвертацией.

ДоступПравить

СинТагРус свободно распространяется по некоммерческой лицензии[16]. Кроме того, версия корпуса без некоторых типов разметки доступна для некоммерческого использования в научно-исследовательских и учебных целях как подкорпус Национального корпуса русского языка и находится в открытом доступе[9], так же как и версии в форматах CoNLL-U (лицензия CC BY-NC-SA 4.0)[13] и PTB (доступен только конвертер)[14].

ПримечанияПравить

  1. Eric Brill, Raymond J. Mooney. An Overview of Empirical Natural Language Processing (англ.) // AI Magazine. — AAAI, 1997. — Vol. 18, no. 4. — P. 13—24.
  2. 1 2 3 4 Богуславский И. М., Григорьев Н. В., Григорьева С. А., Крейдлин Л. Г., Фрид Н. Е. Аннотированный корпус русских текстов: концепция, инструменты разметки, типы информации (рус.) // Труды Международного семинара по компьютерной лингвистике и её приложениям «Диалог-2000». — Протвино, 2000.
  3. Резникова Т. И., Копотев М. В. Лингвистически аннотированные корпуса русского языка (обзор общедоступных ресурсов) (рус.) // Национальный корпус русского языка: 2003—2005. — М.: Индрик, 2005. — С. 31—61.
  4. Сичинава Д. В. Национальный корпус русского языка: очерк предыстории (рус.) // Национальный корпус русского языка: 2003—2005. — М.: Индрик, 2005. — С. 21—30.
  5. 1 2 3 Апресян Ю. Д., Богуславский И. М., Иомдин Б. Л., Иомдин Л. Л., Санников А. В., Санников В. З., Сизов В. Г., Цинман Л. Л. Синтаксически и семантически аннотированный корпус русского языка: современное состояние и перспективы (рус.) // Национальный корпус русского языка: 2003—2005. — М.: Индрик, 2005. — С. 193—214.
  6. 1 2 Апресян Ю. Д., Иомдин Л. Л., Санников А. В., Сизов В. Г. Семантическая разметка в глубоко аннотированном корпусе русского языка (рус.) // Труды Международной конференции «Корпусная лингвистика-2004». — СПб.: СПбГУ, 2004. — С. 41—54.
  7. 1 2 3 Богуславский И. М., Григорьев Н. В., Иомдин Л. Л., Крейдлин Л. Г., Фрид Н. Е., Чардин И. С. Разработка синтаксически размеченного корпуса русского языка (рус.) // Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных». — СПб.: СПбГУ, 2002. — С. 40—50.
  8. 1 2 Иомдин Л. Л. Микросинтаксическая разметка в корпусе русских текстов (рус.) // Труды международной научной конференции «Корпусная лингвистика — 2017». — СПб.: СПбГУ, 2017. — С. 188—194.
  9. 1 2 3 4 5 Дяченко П. В., Иомдин Л. Л., Лазурский А. В., Митюшин Л. Г., Подлесская О. Ю., Сизов В. Г., Фролова Т. И., Цинман Л. Л. Современное состояние глубоко аннотированного корпуса текстов русского языка (СинТагРус) (рус.) // Сборник «Национальный корпус русского языка: 10 лет проекту». — М.: Труды Института русского языка им. В.В. Виноградова, 2015. — Вып. 6. — С. 272—299.
  10. Boguslavsky I., Iomdin L., Sizov V., Tsinman L., Petrochenkov V. Rule-based dependency parser refined by empirical and corpus statistics (англ.) // Proceedings of the International Conference on Dependency Linguistics. — 2011. — P. 318—327.
  11. 1 2 Апресян Ю. Д., Богуславский И. М., Иомдин Л. Л., Лазурский А. В., Митюшин Л. Г., Санников В. З., Цинман Л. Л. Лингвистический процессор для сложных информационных систем. — М.: Наука, 1992. — С. 32—40, 56—73. — 256 с.
  12. 1 2 Igor Boguslavsky, Ivan Chardin, Svetlana Grigorjeva, Nikolai Grigoriev, Leonid Iomdin, Lеonid Kreydlin, Nadezhda Frid. Development of a dependency treebank for Russian and its possible applications in NLP (англ.) // Proceedings of the Third International Conference on Language Resources and Evaluation (LREC-2002). — Las Palmas, 2002. — Vol. III. — P. 852—856.
  13. 1 2 3 Droganova K., Zeman D. Conversion of SynTagRus (the Russian dependency treebank) to Universal Dependencies (англ.) // Technical report. — Institute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University, 2016.
  14. 1 2 Luu A., Malamud S. A., Xue N. Converting SynTagRus dependency treebank into Penn treebank style (англ.) // Proceedings of the 10th Linguistic Annotation Workshop held in conjunction with ACL 2016 (LAW-X 2016). — 2016. — P. 16—21.
  15. Lipenkova J., Souček M. Converting Russian dependency treebank to Stanford typed dependencies representation (англ.) // Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. — 2014. — Vol. 2. — P. 143—147.
  16. Ляшевская О. Н. Корпусные инструменты в грамматических исследованиях русского языка. — М.: Издательский дом ЯСК, 2016. — С. 193. — 520 с.

СсылкиПравить