Мангеймский корпус немецкого языка

Мангеймский корпус немецкого языка (COSMAS corpora или DeReKo) — это коллекция современных немецкоязычных текстов, поддерживаемая Институтом немецкого языка в городе Маннгейм (Германия). В корпусе представлены различные типы текстов: научная и научно-популярная литература, большое количество газетных текстов, художественная проза, и др. Представляя собой самое большое в мире электронное собрание современных немецкоязычных текстов, является инструментом корпусной лингвистики.

Альтернативные названия править

Мангеймский корпус немецкого языка имеет несколько альтернативных названий, таких как German Reference Corpus, IDS corpora, COSMAS corpora. С 2004 года официальное название корпуса — Deutsches Referenzkorpus (DeReKo).

История создания править

История создания корпуса в Институте немецкого языка (IDS) началась в 1964 году, когда Пауль Гребе (Paul Grebe) и Ульрих Энгель (Ulrich Engel) создали «Мангеймский Корпус 1» — проект, в котором к 1967 году было успешно собрано около 2,2 млн часто употребляемых слов немецкой письменной речи. С этого времени база электронных текстовых данных дополнялась и расширялась за счёт ряда последующих проектов по сбору корпуса. К 2013 году DeReKo является одним из основных ресурсов во всем мире для изучения немецкого языка. Темпы роста объёма корпуса — около 300 миллионов слов в год. Поставив основной целью «изучение немецкого языка в его современном использовании», Институт IDS проводит политику по обеспечению долгосрочной работы DeReKo.

Ключевыми особенностями DeReKo являются:

  • крупнейшая лингвистически мотивированная коллекция немецких текстов
  • разрабатывается с 1964 года
  • постоянно расширяется
  • содержит тексты, созданные начиная с 1956 года
  • содержит материалы из художественной литературы, научных и газетных текстов, а также некоторых других типов текста
  • содержит только полные тексты
  • содержит только неизмененные тексты (без орфографических исправлений и т. п.)
  • содержит только лицензированные тексты

Основная цель DeReKo состоит в том, чтобы служить в качестве практической основы для научного исследования современной немецкой письменной речи. Одним из важных принципов является то, что в центре внимания находится сам язык, а не информация, передаваемая им.

Состав корпуса править

В корпусе представлены различные типы текстов: художественная проза, научная и научно-популярная литература, периодика и др. Имеется также подкорпус устной речи (разговорная речь, записи речи носителей различных диалектов и др.). Ресурс включает созданную на основе корпуса базу данных по сочетаемости слов немецкого языка.

Данный корпус содержит 6 основных подкорпусов:

  • Корпус письменной речи 1.370.766.704 словоупотребления
  • Корпус новых поступлений 181.319.744 словоупотребления
  • Archiv der phasengegliederten Wendecorpora 3.813.688 словоупотреблений
  • Картотека общества немецкого языка
  • Исторический корпус 6.296.361 словоупотребление
  • Морфосинтаксически размеченный корпус 29.695.096 словоупотреблений

Корпус письменной речи включает в себя 3 собственно Мангеймских корпуса, а также множество других (беллетристика, исторические корпуса, публицистика, собрание сочинений Карла Маркса и Фридриха Энгельса, корпус Томаса Манна, корпус интервью и т. д.).

Объём корпуса править

Объём корпуса составляет более 1846 млн словоупотреблений. В отличие от других известных корпусов (таких как, например, Британский национальный корпус), DeReKo нацелен на охват максимально возможного объёма текстов, а не на сбалансированность их состава: распределение текстов по времени создания или по типу текста не соответствует заранее заданным процентным соотношениям.

Разметка и аннотации править

В DeReKo присутствует лемматизация и морфологическая разметка, но лишь для части текстов. Однако, в архиве имеется несколько полных согласованных аннотаций на разных языковых уровнях (по крайней мере, на уровнях части речи и синтаксиса). Из-за большого размера корпуса ни ручное аннотирование, ни ручное управление автоматической аннотацией не могут быть осуществимы. В результате ожидаемая степень неточности очень высока, особенно там, где есть лингвистически сложные явления.

Метаданные править

Основные единицы текста в корпусе DeReKo сопровождаются специальной информацией — метаданными. Важным принципом корпуса является то, что эти метаданные должны быть доступными. Какая конкретно информация доступна, зависит от источника данных и типа текста.

Основные категории метаданных:

  • дата публикации
  • время и период создания
  • имя автора
  • имя издателя
  • среда публикации (газета, книга, информационное агентство)
  • место публикации
  • тип текста
  • темы и их категории
  • информация о копиях
  • размер копий
  • число слов/предложений/параграфов
  • признаки старой и новой орфографии
  • условия лицензии

Доступ править

Из-за авторских прав и лицензионных ограничений базы данных архивов DeReKo нельзя копировать или загружать с сайта на жесткий диск. Но эти данные можно запросить и проанализировать бесплатно через систему COSMAS II[1], пользователи которой должны зарегистрироваться и принять соглашение на использование данных исключительно для некоммерческих, образовательных целей. COSMAS II позволяет использовать корпус DeReKo для решения конкретных научных задач.

Примечания править

  1. Система COSMAS II. Дата обращения: 17 октября 2013. Архивировано 22 октября 2013 года.

См. также править

Литература править

Ссылки править