Чешский национальный корпус

Чéшский национа́льный ко́рпус (Český národní korpus или ČNK) — доступная для открытого поиска база письменных текстов в электронной форме на чешском языке, поддерживаемая Карловым университетом в Праге. Сайт доступен на чешском и английском языках.

Чéшский национа́льный ко́рпус
URL ucnk.ff.cuni.cz
Коммерческий нет
Тип сайта образовательный/научный проект
Язык (-и) чешский/английский
Расположение сервера Чехия, Прага
Создатель Карлов университет
Текущий статус Работает и развивается

История создания править

Идея ЧНК была впервые выдвинута в 1991 году и поддержана представителями Факультета философии Карлова университета, Факультета математики и физики Карлова университета, Масарикова университета, Университета Палацкого, Института чешского языка Академии наук Чехии.

Предпосылками для создания корпуса послужили такие факторы, как отклонение современного чешского языка от общепринятых норм (создание корпуса помогло бы избавить чешскую лексикографию от подобных отклонений) и стабилизация политической ситуации (более широкое сотрудничество с международным научным сообществом помогло привнесению компьютерной лексикографии и корпусной лингвистики, как отдельных ветвей, в чешскую лингвистику). В 1994 году при Факультете философии Карлова университета был создан Институт Чешского национального корпуса, а также были подписаны соглашения о сотрудничестве Института с некоторыми институциями Чехии[1].

Составители править

По состоянию на 10 сентября 2017 года над Чешским национальным корпусом работают:

  • Директор Михал Кршен (Michal Křen)
  • Заместитель директора Вацлав Цврчек (Václav Cvrček)
  • Секретарь Луцие Новакова (Lucie Nováková (недоступная ссылка))
  • Профессор Франтишек Чермак (František Čermák)
  • Профессор и глава секции диахронического корпуса Карел Кучера (Karel Kučera)
  • Глава лингвистической секции Вацлав Цврчек
  • Глава вычислительной секции Павел Вондржичка (Pavel Vondřička (недоступная ссылка))
  • Глава секции разговорного корпуса Мария Копршивова (Marie Kopřivová)
  • Глава секции лингвистического анализа и аннотаций Томаш Елинек (Tomáš Jelínek)
  • Глава секции параллельного корпуса Александр Розен (Alexandr Rosen (недоступная ссылка))
  • и другие[2].

Состав и объём корпуса править

Корпус письменных текстов / Written corpora (synchronic) ~2705 млн словоупотреблений
Корпус устных текстов / Spoken corpora (synchronic) ~4 млн словоупотреблений
Диахронический корпус / Diachronic corpora 1,95 млн словоупотреблений
Корпус иностранных языков /Foreign language corpora 6248 млн словоупотреблений
Параллельный корпус / Parallel corpus 92 млн словоупотреблений

Общий объём корпуса составляет свыше 9 млрд словоупотреблений, из которых лемматизировано и размечено морфологическими тегами ~8894,5 млн[3].

Источники текстов править

Основным содержимым ЧНК являются:

  • Тексты, полученные в электронном виде от издательских домов и индивидуальных владельцев
  • Тексты, полученные из газет (составляют абсолютное большинство текстов корпуса — около 60 %)
  • Тексты словарей (например, корпус FSC2000 ссылается на Частотный словарь чешского языка)[1]

Отдельный корпус ЧНК посвящён антиутопии Джорджа Оруэлла «1984», сравнительно небольшой размер которой (80 000 слов и 20 000 пунктуационных знаков) позволил вручную разметить текст почти безупречно[4].

Доступ править

На сайте существует два вида доступа: публичный и полный.

Неавторизированный пользователь может искать лишь в корпусе SYN2010, объём которого составляет всего 100 млн слов, что составляет одну девяностую всей базы Чешского национального корпуса. SYN2010 состоит[5] на 40 % из художественной литературы, на 27 % из технической литературы и на 33 % из журналистских работ. Большинство текстов корпуса были созданы с 2005 до 2009 года.

Публичный доступ позволяет увидеть количество вхождений в SYN2010 и первые 50 примеров. Слова выдаются в формате concordance lines, когда каждая строка представляет собой часть текста, в которой присутствует заданное выражение. Для публичного доступа возможны использования базовых регулярных выражений, также возможен поиск по ключевым словам.

Зарегистрированный пользователь имеет полный доступ к базе данных Института ЧНК, а также к специальному менеджеру корпуса Bonito.

Bonito править

Bonito (A Modular Corpus Manager Bonito) — графический пользовательский интерфейс (GUI) корпус-менеджера Manatee, созданный в Центре обработки естественного языка, который расположен на факультете информатики Института имени Масарика в Брно. Создатель — Павел Рыхлый (Pavel Rychlý), ассистент факультета[6].

Сотрудничество править

На данный момент[уточнить] с корпусом сотрудничают следующие институции Чехии:

Также корпус сотрудничает с Факультетом славянских языков Брауновского университета (США), Факультетами филологии и искусств Санкт-Петербургского Государственного Университета (Россия), Факультетом философии и литературы Университета Гранады[en] (Испания), Институтом немецкого языка в Мангейме (Германия), Университетом Амстердама (Нидерланды) и другими крупными научными центрами[7].

См. также править

Примечания править

  1. 1 2 Czech National Corpus (CNC). Дата обращения: 26 октября 2013. Архивировано 29 октября 2013 года.
  2. People | Institute of the Czech National Corpus. Дата обращения: 10 сентября 2017. Архивировано 6 сентября 2017 года.
  3. Available Corpora | Institute of the Czech National Corpus. Дата обращения: 10 сентября 2017. Архивировано из оригинала 10 сентября 2017 года.
  4. ORWELL | Institute of the Czech National Corpus. Дата обращения: 10 сентября 2017. Архивировано 10 сентября 2017 года.
  5. Public Access Архивная копия от 29 октября 2013 на Wayback Machine (недоступная ссылка — история) Проверено 10 сентября 2017.
  6. Manatee/Bonito — A Modular Corpus Manager. Дата обращения: 26 октября 2013. Архивировано 29 октября 2013 года.
  7. 1 2 Cooperation | Institute of the Czech National Corpus. Дата обращения: 10 сентября 2017. Архивировано 10 сентября 2017 года.

Ссылки править