Википедия:Вики-конференция 2009/Программа/Доклады/Википедия как ресурс для лингвиста

Как известно, целью Википедии является «создание полноценной, точной, свободной энциклопедии на русском языке и ничто другое»[1]. Однако спектр задач, для которых Википедия потенциально применима, существенно шире. В частности, с её помощью можно решать некоторые из лингвистических проблем.

Прежде всего, Википедия — это значительная по объёму коллекция (как говорят лингвисты — корпус) текстов, у которой есть два больших преимущества: свободный статус материалов и современный язык. Насколько нам известно, составители корпусов обычно вынуждены либо ограничиваться текстами, на которые авторское право не распространяется[2], либо договариваться с каждым автором или изданием, что непросто. В результате случается, что современный язык представлен в основном текстами законов.

Ценность составляют не только тексты как таковых: как в любой энциклопедии, в Википедии содержатся факты. (Например, попробуйте посчитать, сколько фактов содержится в предложении «Майкл Рубенс Блюмберг (англ. Michael Bloomberg) (14 февраля 1942, Медфорд, пригород Бостона, Массачусетс, США) — бизнесмен и 108-й по счёту (по настоящее время) мэр Нью-Йорка»). Лингвисты умеют «доставать» такие факты, описываемые предложениями на естественном языке — это направление так и называется: извлечение фактов (fact extraction).

Дополнительный «бонус» — часть такой фактической информации хорошо структурирована и, следовательно, удобна для машинной обработки (речь прежде всего идёт о шаблонах). Посмотрим, например, на информационную карточку населённого пункта.

Для многих лингвистических задач (информационный поиск, автоматическая классификация/кластеризация текстов, аннотирование и др.[3]) бывает необходима некоторая структура, описывающая внеязыковые взаимоотношения между словами, а точнее — между объектами или понятиями, которые они обозначают; такие структуры называются онтологиями. В последние годы активно изучается автоматическое построение и пополнение онтологий. Система категорий Википедии — по крайней мере, в некоторых своих частях[4] — кажется вполне пригодной для обеих задач.

Наконец, нельзя недооценивать межъязыковые ссылки (интервики). По сути, это практически готовый многоязычный словарь, включающий в том числе и очень ценную информацию о написании имён собственных, которая в бумажных словарях представлена крайне скудно. Помимо собственно перевода, такой словарь можно использовать и для так называемого кросслингвистического поиска (так называется принцип информационного поиска в многоязычной коллекции, когда запрос автоматически «расширяется» переводами слов, входящих в него).

В заключение хочется заметить, что вышесказанное существует не только в виде идей. Так, поисковые системы уже «умеют» вычленять из статей факты и отображать в результатах поиска[5]. Примеры запросов: «высота Эвереста», «длина Нила», «столица Дании».

Ссылки править

  1. Википедия:Правила и указания
  2. Или срок его действия истёк.
  3. INTUIT.ru: Учебный курс — Онтологии и тезаурусы: модели, инструменты, приложения
  4. Например, категории «Единицы измерения», «Страны по регионам», «Группы пород собак», «Языковые семьи».
  5. Это верно как минимум для Яндекса и Гугла.

Cсылка на презентацию