Частотный словарь

Часто́тный слова́рь (или частотный список) — набор слов данного языка (или подъязыка) вместе с информацией об их частотности. Словарь может быть отсортирован по частотности, по алфавиту (тогда для каждого слова будет указана его частотность), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. п.), по типичности (слова, частотные для большинства текстов), и т. д. Частотные списки используются для преподавания языка, создания новых словарей, приложений компьютерной лингвистики, исследований в области лингвистической типологии, и т. д.

Построение частотных списковПравить

Обычно частотные словари строятся на основе корпусов текстов: берется набор текстов, представительный для языка в целом, для некоторой предметной области или данного автора (см. Частотный словарь Грибоедова) и из него извлекаются словоформы, леммы и части речи (последние извлекаются в случае, если корпус имеет морфологическую разметку).

Проблемы при создании частотных списков заключаются в:

  • воспроизводимости (будут ли результаты идентичны на другом аналогичном корпусе),
  • всплесках частотности отдельных слов (частотность слова в одном тексте может повлиять на его позицию в частотном списке),
  • сложности определения позиции менее частотных слов, что не дает возможности ранжировать их рационально; например, слово белиберда входит в 20 000 наиболее частотных слов, в то время, как слово хрюкнуть находится за пределами списка первых 40 тысяч.

Все эти проблемы связаны с тем, что со статистической точки зрения язык представляет собой большое количество редких событий (Закон Ципфа), в результате чего небольшое количество слов встречается очень часто, а подавляющее большинство слов имеют очень невысокую частотность. Частотность слова и (самого частотного слова русского языка) примерно в 10 раз выше частотности слова о, которое в свою очередь встречается в 100 раз чаще таких обыденных слов как путешествие, старость или мода.

Для описания всплесков частотности можно использовать метафору хоббита (Адам Килгаррифф изначально использовал относительно редкое английское слово whelk, вид морского моллюска, англ. whelk): если несколько текстов в корпусе о хоббитах, то это слово будет употребляться почти в каждом предложении. В результате его частотность в этих текстах будет сравнима с частотностью служебных слов, но и в частотном списке большого корпуса, в который входят такие тексты, это слово будет иметь неправдоподобно высокий ранг. Такие всплески частотности можно оценивать с помощью коэффициента вариации: отношения стандартного отклонения к средней частотности.

Сравнение корпусовПравить

Частотные словари обеспечивают возможность сравнить два корпуса, чтобы определить слова, наиболее характерные для каждого из них. Иногда в словарях указывается «абсолютная частотность», то есть количество появлений слова в корпусе. В связи с тем, что размеры корпусов могут быть различны, обычно указывается относительная частотность (обычно называемая просто «частотность»), то есть отношение числа появлений слова в корпусе к общему числу слов в корпусе. Иногда указываются обе величины. Относительная частотность иногда указывается в процентах, в промилле либо в миллионных долях (англ. ipm, instances per million words). Например, слово и имеет частотность 0,03 (3 %, или 30 ‰, или около 30 000 слов на миллион, слово старость — 0,00003 (0,003 %, или 0,03 ‰, или около 30 слов на миллион).

Для определения набора ключевых слов, отличающих один корпус от другого, можно использовать разные статистические меры: хи-квадрат, отношение правдоподобия (англ. Likelihood-ratio test) и т. п.

См. такжеПравить

ЛитератураПравить

СсылкиПравить