Коэффициент лексического разнообразия

Коэффициент лексического разнообразия (КЛР, индекс лексического разнообразия, англ. lexical diversity, LD) — количественная характеристика текста, отражающая степень богатства словаря при построении текста заданной длины. В основе показателя лежит соотношение числа отдельных лексических единиц (лемм, англ. types) и количества их употреблений в тексте (текстоформ, англ. tokens).

Вычисляется по формуле

L_{d}=N_{\mathrm {lex} }/N

,

где

$L_{d}$ — коэффициент лексического разнообразия,

$N_{\mathrm {lex} }$ — количество уникальных лексем, или лемм, в анализируемом тексте,

$N$ — количество текстоформ (общее количество словоформ) в анализируемом тексте.

Лексически богатый текст обладает высоким коэффициентом лексического разнообразия, то есть на единицу объёма текста приходится максимальное количество уникальных единиц, лексически бедный текст обнаруживает тенденцию к повторению одних и тех же лексем, за счет чего его лексическое разнообразие снижается. При вычислении КЛР должно приниматься во внимание следующее ограничение: в то время как количество текстоформ потенциально бесконечно и может только увеличиваться по мере расширения массива анализируемых текстовых данных, количество лексем все-таки конечно. Поэтому вычислять КЛР рационально только для текстов ограниченного объёма. В вычислительной лингвистике предложено несколько вариантов решения этой проблемы^[1].

Близким к КЛР является коэффициент лексической плотности текста (англ. lexical density), выражающий отношение самостоятельных частей речи в тексте к общему количеству слов. Более лексически плотными, таким образом, будут тексты, в которых используется меньше служебной лексики. Можно вычислять коэффициенты лексической плотности как для самостоятельных частей речи в целом, так и отдельно для существительных, прилагательных, глаголов, наречий.

Способы вычисления КЛР

TTR

TTR (англ. type/token ratio) — самый простой и самый критикуемый способ вычисления коэффициента лексического разнообразия, не принимающий во внимание влияние эффекта длины текста. TTR предположительно был введен в научный обиход в 1957 году в работе специалиста по лингводидактике М. Темплина^[2]. Например, TTR в английском выражении I have to buy some milk, because I have no milk («Мне надо купить молока, так как у меня нет молока») низок и составляет 0,73 (на 11 словоупотреблений приходится только 8 лексем, 8/11), а, например, во фразе I’ve run out of milk, so I need to buy some («У меня кончилось молоко, мне надо его купить») TTR уже выше (TTR = 10/11 = 0,91).

TTR можно вычислять, по-разному интерпретируя понятие type: под ним может подразумеваться
1) лексема во всей совокупности своих словоформ (лемма): например, лексема рубашка для форм рубашка, рубашки, рубашкой, рубашек и т. д.,
2) отдельная словоформа или совокупность омонимичных словоформ или даже омонимов по отношению к отдельным вхождениям этих словоформ в текст («текстоформам»): например, дома для текстоформ до́ма, дома́.
Первое решение лингвистически корректно, но повышает требования к степени автоматизации вычисления коэффициента, так как предполагает умение морфологического анализатора осуществлять разметку по частям речи и лемматизацию. Второе уязвимо с теоретической точки зрения, обнаруживает зависимость от морфологии конкретного языка (что, например, снижает его достоверность при сравнении оригинальных и переводных текстов), однако легко автоматизируется.

VocD

Метод VocD (англ. vocabulary diversity) предложен в работах Д. Малверна и его коллег^[3] и представляет собой усовершенствованную версию TTR, сглаживающую эффекты длины текста. В основе метода лежит метод случайного отбора из текста фрагментов длиной от 35 до 50 текстоформ и вычисления для них TTR с последующим усреднением получившихся графиков.

Использование

Коэффициент лексического разнообразия оказывается важным измеряемым параметром в исследованиях по стилистике, дискурс-анализу, переводоведению (при сравнении оригинальных и переводных текстов), лингвистике детской речи.

Примечания

↑ Информация на сайте textinspector.com (неопр.). Дата обращения: 21 января 2021. Архивировано 28 января 2021 года.
↑ Templin M. Certain language skills in children. — Minneapolis: University of Minnesota Press, 1957.
↑ McKee, G., Malvern, D., & Richards, B. Measuring Vocabulary Diversity Using Dedicated Software. — Literary and Linguistic Computing. — 2000. — № 15(3). — С. 323—337.

Литература

Ure, J. (1971). Lexical density and register differentiation. In G. Perren and J.L.M. Trim (eds), Applications of Linguistics, London: Cambridge University Press. 443—452.

Ссылки

Онлайн-анализатор текста, вычисляющий в том числе и КЛР (не работает с кириллицей)

[1] Информация на сайте textinspector.com (неопр.). Дата обращения: 21 января 2021. Архивировано 28 января 2021 года.

[2] Templin M. Certain language skills in children. — Minneapolis: University of Minnesota Press, 1957.

[3] McKee, G., Malvern, D., & Richards, B. Measuring Vocabulary Diversity Using Dedicated Software. — Literary and Linguistic Computing. — 2000. — № 15(3). — С. 323—337.

[1]

[2]

[3]