Показатели центра распределения

(перенаправлено с «Средние величины»)

Для определения средних или наиболее типичных значений совокупности используются показатели центра распределения. Основные из них — математическое ожидание, среднее арифметическое, среднее геометрическое, среднее гармоническое, среднее степенное, взвешенные средние, центр сгиба, медиана, мода.

Расчёт средних величин производится разными способами, и, соответственно, применение их тоже зависит от исследуемой совокупности.

У симметричного одномерного унимодального распределения математическое ожидание, медиана и мода одинаковы.

Математическое ожидание править

 .

В зарубежной литературе применяется обозначение  .

В случае дискретной величины   и постоянной плотности   применяется выборочное среднее:

 .

Преимущества: если эксперимент повторяется многократно, а результаты суммируются (например, в страховании, азартных играх), математическое ожидание — естественный выбор.

Недостатки: не соответствует интуитивному пониманию «среднего»; меньшинство с аномальными значениями (долгожители, миллиардеры, бракованные изделия и т. д.) серьёзно смещают матожидание. В статистических расчётах рекомендуется отбрасывать такой «хвост».

Медиана править

У одномерного распределения медиана — квантиль уровня 0,5. Иными словами, медиана — это такое число  , что   или  .

Преимущества: Медиана согласуется с интуитивным пониманием «среднего». К тому же, даже очень «дикие» выбросы изменяют медиану незначительно. Например, если к сотне бедняков (доходы равномерно распределены от 0 до 1 $) добавить одного миллиардера (1 млрд $), среднее сместится от 0,5 $ до 10 млн $, в то время как медиана — от 0,5 $ до 0,505. Монотонная функция не изменяет медиану — для любой монотонной   будет выполняться  .

Недостатки: плохо работает для многомерных распределений со сложной взаимосвязью компонентов. Сложна в расчёте.

Мода править

Мода — точка, в которой плотность распределения имеет локальный максимум. Распределение может иметь несколько мод.

Преимущества: позволяет работать с данными нечисловой природы.

Недостаток: не учитывает поведение распределения в других точках.