Открыть главное меню

Гистограмма (статистика)

Гистогра́мма в математической статистике — это функция, приближающая плотность вероятности некоторого распределения, построенная на основе выборки из него.

Графическое описаниеПравить

Графически гистограмма строится следующим образом. Сначала множество значений, которое может принимать элемент выборки, разбивается на несколько интервалов (bins). Чаще всего эти интервалы берут одинаковыми, но это не является строгим требованием. Эти интервалы откладываются на горизонтальной оси, затем над каждым рисуется прямоугольник. Если все интервалы были одинаковыми, то высота каждого прямоугольника пропорциональна числу элементов выборки, попадающих в соответствующий интервал. Если интервалы разные, то высота прямоугольника выбирается таким образом, чтобы его площадь была пропорциональна числу элементов выборки, которые попали в этот интервал.

ОпределениеПравить

Пусть   — выборка из некоторого распределения. Определим разбиение числовой прямой  . Пусть

 

— число элементов выборки, попавших в  -й интервал. Тогда кусочно-постоянная функция  , имеющая вид:

 , — называется нормализованной гистограммой.

ЗамечаниеПравить

Нормализованная гистограмма является плотностью вероятности. В частности:

  •  .
  •  .

Гистограмма абсолютно непрерывного распределенияПравить

Пусть распределение случайных величин   абсолютно непрерывно и задаётся плотностью вероятности  . Тогда

  по вероятности при  .

ЗамечаниеПравить

Таким образом площадь фигуры под нормализованной гистограммой, ограниченной интервалом  , приближается к вероятности принятия значений внутри этого интервала любой из случайных величин  . Однако, нормализованная гистограмма не сходится поточечно к теоретической плотности распределения этих случайных величин.

ИспользованиеПравить

Гистограммы применяются в основном для визуализации данных на начальном этапе статистической обработки.

Построение гистограмм используется для получения эмпирической оценки плотности распределения случайной величины. Для построения гистограммы наблюдаемый диапазон изменения случайной величины разбивается на несколько интервалов и подсчитывается доля от всех измерений, попавшая в каждый из интервалов. Величина каждой доли принимается в качестве оценки вероятности попадания случайной величины в соответствующий интервал. Говорить о плотности вероятности в контексте гистограммы неправильно, т.к. гистограммирование трансформирует распределение любого вида в дискретное (рассматривается событие попадания величины в некоторый интервал, число которых счетно), а для дискретной случайной величины не существует функции плотности распределения вероятностей.

Существенным для построения гистограммы является выбор оптимального разбиения, поскольку при увеличении интервалов снижается детализация оценки плотности распределения, а при уменьшении падает точность её значения. Для выбора оптимального количества интервалов   часто применяется правило Стёрджеса

 ,

где   — общее число наблюдений величины,   — логарифм по основанию 2,   — обозначает целую часть числа  .

Также часто встречается правило, оценивающее оптимальное количество интервалов как квадратный корень из общего числа измерений:

 

См. такжеПравить