Стати́стика — отрасль знаний, наука, в которой излагаются общие вопросы сбора, измерения, мониторинга, анализа массовых статистических (количественных или качественных) данных и их сравнение; изучение количественной стороны массовых общественных явлений в числовой форме[1].
Наука | |
Статистика | |
---|---|
![]() | |
![]() |

Статистик — специалист по статистике.
Слово «статистика» происходит от латинского status — состояние дел[2]. В науку термин «статистика» ввёл немецкий учёный Готфрид Ахенвалль в 1746 году, предложив заменить название курса «Государствоведение», преподававшегося в университетах Германии, на «Статистику», положив тем самым начало развитию статистики как науки и учебной дисциплины. Несмотря на это, статистический учёт вёлся намного раньше: проводились переписи населения в Древнем Китае, осуществлялось сравнение военного потенциала государств, вёлся учёт имущества граждан в Древнем Риме и тому подобное[3].
Статистика разрабатывает специальную методологию исследования и обработки материалов: массовые статистические наблюдения, метод группировок, средних величин, индексов, балансовый метод, метод графических изображений, кластерный, дискриминантный, факторный и компонентный анализы, оптимизацию и другие методы анализа статистических данных. Математическая статистика — это раздел математики о математических методах систематизации, обработки и использования статистических данных.
В 1954 году Б. В. Гнеденко дал следующее определение: «Статистика состоит из трёх разделов:
- сбор статистических сведений, то есть сведений, характеризующих отдельные единицы каких-либо массовых совокупностей;
- статистическое исследование полученных данных, заключающееся в выяснении тех закономерностей, которые могут быть установлены на основе данных массового наблюдения;
- разработка приёмов статистического наблюдения и анализа статистических данных». Последний раздел, собственно, и составляет содержание математической статистики[4].
Термин «статистика» употребляют ещё в двух смыслах. Во-первых, в обиходе под «статистикой» часто понимают набор количественных данных о каком-либо явлении или процессе. Во-вторых, статистикой называют функцию от результатов наблюдений, используемую для оценки характеристик и параметров распределений и проверки гипотез.
История
правитьТиповые примеры раннего этапа применения статистических методов описаны в Библии, в Ветхом Завете. Там, в частности, приводится число воинов в различных племенах. Уже с древности правители государств стремились собирать сведения о благосостоянии своих подданных (для налоговых целей и организации других государственных повинностей, таких как формирование войска). Примером такого рода является «Книга Страшного суда» — материалы всеобщей поземельной переписи, проведённой в Англии в 1085—1086 годах по приказу короля Вильгельма Завоевателя.
Первое использование слова «статистика» встречается в работе итальянского историка Джироламо Гилини[англ.] (1589—1668), который написал «отчёт о гражданской, политической, статистической и военной науке» (Ristretto della civile, politica, statistica e militare scienza). При этом под статистикой первоначально понималось описание тех или иных государств без использования для этих целей каких-либо математических методов. Например, к 1792 году относится определение: «статистика описывает состояние государства в настоящее время или в некоторый известный момент в прошлом». И в настоящее время деятельность государственных статистических служб вполне укладывается в это определение[5].
Но уже живший в Англии в XVII веке Уильям Петти, которого Карл Маркс называл «в некотором роде изобретателем статистики», в своих «Essays in political arithmetic» делал статистические вычисления и сопоставления на основании собранных им цифр, например, о населении земного шара в разные периоды времени, о периодах удвоения населения, о сравнительном богатстве разных стран и т.п. Наряду с Петти начал разрабатывать методы анализа данных о населении живший также в Англии в тот же время Джон Граунт, которого считают основателем демографии. Благодаря Петти, Граунту, Грегори Кингу и Чарльзу Давенанту во второй половине XVII века в Англии сложилась школа так называемой «политической арифметики», задачей которой был анализ социальных явлений на основе количественных показателей[6].
Сразу после возникновения теории вероятностей (Паскаль, Ферма, XVII век) вероятностные модели стали использоваться при обработке статистических данных. Например, изучалась частота рождения мальчиков и девочек, было установлено отличие вероятности рождения мальчика от 0,5.
Статистические методы постепенно стали применяться в различных сферах для систематизации и анализа массовых данных. Например, для целей страхования жизни составлялись таблицы продолжительности жизни, а основанные на статистических подходах арифметические методы устранения ошибок измерений уже с XVIII века использовались в астрономии и механике (в частности, Карлом Гауссом).
В 1794 году (по другим данным — в 1795) Карл Гаусс формализовал один из методов современной математической статистики — метод наименьших квадратов[7].
Наряду с математическими методами развивалась и описательная статистика. Так, немецкий учёный Герман Конринг (1606—1681), который первым начал читать лекции по государствоведению в Гельмштедтском университете (с 1660). Конринг стремился научить политических деятелей понимать причины государственно важных явлений, подразделяемых на четыре группы: материальные — описание территории и населения государства, формальные — политическое устройство, конечные (целевые) — благосостояние государства и его граждан, административные — управление государством, его аппарат (чиновники, армия и т. д.)[8]. Эти четыре части предопределили развитие демографии, политической географии, бюджетной статистики и административной статистики. Последователь Конринга Готфрид Ахенвалль (1719—1772) широко распространил идеи Конринга, создав школу описательной статистики, безраздельно господствовавшую в Европе до середины XIX века. Численным описаниям как Ахенваль, так и многочисленные его последователи в разных странах Европы придавали совершенно второстепенное значение.
В XIX веке значительный вклад в развитие практической статистики внёс бельгиец Кетле, на основе анализа большого числа реальных данных показавший устойчивость относительных статистических показателей, таких, как доля самоубийств среди всех смертей[9].
В течение XIX века накопился колоссальный статистический материал, собирание и обработка которого содействовали развитию статистических методов. Из отдельных видов прикладной статистики особенно усердно разрабатывалась статистика населения (демография), хозяйственная статистика и статистика преступности.
Первая треть XX века прошла под знаком параметрической статистики. Изучались методы, основанные на анализе данных из параметрических семейств распределений, описываемых кривыми семейства Пирсона. Наиболее популярным было нормальное распределение. Для проверки гипотез использовались критерии Пирсона, Стьюдента, Фишера. Были предложены метод максимального правдоподобия, дисперсионный анализ, сформулированы основные идеи планирования эксперимента.
Разработанную в первой трети XX века теорию анализа данных называют параметрической статистикой, поскольку её основной объект изучения — это выборки из распределений, описываемых одним или небольшим числом параметров. Наиболее общим является семейство кривых Пирсона, задаваемых четырьмя параметрами. Как правило, нельзя указать каких-либо веских причин, по которым распределение результатов конкретных наблюдений должно входить в то или иное параметрическое семейство. Исключения хорошо известны: если вероятностная модель предусматривает суммирование независимых случайных величин, то сумму естественно описывать нормальным распределением; если же в модели рассматривается произведение таких величин, то итог, видимо, приближается логарифмически нормальным распределением и так далее.
По мере того, как росла потребность в адекватной системе оценки экономики, были предприняты попытки создания счетов, связывающих все показатели хозяйственной деятельности. Возникшие проблемы сопоставления на практике макроэкономических показателей экономики различных стран предопределило необходимость разработки унифицированной системы национальных счетов.
Исторически для сбора и первоначальной обработки данных использовались переписи населения, скота, предприятий и т. д. Подобные переписи проводятся до сих пор, но они слишком дороги и трудоемки, поэтому в первой половине XX века развивались выборочные методы статистического наблюдения. К настоящему времени большинство первичных данных в мире собирается с помощью таких методов.
В настоящее время для статистических целей все больше используются так называемые «большие данные» (информация, собираемая операторами сотовой связи, системами космического наблюдения, поисковыми системами интернета).
Связь статистики с другими дисциплинами
правитьСтатистика является мультидисциплиной, так как она использует методы и принципы, заимствованные из других дисциплин. Так, в качестве теоретической базы для формирования статистической науки служат знания в области социологии и экономической теории. В рамках этих дисциплин происходит изучение законов общественных явлений. Статистика помогает произвести оценку масштаба того или иного явления, а также разработать систему методов для анализа и изучения. Статистика, несомненно, связана с математикой, так как для выявления закономерностей, оценки и анализа объекта исследования требуется ряд математических операций, методов и законов, а систематизация результатов находит отражения в виде графиков и таблиц. Как отмечает историк науки Теодор Портер, начиная от зарождения дисциплины статистики в девятнадцатом веке, она была не разработана математиками, а затем применена к естественным и социальным наукам, а скорее же возникла благодаря усилиям социологов, которые увидели необходимость в статистических инструментах для изучения общества[10].
Статистические методы
правитьСтатистические методы — методы анализа статистических данных. Их разделяют на две большие категории — методы описательной статистики (позволяют получить общее представление о имеющихся данных, включая такие показатели, как среднее значение, медиана и т.п.) и статистический вывод (также называемый индуктивной статистикой), то есть обобщение информации из выборки для получения представления о свойствах генеральной совокупности.
Классификация статистических методов
правитьСтатистические методы анализа данных применяются практически во всех областях. Их используют всегда, когда необходимо получить и обосновать какие-либо суждения о группе (объектов или субъектов) с некоторой внутренней неоднородностью.
Целесообразно выделить три вида научной и прикладной деятельности в области статистических методов анализа данных (по степени специфичности методов, сопряженной с погруженностью в конкретные проблемы):
а) разработка и исследование методов общего назначения, без учёта специфики области применения;
б) разработка и исследование статистических моделей реальных явлений и процессов в соответствии с потребностями той или иной области деятельности;
в) использование статистических методов и моделей для статистического анализа конкретных данных в решении прикладных задач, например, с целью проведения выборочных обследований.
Прикладная статистика
правитьПрикладная статистика — это наука о том, как обрабатывать данные произвольной природы. Математической основой прикладной статистики и статистических методов анализа является теория вероятностей и математическая статистика.
Описание вида данных и механизма их порождения — начало любого статистического исследования. Для описания данных применяют как детерминированные, так и вероятностные методы. С помощью детерминированных методов можно проанализировать только те данные, которые имеются в распоряжении исследователя. Например, с их помощью получены таблицы, рассчитанные органами официальной государственной статистики на основе представленных предприятиями и организациями статистических отчётов. Перенести полученные результаты на более широкую совокупность, использовать их для предсказания и управления можно лишь на основе вероятностно-статистического моделирования. Поэтому в математическую статистику часто включают лишь методы, опирающиеся на теорию вероятностей.
В простейшей ситуации статистические данные — это значения некоторого признака, свойственного изучаемым объектам. Значения могут быть количественными или представлять собой указание на категорию, к которой можно отнести объект. Во втором случае говорят о качественном признаке.
При измерении по нескольким количественным или качественным признакам в качестве статистических данных об объекте получаем вектор. Его можно рассматривать как новый вид данных. В таком случае выборка состоит из набора векторов. Есть часть координат — числа, а часть — качественные (категоризованные) данные, то говорим о векторе разнотипных данных.
Одним элементом выборки, то есть одним измерением, может быть и функция в целом. Например, описывающая динамику показателя, то есть его изменение во времени, — электрокардиограмма больного или амплитуда биений вала двигателя. Или временной ряд, описывающий динамику показателей определённой фирмы. Тогда выборка состоит из набора функций.
Элементами выборки могут быть и иные математические объекты. Например, бинарные отношения. Так, при опросах экспертов часто используют упорядочения (ранжировки) объектов экспертизы — образцов продукции, инвестиционных проектов, вариантов управленческих решений. В зависимости от регламента экспертного исследования элементами выборки могут быть различные виды бинарных отношений (упорядочения, разбиения, толерантности), множества, нечёткие множества и т. д.
Математическая природа элементов выборки в различных задачах прикладной статистики может быть самой разной. Однако можно выделить два класса статистических данных — числовые и нечисловые. Соответственно прикладная статистика разбивается на две части — числовую статистику и нечисловую статистику.
Числовые статистические данные — это числа, векторы, функции. Их можно складывать, умножать на коэффициенты. Поэтому в числовой статистике большое значение имеют разнообразные суммы. Математический аппарат анализа сумм случайных элементов выборки — это (классические) законы больших чисел и центральные предельные теоремы.
Нечисловые статистические данные — это категоризованные данные, векторы разнотипных признаков, бинарные отношения, множества, нечёткие множества и др. Их нельзя складывать и умножать на коэффициенты. Поэтому не имеет смысла говорить о суммах нечисловых статистических данных. Они являются элементами нечисловых математических пространств (множеств). Математический аппарат анализа нечисловых статистических данных основан на использовании расстояний между элементами (а также мер близости, показателей различия) в таких пространствах. С помощью расстояний определяются эмпирические и теоретические средние, доказываются законы больших чисел, строятся непараметрические оценки плотности распределения вероятностей, решаются задачи диагностики и кластерного анализа, и т. д.[2]
В прикладных исследованиях используют статистические данные различных видов. Это связано, в частности, со способами их получения. Например, если испытания некоторых технических устройств продолжаются до определённого момента времени, то получаем так называемые цензурированные данные, состоящие из набора чисел — продолжительности работы ряда устройств до отказа, и информации о том, что остальные устройства продолжали работать в момент окончания испытания. Цензурированные данные часто используются при оценке и контроле надежности технических устройств.
Виды группировки
правитьПод статистической группировкой понимают разделение совокупности на группы (интервалы изменения параметра) однородные в каком-либо отношении. Число таких интервалов (групп) рассчитывается по формуле Стёрджеса:
- ,
где k — число интервалов, n — число наблюдений.
Существует три вида группировки: аналитическая, типологическая, структурная.
- Аналитическая группировка — позволяет выявить связь между группировками.
- Типологическая группировка — разделение исследуемой совокупности на однородные группы.
- Структурная группировка — в которой происходит разделение однородной совокупности на группы, по определённому признаку.
Типические группы: максимально однородные внутри и разнородные снаружи. Группировки бывают первичными и вторичными. Первичные группировки получаются в ходе статистических наблюдений. А вторичные осуществляются на основании первичной.
Статистический анализ конкретных данных
правитьПерспективы развития
правитьТеория статистических методов нацелена на решение реальных задач. Поэтому в ней постоянно возникают новые постановки математических задач анализа статистических данных, развиваются и обосновываются новые методы. Обоснование часто проводится математическими средствами, то есть путём доказательства теорем. Большую роль играет методологическая составляющая — как именно ставить задачи, какие предположения принять с целью дальнейшего математического изучения. Велика роль современных информационных технологий, в частности, компьютерного эксперимента.
Актуальной является задача анализа истории статистических методов с целью выявления тенденций развития и применения их для прогнозирования.
Вычислительная статистика
правитьРазвитие вычислительной техники во второй половине XX века оказало значительное влияние на статистику. Ранее статистические модели были представлены преимущественно линейными моделями. Увеличение быстродействия ЭВМ и разработка соответствующих численных алгоритмов послужило причиной повышенного интереса к нелинейным моделям таким, как искусственные нейронные сети, и привело к разработке сложных статистических моделей, например обобщённая линейная модель и иерархическая модель.
Получили широкое распространение вычислительные методы, основанные на повторной выборке как критерий перестановок и бутстреппинг, наряду методы как семплирование по Гиббсу позволили более доступно использовать байесовские алгоритмы. В настоящее время существует разнообразное статистическое программное обеспечение общего и специализированного назначения.
Некорректная интерпретация статистических исследований
правитьБытует мнение, что данные статистических исследований всё чаще намеренно искажают или неправильно интерпретируют, выбирая только те данные, которые являются благоприятными для ведущего конкретное исследование[11]. Неправильное использование статистических данных может быть как случайным, так и преднамеренным. В книге Даррелла Хаффа (1954) «Как лгать при помощи статистики» излагается ряд соображений по поводу использования и неправильного применения статистических данных. Некоторые авторы также проводят обзор статистических методов, используемых в определённых областях (например, Варн, Лазо, Рамос, и Риттер (2012))[12]. Способы, позволяющие избежать неправильного толкования статистических данных включают в себя использование надлежащей схемы и исключение предвзятости при проведении исследований[13]. Злоупотребление происходит тогда, когда такие выводы «заказываются» определёнными структурами, которые намеренно или бессознательно выводят на отбор предвзятых данных или проб[14]. При этом гистограммы, как самый простой для использования и понимания (восприятия) вид диаграммы, могут быть сделаны либо с применением обычных программ для компьютера или просто нарисованы[13]. Большинство людей не делают попыток искать ошибки или заблуждаются сами, поэтому и не видят ошибок. Таким образом, по мнению авторов, статистические данные, чтобы быть правдой, должны быть «не причёсаны» (то есть достоверные данные не должны выглядеть идеальными)[14]. Для того, чтобы полученные статистические данные оказались правдоподобными и точными, проба должна быть репрезентативной в целом[15].
Крылатая фраза
правитьНаиболее известная (и одна из лучших[16]) критика прикладной статистики, «Существуют три вида обмана: ложь, наглая ложь и статистика», англ. There are three kinds of lies: lies, damned lies, and statistics) традиционно приписывается премьер-министру Великобритании Бенджамину Дизраэли, после атрибуции Марка Твена в публикации «Главы моей автобиографии» (журнал North American Review 5 июля 1907 года)[17]: «Цифры обманчивы, — писал он, — я убедился в этом на собственном опыте; по этому поводу справедливо высказался Дизраэли: „Существует три вида лжи: ложь, наглая ложь и статистика“». Однако этой фразы нет в работах Дизраэли, её происхождение спорно. В 1964 году К. Уайт (англ. Colin White)[16] предположил авторство Франсуа Мажанди (1783—1855), который сказал фразу по-французски: фр. Ainsi l’altération de la vérité qui se manifeste déjà sous la forme progressive du mensonge et du parjure, nous offre-t-elle au superlatif, la statistique («Модификация правды, которая проявляется в сравнительной степени неправды и лжесвидетельства, имеет и суперлатив, статистику»). По словам Уайта, «мир нуждался в этой фразе, и несколько человек могли бы гордиться, придумав её».
См. также
правитьПримечания
править- ↑ Малая советская энциклопедия. — М.: Советская энциклопедия, 1960. — Т. 8. — С. 1090.
- ↑ 1 2 Райзберг Б. А., Лозовский Л. Ш., Стародубцева Е. Б. Современный экономический словарь. 5-е изд., перераб. и доп. — М.: ИНФРА-М, 2007. — 495 с. — (Библиотека словарей «ИНФРА-М»)
- ↑ Лекция по статистике — Предмет и метод статистики . Дата обращения: 22 августа 2009. Архивировано 12 сентября 2009 года.
- ↑ Гнеденко Б. В. Очерк по истории теории вероятностей. — Москва: УРСС, 2001.
- ↑ Никитина Е. П., Фрейдлина В. Д., Ярхо А. В. Коллекция определений термина «статистика». — Москва: МГУ, 1972.
- ↑ Чарльз Дэвенант о задачах и принципах "политической арифметики" как орудия государственного управления
- ↑ Клейн Ф. Лекции о развитии математики в XIX столетии. Часть I. — Москва, Ленинград: Объединенное научно-техническое издательство НКТП СССР, 1937.
- ↑ Государствоведение . ekonomstat.ru. Дата обращения: 8 декабря 2018. Архивировано 9 декабря 2018 года.
- ↑ Плошко Б. Г., Елисеева И. И. История статистики: Учебное пособие. — Москва, Ленинград: Финансы и статистика, 1990.
- ↑ The Rise of Statistical Thinking, 1820–1900 | Princeton University Press . Дата обращения: 9 сентября 2024. Архивировано 9 сентября 2024 года.
- ↑ Huff, Darrell, How to Lie With Statistics, WW Norton & Company, Inc. New York, NY, 1954. ISBN 0-393-31072-8
- ↑ Warne, R. Lazo, M., Ramos, T. and Ritter, N. (2012). Statistical Methods Used in Gifted Education Journals, 2006—2010. Gifted Child Quarterly, 56(3) 134—149. doi: 10.1177/0016986212444122
- ↑ 1 2 Encyclopedia of Archaeology (неопр.). — Credo Reference: Oxford: Elsevier Science, 2008.
- ↑ 1 2 Cohen, Jerome B. Misuse of Statistics (англ.) // Journal of the American Statistical Association : journal. — JSTOR, 1938. — December (vol. 33, no. 204). — P. 657—674.
- ↑ Freund, J. F. Modern Elementary Statistics (неопр.) // Credo Reference. — 1988.
- ↑ 1 2 Уайт, 1964.
- ↑ Mark Twain. Chapters from My Autobiography . North American Review. Project Gutenberg (7 сентября 1906). Дата обращения: 23 мая 2007. Архивировано 7 апреля 2012 года.
Литература
править- Анализ статистический : [арх. 20 января 2023] / В. Г. Минашкин // Большая российская энциклопедия : [в 35 т.] / гл. ред. Ю. С. Осипов. — М. : Большая российская энциклопедия, 2004—2017.
- Карасёва Л. А. Статистика // Всемирная история экономической мысли: В 6 томах / Гл. ред. В. Н. Черковец. — М.: Мысль, 1987. — Т. I. От зарождения экономической мысли до первых теоретических систем политической жизни. — С. 484—494. — 606 с. — 20 000 экз. — ISBN 5-244-00038-1.
- Миклашевский И. Н. Статистика теоретическая // Энциклопедический словарь Брокгауза и Ефрона : в 86 т. (82 т. и 4 доп.). — СПб., 1890—1907.
- Норман Дрейпер, Гарри Смит. Прикладной регрессионный анализ. Множественная регрессия = Applied Regression Analysis. — 3-е изд. — М.: «Диалектика», 2007. — С. 912. — ISBN 0-471-17082-8.
- Орлов А. И. Прикладная статистика. Учебник. — М.: Экзамен, 2006. — 671 с.
- Дарелл Хафф. Как лгать при помощи статистики = How to Lie with Statistics. — М.: Альпина Паблишер, 2015. — 163 с. — ISBN 978-5-9614-5212-9.
- Глинский В. В., Ионин В. Г. Статистический анализ. — М.: Инфра-М, 2002. — 241 с. — (Высшее образование). — 5000 экз. — ISBN 5-16-001293-1.
- Кендалл М., Стьюарт А. Многомерный статистический анализ и временные ряды. — М.: Наука, 1976. — 736 с.
- Энциклопедия статистических терминов: Федеральная служба государственной статистики (в 8 томах)— М.: Эксмо, 2011. (онлайн-версии на сайте Росстата).
- White C. Unkind cuts at statisticians (англ.) // The American Statistician. — 1964. — Vol. 18, no. 5. — P. 15—17.
Ссылки
править- Статистика — статья из Большой советской энциклопедии.
- Статистика // Советская историческая энциклопедия
- Федеральная служба государственной статистики Российской Федерации — Росстат
- «Statisticians in World War II: They also served». The Economist, Dec 20th 2014