Проблема Гальтона

Проблема Гальтона, названная в честь сэра Фрэнсиса Гальтона, представляет собой проблему выведения заключений из кросс-культурных данных на основании статистического феномена, известного на сегодняшний день как сетевая автокорреляция. В настоящее время проблема признается проблемой общего характера, которая применяется ко всем неэкспериментальным исследованиям, а также к экспериментальному проектированию. Ее можно наиболее просто описать как проблему внешних зависимостей при проведении статистических расчетов, когда отобранные элементы не являются статистически независимыми. Если вы спросите двух людей в одном доме, например, о том, смотрят ли они телевизор, вы не получите статистически независимых ответов. Размер выборки, n, для независимых наблюдений в данном случае, это один, а не два. После внесения надлежащих регулировок, это уже будет касаться внешних зависимостей, а затем будут применяться аксиомы теории вероятностей относительно статистической зависимости. Такие аксиомы важны для установки критериев изменчивости (например) или проверки статистической значимости.

Происхождение править

В 1888 г. Гальтон присутствовал при представлении сэром Эдуардом Тайлором работы в Королевском антропологическом институте. Тайлор собрал информацию относительно институтов брака и наследования для 350 культур, а также исследовал корреляцию между данными институтами и уровнем развития структуры общества. Тайлор интерпретировал свои результаты в качестве указаний общей эволюционной последовательности, в которой институты изменяли фокус внимания с материнской линии на отцовскую линию при развитии социальной структуры общества. Гальтон с этим не согласился, указывая на то, что схожесть между культурами могла быть связана с заимствованием, общим происхождением или эволюционным развитием; он поддерживал идею о том, что не контролируя параметры заимствования и общего происхождения нельзя утверждать о надежных выводах относительно эволюционного развития. Критика Гальтона стала известна как одноименная Проблема Гальтона,[1]:175, как ее назвал Рауль Наролл,[2][3] который предложил первые статистические решения.

К началу XX века теория однолинейного эволюционизма была забыта, также как и получение непосредственных выводов из корреляций эволюционных последовательностей. Тем не менее, критика Гальтона подтвердила свою обоснованность для выведения функциональных связей из корреляций. Проблема автокорреляции все еще оставалась.

Решения править

В 1914 г. статистик Уильям С. Госсет разработал методы устранения ложной корреляции на основании того, как расположение во времени и пространстве влияет на степень сходства. Современные опросы населения относительно выборов свидетельствуют об аналогичной проблеме: чем ближе выборы, тем меньше людей мыслят независимо, и тем выше ненадежность результатов опросов, особенно предел погрешности или доверительные пределы. Эффективность n независимых случаев из их выборочной совокупности падает, когда выборы приближаются.

Статистическая значимость падает совместно с более низким эффективным размером выборки.

Проблема возникает при выборочных опросах, когда в целях сокращения времени на проведение интервью социологи разделяют население на местные кластеры, и проводят случайную выборку по кластерам, а затем снова проводят выборку внутри кластеров. Если они опрашивают n количество людей в кластере размера m, эффективный размер выборки (efs) будет иметь более низкий предел 1 + (n − 1) / m, если все в кластере являются идентичными. Если внутри кластера наблюдается только частичная схожесть, m в настоящей формуле соответствующим образом уменьшится. Формула настоящего типа 1 + d (n − 1), где d — это внутриклассовая корреляция для рассматриваемой статистики.[4]

В целом оценка соответствующего efs зависит от оцененной статистики, например, среднее значение, хи-квадрат, корреляция, коэффициент регрессии и их вариации. Для кросс-культурных исследований, Мардок и Уайт[5] оценили размер патчей сходств в своей выборке из 186 обществ. Четыре переменные, которые они исследовали — язык, экономика, политическая интеграция и наследование — имели патчи сходств, которые варьировались от размера 3 до размера 10. Эмпирическое правило может быть использовано для разделения квадратного корня из размеров патчей сходства на n, таким образом, что эффективные размеры выборки равны 58 и 107 для данных патчей, соответственно. И снова, статистическая значимость падает вместе с более низким эффективным размером выборки.

В современном анализе пространственные лаги моделируются для того, чтобы оценить уровень глобализации современных обществ.[6]

Пространственная корреляция, или автокорреляция, является фундаментальным понятием в географии. Разработанные географами методы, используемые для измерения и контроля за пространственной автокорреляцией[7][8], делают гораздо больше, чем просто сокращают эффективное значение n для проверки значимости корреляции. Один пример представляет собой усложненную гипотезу о том, что "наличие азартных игр в обществе прямо пропорционально наличию коммерческих денежных средств и наличию значительных социоэкономических различий и находится в обратной зависимости от того, является ли общество кочевым обществом, занимающимся пастушеством, или нет. Проверки данной гипотезы на выборке из 60 обществ не смогли опровергнуть нулевую гипотезу. Однако анализ автокорреляции продемонстрировал значительное влияние социоэкономических различий.[9]

Насколько распространенной является автокорреляция среди переменных, рассматриваемых в ходе кросс-культурного исследования? В ходе проверки Антона Эффа на 1700 переменных в совокупной базе данных для Стандартной кросс-культурной выборки, опубликованной в World Cultures, был измерен индекс Морана I для пространственной автокорреляции (расстояние), лингвистической автокорреляции (общее происхождение) и автокорреляции культурной сложности (основная эволюция). "Результаты предполагают, что … будет целесообразно провести проверку на пространственную и филогенетическую автокорреляцию при проведении анализа регрессии со Стандартной кросс-культурной выборкой ".[10]

Проиллюстрировано использование проверок автокорреляции в разведочных анализах данных, что отражает как переменные в данном исследовании могут быть оценены при отсутствии независимости случаев относительно расстояния, языка и культурной сложности. Методы для оценки данных эффектов автокорреляции затем объясняются и иллюстрируются для регрессии обычного метода наименьших квадратов с использованием измерения значимости индекса Морана I автокорреляции.

При наличии автокорреляции, ее зачастую можно устранить для получения неискаженной оценки коэффициентов регрессии и их переменных посредством построения переустановленной зависимой переменной, которая «запаздывает», посредством перевзвешиваний зависимой переменной в других местах, где вес является степенью родства. Такая запаздывающая зависимая переменная является эндогенной, а оценка требует использования либо двухэтапного метода наименьших квадратов, либо метода максимального правдоподобия.[11]

Ресурсы править

Общедоступный сервер, при внешнем использовании, по ссылке http://SocSciCompute.ss.uci.edu, предлагает этнографические данные, переменные и инструменты для выведения заключений с R-скриптами Дау (2007 г.) и Эффа и Дау (2009 г.) в поддерживаемых NSF проектах (http://getgalaxy.org) и (https://www.xsede.org) для преподавателей, студентов и исследователей для проведения Моделирования в рамках кросс-культурных исследований Семейства CoSSci (комплексных социальных наук), контролируя проблему Гальтона посредством использования переменных стандартной кросс-культурной выборки, доступной по ссылке https://web.archive.org/web/20160402201432/https://dl.dropboxusercontent.com/u/9256203/SCCScodebook.txt.

Возможности править

В антропологии, где проблема Тайлора была впервые признана статистиком Гальтоном в 1889 г., все еще не имеется широкого признания того, что существуют стандартные статистические регулировки для проблемы патчей сходства в наблюдаемых примерах, а также возможности новых открытий с использованием методов автокорреляции. Некоторые кросс-культурные исследователи (см., например, Коротаев и де Мунк, 2003)[12] приходят к выводу, что свидетельство распространения, исторического происхождения и другие источники сходства среди родственных обществ и личностей должны быть переименованы в Возможность Гальтона или Ресурс Гальтона, нежели называться проблемой Гальтона. Сейчас исследователи используют анализ продольных, кросс-культурных и региональных вариаций для стандартного исследования конкурирующих гипотез: функциональные связи, распространение, общее историческое происхождение, многолинейная эволюция, соадаптация со средой и динамика комплексного социального взаимодействия.[13]

Спорные вопросы править

В рамках антропологии проблема Гальтона зачастую приводится в качестве причины отказа от сравнительных исследований. Поскольку проблема имеет общий характер, единый для наук и статистических выводов в целом, такая конкретная критика кросс-культурных или сравнительных исследований — а их имеется много — логически говоря ведет к отказу от науки и статистики вместе взятых. Любые данные, собранные и проанализированные этнографами, например, точно также подпадают под действие проблемы Гальтона, понимаемой в самом широком смысле. Критика антисравнительной критики не ограничивается статистическим сравнением, так как она будет применяться и к анализу текста. То есть, анализ и использование текста в аргументации подпадает под действие критике касательно доказательной базы заключений. Расчет исключительно на риторику не является защитой от критики касательно действительности довода и его доказательной базы.

Однако едва ли имеются сомнения в том, что сообщество кросс-культурных исследователей небрежно игнорирует проблему Гальтона. Экспертные исследования данного вопроса демонстрируют результаты, которые «настоятельно предполагают, что обширные отчеты по наивным тестам на взаимную независимость хи-квадрат с использованием кросс-культурных данных, за последние несколько десятков лет привели к ошибочному отклонению нулевых теорий на уровнях, которые существенно превышают прогнозируемые 5 %».[14]:247

Исследователь заключает, что «Неправильные теории, которые были „сохранены“ за счет наивных тестов на взаимную независимость хи-квадрат с использованием сравнительных данных еще могут быть строго научно проверены в будущем».[14]:270И снова отрегулированная переменная кластерной выборки дается, как таковая, умноженная на 1 + d (k + 1), где k — это средний размер кластера, а более сложная корректировка дается, как переменная корреляции таблиц сопряженности с r рядами и cколонками. Так как настоящая критика была опубликована в 1993 г, а также иные высказывания, подобные ей, все больше авторов начали адаптировать корреляции для проблемы Гальтона, однако, большинство специалистов, работающих в кросс-культурной сфере, этого не делает. Соответственно, большая часть опубликованы результатов, которая полагается на наивные проверки значимости и адаптирует стандарт P < 0,05, а не P < 0,005, вероятно содержит ошибку, так как они более подвержены ошибке типа I, которая отклоняет нулевую гипотезу, когда она верна.

Некоторые кросс-культурные исследователи отвергают серьезность проблемы Гальтона, в связи с тем, что по их мнению, оценки корреляции и средние значения могу быть объективными даже в том случае, если имеется автокорреляция (неважно, слабая или сильная). Без исследования автокорреляции, однако, они все еще могут неправильно оценить статистические данные касательно взаимоотношений между переменными. При регрессивном анализе, например, исследование паттернов автокоррелированных остатков может дать важные ключи к третьим факторам, которые могут повлиять на взаимоотношения между переменными, но которые не были включены в регрессионную модель. Во-вторых, если в выборке имеются кластеры аналогичных или родственных обществ, измерения вариативности будут занижены, что приведет к получению ложных статистических выводов, например, преувеличению статистической значимости корреляций. В-третьих, недооценка вариативности затрудняет проверку на предмет репликации результатов их двух различных выборок, так как результаты зачастую будут отклоняться, как аналогичные.

Примечания править

  1. Stocking, George W. Jr. (1968). «Edward Burnett Tylor.» International Encyclopedia of the Social Sciences. David L. Sills, editor, New York, Mcmillan Company: v.16, pp. 170—177.
  2. Raoul Naroll. Two solutions to Galton's Problem (англ.) // Philosophy of Science : journal. — 1961. — Vol. 28. — P. 15—29. — doi:10.1086/287778.
  3. Raoul Naroll. Galton's problem: The logic of cross cultural research (англ.) // Social Research  (англ.) : journal. — 1965. — Vol. 32. — P. 428—451.
  4. Sample Size and Design Effect Архивировано 14 апреля 2006 года.
  5. George P. Murdock and Douglas R. White. Standard cross-cultural sample (неопр.) // Ethnology  (англ.). — 1969. — Т. 9. — С. 329—369.. Архивировано 12 октября 2009 года.
  6. Jahn, Detlef. Globalization as Galton's Problem: The Missing Link in the Analysis of the Diffusion Patterns in Welfare State Development (англ.) // International Organization  (англ.) : journal. — 2006. — Vol. 60, no. 2. — P. 401—431. — doi:10.1017/s0020818306060127. Архивировано 6 марта 2016 года. abstract
  7. Cliff, A.D., and J.K. Ord. 1973. Spatial Autocorrelation. London: Pion Press.
  8. Cliff, A.D. and J.K. Ord. 1981. Spatial Processes. London: Pion Press.
  9. Malcolm M. Dow, Michael L. Burton, Douglas R. White, and Karl P. Reitz. Galton's problem as network autocorrelation (неопр.) // American Ethnologist  (англ.). — 1984. — Т. 11, № 4. — С. 754—770. — doi:10.1525/ae.1984.11.4.02a00080.
  10. E. Anthon Eff. Does Mr. Galton still have a Problem? Autocorrelation in the Standard Cross-Cultural Sample (англ.) // World Cultures  (англ.) : journal. — 2004. — Vol. 15, no. 2. — P. 153—170. Архивировано 9 мая 2008 года.
  11. Anselin, Luc. 1988. Spatial Econometrics: Methods and Models. Dordrecht: Kluwer Academic Publishers.
  12. Andrey Korotayev and Victor de Munck. Galton's Asset and Flower's Problem: Cultural Networks and Cultural Units in Cross-Cultural Research (англ.) // American Anthropologist  (англ.) : journal. — 2003. — Vol. 105, no. 2. — P. 353—358. — doi:10.1525/aa.2003.105.2.353. Архивировано 1 апреля 2022 года.; Коротаев А. В. Проблема Гэлтона // Социальная структура / Мердок Дж. П. М.: ОГИ, 2003. С. 556—565; Проблема Гэлтона // Метод. 2017. № 7. С.100-112.
  13. Mace, Ruth; Pagel, Mark. The Comparative Method in Anthropology (англ.) // Current Anthropology  (англ.) : journal. — 1994. — Vol. 35, no. 5. — P. 549—564. — doi:10.1086/204317.
  14. 1 2 Malcolm M. Dow. Saving the theory: on chi-square tests with cross-cultural survey data (англ.) // Cross-Cultural Research  (англ.) : journal. — 1993. — Vol. 27, no. 3—4. — P. 247—276. — doi:10.1177/106939719302700305.