Геометрический центр дискретного множества точек евклидова пространства (говоря статистическим языком — выборки) — это точка, в которой минимизируется сумма расстояний до точек множества. Геометрический центр обобщает медиану в математической статистике, которая минимизирует расстояния в одномерной выборке данных. Таким образом, геометрический центр отражает центральную тенденцию в пространствах высокой размерности. Понятие известно также по названиям 1-медиана [1], пространственная медиана[2], или точка Торричелли[3].

Геометрический центр является важной оценочной функцией сдвига в статистике[4], в которой это понятие известно как оценка L1[5]. Поиск геометрического центра является также стандартной задачей при размещении объектов, где моделируется расположение объектов (производства или потребления) с целью минимизации транспортных расходов[6]

Специальный случай задачи для трёх точек на плоскости (то есть m=3 и n=2 в терминах, описанных ниже) иногда описывается как задача Ферма. Она возникает при построении минимальных деревьев Штейнера и впервые была поставлена как задача Пьером Ферма, а решил её Эванджелиста Торричелли[7]. Решение этой задачи известно теперь как точка Ферма треугольника[8]. В свою очередь, поиск геометрического центра можно обобщить до задачи минимизации суммы взвешенных расстояний. Эта задача известна как задача Вебера, поскольку Альфред Вебер обсуждал эту задачу в книге 1909 года по вопросам размещения объектов[2]. Некоторые источники вместо этого используют название задача Ферма – Вебера[9], но некоторые источники используют то же название для невзвешенной задачи[10]

Весоловский[11] дал обзор задачи геометрического центра. Смотрите статью Фекете, Мичела и Бойера[12] с обсуждением обобщения задачи для случая недискретных множеств.

Определение править

Формально, если задано множество, содержащее m точек  , где все  , геометрический центр определяется как

Геометрический центр  

Заметьте, что здесь arg min означает значение аргумента  , на котором достигается минимальная сумма. Это точка  , для которой сумма всех евклидовых расстояний до  , минимально.

Свойства править

  • Для случая одномерного пространства медиана является геометрическим центром (если точек чётное число, геометрический центр может быть не единственным). Это потому, что одномерная медиана минимизирует сумму расстояний до точек[13].
  • Геометрический центр является единственным для всех случаев, когда точки не коллинеарны[14].
  • Геометрический центр эквивариантен[en] для евклидового подобия, параллельного переноса и поворота[5][13]. Это означает, что получится один и тот же результат, если найти образ центра при преобразовании, либо, применив то же преобразование ко всем точкам выборки, а затем уже найдя геометрический центр. Это свойство вытекает из факта, что геометрический центр определяется лишь исходя из попарных расстояний и не зависит от системы ортогональных декартовых координат. Для контраста, покомпонентная медиана для многомерных данных при вращении, в общем случае, не является инвариантом и зависит от выбора координат[5].
  • Геометрический центр имеет точку срыва[en] 0,5[5]. То есть до половины данных выборки могут быть недостоверными, но геометрический центр выборки остаётся устойчивой оценкой положения неиспорченных данных.

Специальные случаи править

  • Для 3 (неколлинеарных) точек, если какой-либо из углов треугольника с вершинами в этих точках составляет 120° или больше, то геометрический центр — это вершина этого угла. Если все углы меньше 120°, геометрический центр — это точка внутри треугольника, которая составляет угол 120° с любой парой вершин треугольника[13]. Эта точка известна как точка Ферма треугольника (если три точки коллинеарны, то геометрический центр совпадает с точкой, которая лежит между двумя другими).
  • Для 4 копланарных точек, если одна из четырёх точек лежит внутри треугольника, образованного тремя другими точками, геометрическим местом будет эта внутренняя точка. В противном случае четыре точки образуют выпуклый четырёхугольник, и геометрическим центром служит точка пересечения диагоналей четырёхугольника. Геометрический центр четырёх копланарных точек — это то же самое, что и единственная точка Радона для четырёх точек[15].

Вычисление править

Несмотря на то, что понятие геометрического центра является простым для понимания, его вычисление вызывает трудности. Центроид треугольника (то есть его центр масс), определяемый аналогично геометрическому центру как минимизация суммы квадратов расстояний до каждой точки, может быть получен с помощью простых формул — его координаты являются средним арифметическим координат точек. Однако такой простой формулы для геометрического центра не известно. Даже было показано, что не существует ни явной формулы[en], ни точного алгоритма, использующего только арифметические операции и операции извлечения корней. Таким образом, существуют только аппроксимации для решения данной задачи[16].

Однако можно вычислить приближение к геометрическому центру, используя итеративную процедуру, в которой каждый шаг даёт более точное приближение. Процедуры этого типа могут получены из того факта, что сумма расстояний до точек выборки является выпуклой функцией, поскольку расстояние до каждой точки выборки является выпуклой функцией, а сумма выпуклых функций также является выпуклой функцией. Таким образом, процедура уменьшения суммы расстояний не может попасть в локальный оптимум[en].

Один из подходов такого рода — алгоритм Вайсфельда (Андре Вайсфельд[en])[17][18][19] является видом итерационного взвешенного метода наименьших квадратов[en] с меняющимися весами. Этот алгоритм задаёт множество весов, которые обратно пропорциональны расстояниям до текущего приближения, и вычисляет новое приближение, являющееся средним взвешенным точек выборки согласно этим весам. То есть

 

Метод сходится почти со всех начальных положений, но может завершиться неудачей, если приближение оказывается в одной из точек выборки. Алгоритм можно модифицировать таким образом, что он будет сходиться для всех начальных точек[14].

Бозе, Магешвари и Морин[10] описали более изощрённую процедуру оптимизации для поиска приблизительного оптимального решения данной задачи. Как показали Не, Паррило и Стармфилс[20], задачу можно представить как задачу полуопределённого программирования.

Коэн, Ли, Миллер и Пачоки[21] показали, как вычислить геометрический центр с произвольной точностью за почти линейное время.

Описание геометрического центра править

Если точка y отлична от всех заданных точек выборки xj, то y является геометрическим центром тогда и только тогда, когда

 

Это эквивалентно

 

что тесно связано с алгоритмом Вайсфельда.

В общем случае y является геометрическим центром тогда и только тогда, когда существуют вектора uj, такие, что

 

где для xjy,

 

а для xj=y,

 

Эквивалентная формулировка этого условия

 

Обобщения править

Геометрический центр можно обобщить с евклидовых пространств до общих римановых многообразий (и даже метрических пространств), используя ту же идею, что используется для определения среднего Фреше[en] на римановых многообразиях[22]. Пусть   — риманово многообразие с функцией расстояния  , пусть    весов, в сумме дающих 1, и пусть    наблюдений из  . Тогда мы определяем взвешенный геометрический центр   (или взвешенное среднее Фреше) точек данных

 .

Если все веса равны, мы говорим, что   является геометрическим центром.

Примечания править

  1. Более общая задача о k-медиане задаёт вопрос о положении k центров, минимизирующих сумму расстояний от каждой точки множества до ближайшего центра.
  2. 1 2 Drezner, Klamroth, Schöbel, Wesolowsky, 2002.
  3. Cieslik, 2006.
  4. Lawera, Thompson, 1993.
  5. 1 2 3 4 Lopuhaä, Rousseeuw, 1991.
  6. Eiselt, Marianov, 2011.
  7. Krarup, Vajda, 1997.
  8. Spain, 1996.
  9. Brimberg, 1995.
  10. 1 2 Bose, Maheshwari, Morin, 2003.
  11. Wesolowsky, 1993.
  12. Fekete, Mitchell, Beurer, 2005.
  13. 1 2 3 Haldane, 1948.
  14. 1 2 Vardi, Zhang, 2000.
  15. Cieslik, 2006;Plastria, 2006. Выпуклый случай первым доказал Джованни Фаньяно[en].
  16. Bajaj, 1986; Bajaj, 1988. Ранее Кокейн и Мельцак Cockayne, Melzak, 1969 доказали, что точка Штейнера для 5 точек на плоскости не может быть построена с помощью циркуля и линейки
  17. Weiszfeld, 1937.
  18. Kuhn, 1973.
  19. Chandrasekaran, Tamir, 1989.
  20. Nie, Parrilo, Sturmfels, 2008.
  21. Cohen, Lee, Miller, Pachocki, Sidford, 2016.
  22. Fletcher, Venkatasubramanian, Joshi, 2009.

Литература править