В статистике регрессия Деминга, названная именем У. К. Деминга, — это вид регрессии с ошибками в переменных[en], которая пытается найти прямую наилучшего сглаживания для двумерного набора данных. Регрессия отличается от простой линейной регрессии[en] в том, что она принимает во внимание ошибки[en] в наблюдении как по оси x, так и по оси y. Регрессия является частным случаем метода наименьших полных квадратов, которая рассматривает любое число показателей и имеет более сложную структуру ошибок.

Двумерный случай метода наименьших полных квадратов (регрессия Деминга). Красные отрезки показывают ошибку как по x, так и по y, что отличается от традиционного метода наименьших квадратов, в котором ошибка измеряется только по оси y. Показан случай, когда отклонение измеряется перпендикулярно, что происходит, когда x и y имеют равные дисперсии.

Регрессия Деминга эквивалентна оценке максимального правдоподобия на модели с ошибками в переменных[en], в которой ошибки двух переменных считаются независимыми и имеют нормальное распределение, а отношение их дисперсий, δ, известно [1]. На практике это отношение может быть оценено из исходных данных. Однако процедура регрессии не принимает во внимание возможные ошибки в оценке отношений дисперсии.

Регрессия Деминга лишь слегка сложнее простой линейной регрессии[en]. Большинство статистических пакетов, используемых в клинической химии, предоставляют регрессию Деминга.

Модель первоначально была предложена Адкоком[2], который рассматривал случай δ = 1, а затем рассматривалась в более общем виде Куммеллем [3] с произвольным δ. Однако их идеи оставались большей частью незамеченными более 50 лет, пока их не возродил Купманс[4] и позднее распространил Деминг[5]. Книга последнего стала столь популярной в клинической химии и связанных областях, что метод в этих областях получил название регрессия Деминга[6].

Спецификация править

Предположим, что данные (yi, xi) являются значениями, полученными в ходе измерений "истинных" значений (yi*, xi*), которые лежат на регрессионной прямой:

 

где ошибки ε и η независимы и отношение их дисперсий, известно:

 

На практике дисперсии параметров   и   часто неизвестны, что усложняет оценку  . Заметим, что когда метод измерения   и   тот же самый, эти дисперсии, скорее всего, равны, так что в этом случае  .

Мы пытаемся найти прямую "наилучшего сглаживания"

 

такую, что взвешенная сумма квадратов остатков минимальна [7]

 

Решение править

Решение может быть выражено в терминах моментов второго порядка. То есть мы сначала вычисляем следующие величины (все суммы берутся по i = 1 : n):

 

Наконец, параметры оценки методом наименьших квадратов будут[8]:

 

Ортогональная регрессия править

В случае равенства дисперсий ошибок, т.е. в случае  , регрессия Деминга становится ортогональной регрессией — она минимизирует сумму квадратов расстояний от точек выборки до регрессионной прямой[en]*. В этом случае обозначим каждую точку выборки zj на комплексной плоскости (т.е. точка (xj, yj) выборки записывается как zj = xj + iyj, где iмнимая единица). Обозначим через Z сумму квадратов разностей от точек выборки до центра тяжести (также представленного в комплексных координатах). Центр тяжести — это среднее точек выборки. Тогда[9]:

  • Если Z = 0, то любая прямая, проходящая через центр тяжести, является прямой наилучшего ортогонального сглаживания.
  • Если Z ≠ 0, прямая наилучшего ортогонального сглаживания проходит через центр тяжести и параллельна вектору из начала координат в  .

Тригонометрическую интерпретацию прямой наилучшего ортогонального сглаживания дал Кулидж в 1913[10].

Приложения править

В случае трёх неколлинеарных точек на плоскости треугольник, образованный этими точками, имеет единственный вписанный эллипс Штейнера, который касается сторон треугольника в средних точках. Главная ось этого эллипса будет ортогональной регрессией этих трёх вершин[11].

Примечания править

  1. Linnet, 1993.
  2. Adcock, 1878.
  3. Kummell, 1879.
  4. Koopmans, 1937.
  5. Deming, 1943.
  6. Cornbleet, Gochman, 1979, с. 432–438.
  7. Fuller, 1987, с. ch.1.3.3.
  8. Glaister, 2001, с. 104-107.
  9. Minda, Phelps, 2008, с. 679–689, Theorem 2.3.
  10. Coolidge, 1913, с. 187–190.
  11. Minda, Phelps, 2008, с. 679–689, Corollary 2.4.

Литература править

  • R. J. Adcock. A problem in least squares // The Analyst. — Annals of Mathematics, 1878. — Т. 5, вып. 2. — С. 53–54. — doi:10.2307/2635758. — JSTOR 2635758.
  • J. L. Coolidge. Two geometrical applications of the mathematics of least squares // The American Mathematical Monthly. — 1913. — Т. 20, вып. 6. — С. 187–190. — doi:10.2307/2973072.
  • P.J. Cornbleet, N. Gochman. Incorrect Least–Squares Regression Coefficients // Clin. Chem.. — 1979. — Т. 25, вып. 3. — С. 432–438. — PMID 262186.
  • W. E. Deming. Statistical adjustment of data. — Wiley, NY (Dover Publications edition, 1985), 1943. — ISBN 0-486-64685-8.
  • Wayne A. Fuller. Measurement error models. — John Wiley & Sons, Inc, 1987. — ISBN 0-471-86187-1.
  • P. Glaister. Least squares revisited // The Mathematical Gazette. — 2001. — Вып. 85 March. — С. 104-107.
  • T. C. Koopmans. Linear regression analysis of economic time series. — DeErven F. Bohn, Haarlem, Netherlands, 1937.
  • C. H. Kummell. Reduction of observation equations which contain more than one observed quantity // The Analyst. — Annals of Mathematics, 1879. — Т. 6, вып. 4. — С. 97–105. — doi:10.2307/2635646. — JSTOR 2635646.
  • K. Linnet. Evaluation of regression procedures for method comparison studies // Clinical Chemistry. — 1993. — Т. 39, вып. 3. — С. 424–432. — PMID 8448852.
  • D. Minda, S. Phelps. Triangles, ellipses, and cubic polynomials // American Mathematical Monthly. — 2008. — Т. 115, вып. 8. — С. 679–689.