Сглаживающий сплайн

Сглаживающий сплайн (англ. smoothing spline) — оценка функции , полученная из набора зашумлённых наблюдений за исходными данными и используемая в дальнейших вычислениях для балансировки адекватности модели функции к с основанной на производной мере кривизной функции . Иными словами, сглаживающий сплайн является важным средством при работе с зашумленными данными типа , . Наиболее известным видом сглаживающего сплайна является кубический сплайн.

Определение кубического сплайна

править

Пусть   — последовательность наблюдений, порождённых выражением  . Приближение сглаживающими сплайнами   функции   определяется как функция (в классе дважды дифференцируемых функций), минимизирующая[1]

 

Замечания:

  1.   параметр сглаживания, контролирующий соотношение между точностью воспроизведения данных и «неровностью» аппроксимирующей функции.
  2. интеграл вычисляется по всему диапазону  .
  3. при   (нет сглаживания), сглаживающий сплайн превращается в интерполяционный сплайн.
  4. при   (бесконечное сглаживание), штраф за неровность становится преобладающим и аппроксимация превращается в линейную МНК аппроксимацию.
  5. наиболее часто в современной статистической литературе используется штраф за неровность на основе второй производной, однако метод может быть легко адаптирован к использованию штрафов на основе других производных.
  6. в ранней литературе, с равноудалёнными  , для вычисления штрафа вместо производной использовались конечные разности второго и третьего порядка.
  7. если сумму квадратов отклонений сплайна от исходных данных (первый член функционала) заменить на логарифм функции правдоподобия, получим оценку максимального правдоподобия со штрафной функцией. В такой постановке обычный сглаживающий сплайн представляет собой специальный случай, когда правдоподобие рассчитывается исходя из нормального распределения погрешности.

Вывод кубического сглаживающего сплайна

править

Разделим нахождение выражений, описывающих сглаживающий сплайн, на два этапа:

  1. Сначала найдём значения  .
  2. Из этих значений найдём   для всех x.

Начнём со второго этапа:

Дан вектор   «подогнанных» значений; сумма квадратов в критерии сплайна — константа. Требуется только минимизировать  , и минимизация — натуральный кубический сплайн, интерполирующий точки  . Данный интерполяционный сплайн — линейный оператор — может быть представлен в виде:

 ,

где   — набор базисных сплайн-функций. В результате штраф за отсутствие у функции признака гладкости имеет форму

 

где элементы A —  . Базисные функции и матрица A зависят от конфигурации независимых переменных  , но не от   или  .

Возвращаясь к первому этапу, взвешенная сумма квадратов может быть записана так:

 

где  . минимизация по   даёт

 

Создание многомерных сплайнов

править

Из приведённого ограничения на формулу из определения   следует, что алгоритм не работает для произвольного набора данных. Если планируется использование алгоритма для произвольного набора точек в многомерном пространстве необходим алгоритм, в котором нет таких ограничений. Возможное решение заключается во введении параметра таким образом, что входные данные могут быть представлены как одномерные функции, зависящие от данного параметра; после можно применить сглаживание для каждой функции. В двумерном пространстве решение состоит в параметризации   и   как   and   где  . Подходящее решение для   это накопленное расстояние   где  .[2][3]

Более детальный анализ параметризации выполнен E.T.Y Lee.[4]

Связанные методы

править

Сглаживающие сплайны имеют отношение, но отличаются от:

Исходный код

править

Исходный код для сглаживающих сплайнов может быть взят из примеров к книге Carl de Boor’s A Practical Guide to Splines. Примеры написаны на Фортране. Обновлённые исходные коды также доступны на официальном сайте Carl de Boor’s [1].

Примечания

править
  1. Hastie, T. J.; Tibshirani, R. J. Generalized Additive Models (неопр.). — Chapman and Hall, 1990. — ISBN 0-412-34390-8.
  2. Robert E. Smith Jr., Joseph M Price and Lona M. Howser. A Smoothing Algorithm Using Cubic Spline Functions. Дата обращения: 31 мая 2011. Архивировано из оригинала 14 сентября 2013 года.
  3. N. Y. Graham. Smoothing With Periodic Cubic Splines. Дата обращения: 31 мая 2011. Архивировано 14 сентября 2013 года.
  4. E.T.Y. Lee. Choosing nodes in parametric curve interpolation. Дата обращения: 28 июня 2011. Архивировано 14 сентября 2013 года.
  5. Ruppert, David; Wand, M. P. and Carroll, R. J. Semiparametric Regression (неопр.). — Cambridge University Press, 2003. — ISBN 0-521-78050-0.

Литература

править