Гессиан функции

Гессиан функции — симметрическая квадратичная форма^[1], описывающая поведение функции во втором порядке.

Для функции $f$ , дважды дифференцируемой в точке $x\in \mathbb {R} ^{n}$

H(x)=\sum _{i=1}^{n}\sum _{j=1}^{n}a_{ij}x_{i}x_{j}

или

H(z)=\sum _{i=1}^{n}\sum _{j=1}^{n}a_{ij}z_{i}{\overline {z}}_{j}

где $a_{ij}=\partial ^{2}f/\partial x_{i}\partial x_{j}$ (или $a_{ij}=\partial ^{2}f/\partial z_{i}\partial {\overline {z}}_{j}$ ) и функция $f$ задана на $n$ -мерном вещественном пространстве $\mathbb {R} ^{n}$ (или комплексном пространстве $\mathbb {C} ^{n}$ ) с координатами $x_{1},\ldots ,x_{n}$ (или $z_{1},\ldots ,z_{n}$ ). В обоих случаях гессиан — квадратичная форма, заданная на касательном пространстве, не меняющаяся при линейных преобразованиях переменных. Гессианом также часто называют и определитель матрицы $(a_{ij}),$ см. ниже.

Матрица Гессе править

Матрица этой квадратичной формы образована вторыми частными производными функции. Если все производные существуют, то

H(f)={\begin{bmatrix}{\frac {\partial ^{2}f}{\partial x_{1}^{2}}}&{\frac {\partial ^{2}f}{\partial x_{1}\,\partial x_{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{1}\,\partial x_{n}}}\\\\{\frac {\partial ^{2}f}{\partial x_{2}\,\partial x_{1}}}&{\frac {\partial ^{2}f}{\partial x_{2}^{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{2}\,\partial x_{n}}}\\\\\vdots &\vdots &\ddots &\vdots \\\\{\frac {\partial ^{2}f}{\partial x_{n}\,\partial x_{1}}}&{\frac {\partial ^{2}f}{\partial x_{n}\,\partial x_{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{n}^{2}}}\end{bmatrix}}

Определитель этой матрицы называется определителем Гессе, или просто гессианом^{[источник не указан 4150 дней]}.

Матрицы Гессе используются в задачах оптимизации методом Ньютона. Полное вычисление матрицы Гессе может быть затруднительно, поэтому были разработаны квазиньютоновские алгоритмы, основанные на приближённых выражениях для матрицы Гессе. Наиболее известный из них — алгоритм Бройдена — Флетчера — Гольдфарба — Шанно.

Симметрия матрицы Гессе править

Смешанные производные функции f — это элементы матрицы Гессе, стоящие не на главной диагонали. Если они непрерывны, то порядок дифференцирования не важен:

{\frac {\partial }{\partial x_{i}}}\left({\frac {\partial f}{\partial x_{j}}}\right)={\frac {\partial }{\partial x_{j}}}\left({\frac {\partial f}{\partial x_{i}}}\right)

Это можно также записать как

f_{x_{i}x_{j}}=f_{x_{j}x_{i}},\quad \forall i,j\in \{1,\ldots ,n\}.

В этом случае матрица Гессе симметрична.

Критические точки функции править

Если градиент $f$ (её векторная производная) равен нулю в некоторой точке $x_{0}$ , то эта точка называется критической. Достаточным условием существования экстремума в этой точке является знакоопределённость гессиана f (понимаемого в данном случае как квадратичная форма), а именно:

если гессиан положительно определён, то $x_{0}$ — точка локального минимума функции $f(x)$ ,
если гессиан отрицательно определён, то $x_{0}$ — точка локального максимума функции $f(x)$ ,
если гессиан не является знакоопределённым (принимает как положительные, так и отрицательные значения) и невырожден $(\det H(f)\neq 0)$ , то $x_{0}$ — седловая точка функции $f(x)$ .

Вариации и обобщения править

Вектор-функции править

Если $f$ — вектор-функция, то есть

f=(f_{1},f_{2},\dots ,f_{n}),

то её вторые частные производные образуют не матрицу, а тензор ранга 3, который можно рассматривать как массив из $n$ матриц Гессе:

H(f)=\left(H(f_{1}),\ldots ,H(f_{n})\right).

При $n=1$ данный тензор вырождается в обычную матрицу Гессе.

Окаймлённый гессиан править

При решении задачи нахождения условного экстремума функции $f:\mathbb {R} ^{n}\rightarrow \mathbb {R}$ с ограничениями

\left\{{\begin{array}{c}g_{1}(x)=0,\\\vdots \\g_{m}(x)=0,\end{array}}\right.

где $x\in \mathbb {R} ^{n}$ , $m<n$ , для проверки достаточных условий экстремума можно использовать так называемый окаймлённый гессиан функции Лагранжа $L(x,\lambda )$ , который будет иметь вид^[2]

\left({\begin{array}{cc}{\dfrac {\partial ^{2}L}{\partial x^{2}}}&{\dfrac {\partial ^{2}L}{\partial x\partial \lambda }}\\\left({\dfrac {\partial ^{2}L}{\partial x\partial \lambda }}\right)^{\mathrm {T} }&{\dfrac {\partial ^{2}L}{\partial \lambda ^{2}}}\end{array}}\right)=\left({\begin{array}{cccccc}{\dfrac {\partial ^{2}L}{\partial x_{1}^{2}}}&\ldots &{\dfrac {\partial ^{2}L}{\partial x_{1}\partial x_{n}}}&{\dfrac {\partial g_{1}}{\partial x_{1}}}&\ldots &{\dfrac {\partial g_{m}}{\partial x_{1}}}\\\vdots &\ddots &\vdots &\vdots &\ddots &\vdots \\{\dfrac {\partial ^{2}L}{\partial x_{n}\partial x_{1}}}&\ldots &{\dfrac {\partial ^{2}L}{\partial x_{n}^{2}}}&{\dfrac {\partial g_{1}}{\partial x_{n}}}&\ldots &{\dfrac {\partial g_{m}}{\partial x_{n}}}\\{\dfrac {\partial g_{1}}{\partial x_{1}}}&\ldots &{\dfrac {\partial g_{1}}{\partial x_{n}}}&0&\ldots &0\\\vdots &\ddots &\vdots &\vdots &\ddots &\vdots \\{\dfrac {\partial g_{m}}{\partial x_{1}}}&\ldots &{\dfrac {\partial g_{m}}{\partial x_{n}}}&0&\ldots &0\end{array}}\right).

Проверка достаточных условий экстремума заключается в вычислении знаков детерминантов определённого набора подматриц окаймлённого гессиана. Именно, если существуют $x^{*}\in \mathbb {R} ^{n}$ и $\lambda ^{*}\in \mathbb {R} ^{m}$ такие, что $\nabla L(x^{*},\lambda ^{*})=0$ и

(-1)^{m}{\mbox{det}}\left({\begin{array}{cccccc}{\dfrac {\partial ^{2}L}{\partial x_{1}^{2}}}&\ldots &{\dfrac {\partial ^{2}L}{\partial x_{1}\partial x_{p}}}&{\dfrac {\partial g_{1}}{\partial x_{1}}}&\ldots &{\dfrac {\partial g_{m}}{\partial x_{1}}}\\\vdots &\ddots &\vdots &\vdots &\ddots &\vdots \\{\dfrac {\partial ^{2}L}{\partial x_{p}\partial x_{1}}}&\ldots &{\dfrac {\partial ^{2}L}{\partial x_{p}^{2}}}&{\dfrac {\partial g_{1}}{\partial x_{p}}}&\ldots &{\dfrac {\partial g_{m}}{\partial x_{p}}}\\{\dfrac {\partial g_{1}}{\partial x_{1}}}&\ldots &{\dfrac {\partial g_{1}}{\partial x_{p}}}&0&\ldots &0\\\vdots &\ddots &\vdots &\vdots &\ddots &\vdots \\{\dfrac {\partial g_{m}}{\partial x_{1}}}&\ldots &{\dfrac {\partial g_{m}}{\partial x_{p}}}&0&\ldots &0\end{array}}\right)>0

для $p=m+1,\ldots ,n$ , то в точке $x^{*}$ функция $f$ имеет строгий условный минимум. Если же

(-1)^{p}{\mbox{det}}\left({\begin{array}{cccccc}{\dfrac {\partial ^{2}L}{\partial x_{1}^{2}}}&\ldots &{\dfrac {\partial ^{2}L}{\partial x_{1}\partial x_{p}}}&{\dfrac {\partial g_{1}}{\partial x_{1}}}&\ldots &{\dfrac {\partial g_{m}}{\partial x_{1}}}\\\vdots &\ddots &\vdots &\vdots &\ddots &\vdots \\{\dfrac {\partial ^{2}L}{\partial x_{p}\partial x_{1}}}&\ldots &{\dfrac {\partial ^{2}L}{\partial x_{p}^{2}}}&{\dfrac {\partial g_{1}}{\partial x_{p}}}&\ldots &{\dfrac {\partial g_{m}}{\partial x_{p}}}\\{\dfrac {\partial g_{1}}{\partial x_{1}}}&\ldots &{\dfrac {\partial g_{1}}{\partial x_{p}}}&0&\ldots &0\\\vdots &\ddots &\vdots &\vdots &\ddots &\vdots \\{\dfrac {\partial g_{m}}{\partial x_{1}}}&\ldots &{\dfrac {\partial g_{m}}{\partial x_{p}}}&0&\ldots &0\end{array}}\right)>0

для $p=m+1,\ldots ,n$ , то в точке $x^{*}$ функция $f$ имеет строгий условный максимум^[3].

История править

Понятие введено Людвигом Отто Гессе (1844), который использовал другое название. Термин «гессиан» был введён Джеймсом Джозефом Сильвестром.

См. также править

Якобиан
Критическая точка (математика)
Лемма Морса
Критерий Сильвестра — критерий положительной или отрицательной определённости квадратной матрицы

Примечания править

↑ Гессиан (неопр.). Дата обращения: 2 апреля 2016. Архивировано 15 апреля 2016 года.
↑ Hallam, Arne Econ 500: Quantitative Methods in Economic Analysis I (неопр.). Iowa State (7 октября 2004). Дата обращения: 14 апреля 2021. Архивировано 19 апреля 2021 года.
↑ Neudecker, Heinz. Matrix Differential Calculus with Applications in Statistics and Econometrics / Heinz Neudecker, Jan R. Magnus. — New York : John Wiley & Sons, 1988. — P. 136. — ISBN 978-0-471-91516-4.

Ссылки править

Камынин Л.И. Математический анализ. Т. 1, 2. - 2001.
Кудрявцев Л.Д «Краткий курс математического анализа. Т.2. Дифференциальное и интегральное исчисления функций многих переменных. Гармонический анализ», ФИЗМАТЛИТ, 2002, — 424 с. — ISBN 5-9221-0185-4. Или любое другое издание.
Голубицкий М., Гийемин В. Устойчивые отображения и их особенности, — М.: Мир, 1977.

[1] Гессиан (неопр.). Дата обращения: 2 апреля 2016. Архивировано 15 апреля 2016 года.

[2] Hallam, Arne Econ 500: Quantitative Methods in Economic Analysis I (неопр.). Iowa State (7 октября 2004). Дата обращения: 14 апреля 2021. Архивировано 19 апреля 2021 года.

[3] Neudecker, Heinz. Matrix Differential Calculus with Applications in Statistics and Econometrics / Heinz Neudecker, Jan R. Magnus. — New York : John Wiley & Sons, 1988. — P. 136. — ISBN 978-0-471-91516-4.

[1]

[2]

[3]