Расстояние Кульбака — Лейблера: различия между версиями

стилевые правки: улучшены формулы
Метка: редактор вики-текста 2017
(стилевые правки: улучшены формулы)
Метка: редактор вики-текста 2017
'''Расстояние (расхождение, дивергенция) Ку́льбака — Ле́йблера''' ({{lang-en|Kullback–Leibler divergence}}), '''РКЛ''', '''''информационное расхождение''''', '''''различающая информация''''', '''''информационный выигрыш''''', '''''относительная энтропия''''' ({{lang-en|relative entropy}})<ref name=":0">{{Книга|автор=Kullback S.|заглавие=Information Theory and Statistics|ответственный=|издание=|место=|издательство=John Wiley & Sons|год=1959|страницы=|страниц=|isbn=}}</ref> — неотрицательнозначный функционал, являющийся несимметричной мерой удалённости друг от друга двух [[Распределение вероятностей|вероятностных распределений]]<ref>''Kullback S., Leibler R.A.'' On information and sufficiency // The Annals of Mathematical Statistics. 1951. V.22. № 1. P. 79-86.</ref>, определённых на общем [[Пространство элементарных событий|пространстве элементарных событий]]. Часто применяется в [[Теория информации|теории информации]] и [[Математическая статистика|математической статистике]].
 
Расхождение Кульбака — Лейблера распределения <math>Q</math> относительно <math>P</math> (или, условно говоря, «расстояние от <math>P</math> до <math>Q</math>») обозначается <math>D_{\mathrm{KL}}(P\|parallel Q)</math>. Первый аргумент функционала (распределение <math>P</math>) обычно интерпретируется как истинное или [[Априорная вероятность|постулируемое априори распределение]], второй (распределение <math>Q</math>) — как [[Апостериорная вероятность|предполагаемое]] (проверяемое). Распределение <math>Q</math> часто служит приближением распределения <math>P</math>. Значение функционала можно понимать как количество неучтённой информации распределения <math>P</math>, если <math>Q</math> было использовано для приближения <math>P</math>. Данная мера расстояния в [[Теория информации|теории информации]] также интерпретируется как величина потерь информации при замене истинного распределения <math>P</math> на распределение <math>Q</math>.
 
В общем случае, если <math>\mu</math> — любая [[мера множества|мера]] на <math>X</math>, для которой существуют абсолютно непрерывные относительно <math>\mu</math> функции <math>p = \frac{{\rm d}P}{{\rm d}\mu}</math> и <math>q = \frac{{\rm d}Q}{{\rm d}\mu}</math>, тогда расхождение Кульбака — Лейблера распределения <math>Q</math> относительно <math>P</math> определяется как
 
: <math>D_{\mathrm{KL}}(P\|parallel Q) = \int_X p \, \log \frac{p}{q} \, {\rm d}\mu</math>.
 
Основание логарифма в этой формуле существенной роли не играет. Его выбор позволяет зафиксировать конкретный вид функционала из семейства эквивалентных функционалов и равносилен выбору единицы измерения расхождения Кульбака — Лейблера (подобно ситуации с вычислением [[Информационная энтропия|энтропии]]), поэтому возможно применение логарифма с любым основанием, большим единицы. Другими словами, функционал определён с точностью до положительного постоянного сомножителя. Наиболее употребительными являются натуральный логарифм (по соображениям удобства), а также двоичный логарифм — для измерения расхождения в [[бит]]ах (обычно используется в [[Теория информации|теории информации]]). Расхождение Кульбака — Лейблера является [[Безразмерная величина|безразмерной величиной]] независимо от [[Размерность физической величины|размерности]] исходных случайных величин.
 
Хотя расстояние Кульбака — Лейблера (РКЛ) часто рассматривается как способ измерения расстояния между вероятностными распределениями, данный функционал не является [[Метрическое пространство|метрикой]] в пространстве распределений, поскольку не удовлетворяет [[Неравенство треугольника|неравенству треугольника]] и не удовлетворяет аксиоме симметричности: <math>D_{\mathrm{KL}}(P\|parallel Q) \neq D_{\mathrm{KL}}(Q||\parallel P)</math>. Тем не менее, его инфинитезимальная форма, особенно его [[Гессиан функции|Гессиан]], дает [[метрический тензор]], который известен как [[#Отношение к метрикам|информационная метрика Фишера]].
 
Расстояние Кульбака — Лейблера — это частный случай более общего класса расхождений, которые называются ''f''-расхождения, а также частный случай класса расхождений Брегмана. РКЛ — это единственное расхождение вероятностей, которое принадлежит и тому, и другому классу.
РКЛ изначально было представлено Соломоном Кульбаком и Ричардом Лейблером в 1951 как направленное расхождение между двумя распределениями. Это обсуждается в тексте Кульбака «Информационная теория и статистика».<ref name=":0" />
 
Расстояние Кульбака — Лейблера <math>D_{\mathrm{KL}}(P\|parallel Q)</math> иногда также интерпретируют как информационный выигрыш, достигнутый, если <math>P</math> использовано вместо <math>Q</math>. Иногда для РКЛ используют название (правда, вносящее путаницу) '''относительная энтропия''' <math>P</math> относительно <math>Q</math>, обозначается <math>H(P|\mid Q)</math>.
 
Существуют различные соглашения относительно того, как читать обозначение<math>D_{\mathrm{KL}}(P\|parallel Q)</math>. Часто его называют просто расхождением между <math>P</math> и <math>Q</math>, однако это не позволяет передать фундаментальную асимметрию в соотношении. Иногда это может быть описано как расхождение <math>P</math> из (относительно) <math>Q</math> (чаще в контексте относительной энтропии или информационного выигрыша). В этой статье мы используем обозначение <math>D_{\mathrm{KL}}(P\|parallel Q)</math>, которое читается как расхождение <math>Q</math> относительно <math>P</math> (или, условно говоря, «расстояние из <math>P</math> в <math>Q</math>»). Такое соглашение представляется более удачным, так как именно <math>P</math> считается истинным распределением (исходной точкой для отсчёта расстояния) и [[математическое ожидание]] берётся относительно него, а <math>Q</math> — отличное от него распределение, например, аппроксимация <math>P</math>.
 
== Частные определения и определения через производную Радона—Никодима ==
Для дискретных вероятностных распределений <math>P</math> и <math>Q</math> с числом [[Пространство элементарных событий|элементарных событий]] <math>n</math> расхождение Кульбака — Лейблера распределения <math>Q</math> относительно распределения <math>P</math> (или «расстояние от <math>P</math> до <math>Q</math>») определяется<ref>{{Книга|автор=MacKay, David J.C.|заглавие=Information Theory, Inference, and Learning Algorithms|ответственный=|издание=First ed.|место=|издательство=Cambridge University Press|год=2003|страницы=p. 34|страниц=|isbn=}}</ref> как:
 
: <math>D_{KL}(P||\parallel Q) = \sum\limits_{i=1}^n p_i \log \frac{p_i}{q_i}</math>.
 
Другими словами, это [[математическое ожидание]] логарифмической разности между вероятностями <math>p</math> и <math>q</math>, где математическое ожидание берётся по распределению <math>P</math>. [[Расстояние Кульбака — Лейблера|РКЛ]] определено, только если <math>q_i=0 \Rightarrow p_i=0</math>, для всех <math>i=1,...,n</math> ([[абсолютная непрерывность]]). Всякий раз, когда <math>p_i=0</math>, вклад <math>i</math>-го члена интерпретируется как ноль, потому что <math>\lim_{x \to 0} x \log(x) = 0</math>.
Для <math>k</math>-мерных [[Непрерывная случайная величина|абсолютно непрерывных распределений]] <math>P</math> и <math>Q</math> расстояние Кульбака — Лейблера задаётся выражением<ref>{{Книга|автор=Bishop C.|заглавие=Pattern Recognition and Machine Learning|ответственный=|издание=|место=|издательство=|год=2006|страницы=p. 55|страниц=|isbn=}}</ref>
 
: <math>D_{\mathrm{KL}}(P\|parallel Q) = \int_X \, p(x)\log\frac{p(x)}{q(x)} \, {\rm d}x</math>,
где <math>p(x)</math> и <math>q(x)</math> — [[Плотность вероятности|функции плотности распределений]] <math>P</math> и <math>Q</math> соответственно, определённые на интервале <math>X \subseteq R^k</math>.
 
В более общем смысле, если <math>P</math> и <math>Q</math> — вероятностные меры на множестве <math>X</math>, и <math>P</math> абсолютно непрерывна относительно <math>Q</math>, тогда РКЛ от <math>P</math> до <math>Q</math> определено как:
 
: <math>D_{\mathrm{KL}}(P\|parallel Q) = \int_X \log\frac{{\rm d}P}{{\rm d}Q} \, {\rm d}P</math>,
 
где <math>\frac{{\rm d}P}{{\rm d}Q}</math> — это [[Производная Радона — Никодима|производная Радона—Никодима]] <math>P</math> относительно <math>Q</math>, и при условии, что выражение справа существует. Эквивалентно это может быть записано как
 
: <math>D_{\mathrm{KL}}(P\|parallel Q) = \int_X \log\!\left(\frac{{\rm d}P}{{\rm d}Q}\right) \frac{{\rm d}P}{{\rm d}Q} \, {\rm d}Q</math>,
что напоминает выражение для [[Дифференциальная энтропия|дифференциальной энтропии]], взятой со знаком минус (впрочем, сходство здесь лишь формальное).
 
<math display="inline">
\begin{matrix}
D_{\mathrm{KL}}(P\|parallel Q) = -\sum_x p(x) \log q(x) + \sum_x p(x) \log p(x) = H(P,Q)-H(P)\, \!
\end{matrix}</math>, где <math>H(P,Q
)</math> — [[Перекрёстная энтропия|перекрестная энтропия]] P и Q, <math>H(P)</math> — [[Информационная энтропия|энтропия]] P.
 
== Свойства ==
* Расстояние Кульбака — Лейблера всегда неотрицательно, <math>D_{\mathrm{KL}}(P\|parallel Q) \geq 0,</math>это результат, который известен как [[:en:Gibbs' inequality|неравенство Гиббса]], <math>D_{KL}(P||\parallel Q)=0 \iff P=Q</math> [[почти всюду]]. Энтропия H(P), таким образом, задаёт минимальное значение перекрестной энтропии H(P,Q), ожидаемое число дополнительных битов, требуемых когда используется код, основанный на Q, а не на P. Поэтому РКЛ представляет собой ожидаемое число дополнительных битов, которые должны быть переданы, чтобы определить значение <math>x\subset X</math>, если используется код, соответствующий распределению вероятностей Q, а не «истинному» распределения P.
* Расстояние Кульбака — Лейблера не симметрично: <math>D_{\mathrm{KL}}(P\|parallel Q) \neq D_{\mathrm{KL}}(Q||\parallel P)</math>.
 
* Расстояние Кульбака — Лейблера остается строго определенным для непрерывных распределений, и кроме того инвариантно относительно замены переменных. Например, если сделана замена переменной x на переменную y(x), тогда, так как <math>P(x)dx=P(y)dy</math> и <math>Q(x)dx=Q(y)</math>, РКЛ может переписано:
<math display="inline">D_{\mathrm{KL}}(P\|parallel Q)
= \int_{x_a}^{x_b}P(x)\log\left(\frac{P(x)}{Q(x)}\right)\,dx
= \int_{y_a}^{y_b}P(y)\log\left(\frac{P(y)dy/dx}{Q(y)dy/dx}\right)\,dy
 
где <math>y_a=y(x_a)</math> и <math>y_b=y(x_b)</math>. Несмотря на предположение, что преобразование было непрерывным, это не необходимо в данном случае. Это также показывает, что РКЛ задаёт величину [[Анализ размерности|согласованную с размерностью]], так как если x — размерная переменная, то P(x) и Q(x) также имеют размерность, так как <math>P(x)dx</math> является безрамерной величиной. Тем не менее, выражение под логарифмом остаётся безразмерным, как и должно. Поэтому расстояние Кульбака — Лейблера можно рассматривать, в некотором смысле, как более фундаментальную величину, чем некоторые другие свойства в теории информации<ref>{{Cite web|url=http://videolectures.net/nips09_verdu_re/|title=Relative Entropy|publisher=videolectures.net|accessdate=2016-06-14}}</ref> (такие как [[собственная информация]] или [[энтропия Шеннона]]), которые могут стать неопределёнными или отрицательными для недискретных вероятностей.
* РКЛ аддитивна для независимых распределений во многом таким же образом, как энтропия Шеннона. Если <math>P_1, P_2</math> являются независимыми распределениями с совместным распределением <math>P(x,y) = P_1(x)P_2(y)</math> и, аналогично, <math>Q(x,y) = Q_1(x)Q_2(y)</math>, то <math>D_{\mathrm{KL}}(P \|parallel Q) = D_{\mathrm{KL}}(P_1 \|parallel Q_1) + D_{\mathrm{KL}}(P_2 \|parallel Q_2).</math>
 
== Расстояние Кульбака — Лейблера для многомерного нормального распределения ==
Допустим, что мы имеем два [[Многомерное нормальное распределение|многомерных нормальных распределения]], со средними <math>\mu_0, \mu_1</math> и с (обратимыми) [[Ковариационная матрица|матрицами ковариаций]] <math>\Sigma_0, \Sigma_1</math>. Если два распределения имеют одинаковую размерность k, то РКЛ между распределениями следующее<ref>{{Статья|автор=Duchi J.|заглавие="Derivations for Linear Algebra and Optimization"|ссылка=|язык=|издание=|тип=|год=|месяц=|число=|том=|номер=|страницы=13|issn=}}</ref>:
 
<math>D_\text{KL}(\mathcal{N}_0 \|parallel \mathcal{N}_1) = { 1 \over 2 } \left( \mathrm{tr} \left( \Sigma_1^{-1} \Sigma_0 \right) + \left( \mu_1 - \mu_0\right)^\top \Sigma_1^{-1} ( \mu_1 - \mu_0 ) - k + \ln \left( { \det \Sigma_1 \over \det \Sigma_0 } \right) \right).</math>
 
Логарифм в последнем члене должен быть взят по основанию e, так как все члены, кроме последнего, являются натуральными логарифмами выражений, которые являются либо любыми множителями функции плотности, либо, в противном случае, возникают естественным образом. Поэтому уравнение дает результат, измеряемый в [[Нат (теория информации)|натах]]. Целиком разделив это выражение на log<sub>e</sub>2, получим распределение в битах.
 
== Отношение к метрикам ==
Можно было бы назвать РКЛ «[[Метрическое пространство|метрикой]]» в пространстве вероятностных распределений, но это было бы некорректно, так как оно не симметрично<math>D_{\mathrm{KL}}(P\|parallel Q) \neq D_{\mathrm{KL}}(Q||\parallel P)</math>, и не удовлетворяет [[Неравенство треугольника|неравенству треугольника]]. Все-таки, будучи [[:en:Metric (mathematics)#Premetrics|предварительной метрикой]], она порождает [[Топология|топологию]] в пространстве [[Распределение вероятностей|вероятностных распределений]]. Более конкретно, если <math>\{P_1,P_2,\cdots\}</math>- это последовательность распределений такая, что <math>\lim_{n \rightarrow \infty} D_{\mathrm{KL}}(P_n\|parallel Q) = 0</math>, тогда говорят, что <math>P_n \xrightarrow{D} Q</math>. Из [[:en:Pinsker's inequality|неравенства Пинкера]] следует, что — <math>P_n \xrightarrow{\mathrm{D}} P \Rightarrow P_n \xrightarrow{\mathrm{TV}} P</math>, где последнее нужно для для сходимости по [[Вариация функции|вариации]].
 
Согласно [[Реньи, Альфред|Альфреду Реньи]] (1970, 1961).<ref>{{Книга|автор=Rényi A.|заглавие=Probability Theory|ответственный=|издание=|место=|издательство=|год=1970|страницы=|страниц=|isbn=0-486-45867-9.}}</ref><ref>{{Книга|автор=Rényi, A.|заглавие="On measures of entropy and information"|ответственный=|издание=|место=4th Berkeley Symposium on Mathematics, Statistics and Probability 1960|издательство=|год=1961|страницы=547–561|страниц=|isbn=}}</ref>
<math>P(\theta) = P(\theta_0) + \Delta\theta^jP_j(\theta_0) + \cdots</math>,
 
где <math>\Delta\theta^j = (\theta - \theta_0)^j</math> — малое изменение <math>\theta</math> в j-м направлении, а <math>P_{j}(\theta_0) = \frac{\partial P}{\partial \theta^j}(\theta_0)</math> соответствующая скорость изменения распределения вероятностей. Так как РКЛ имеет абсолютный минимум, равный 0, при P=Q, то есть <math>\theta=\theta_0</math> то РКЛ имеет второй порядок малости по параметрам <math>\Delta\theta^j</math>. Более формально, как и для любого минимума, первая производная расхождения обращается в ноль <math>\left.\frac{\partial}{\partial \theta^j}\right|_{\theta = \theta_0} D_{KL}(P(\theta) \|parallel P(\theta_0)) = 0,</math>
 
и [[Ряд Тейлора|разложение Тейлора]] начинается со второго порядка малости
 
<math>D_{\mathrm{KL}}(P(\theta)\|parallel P(\theta_0)) = \frac{1}{2} \Delta\theta^j\Delta\theta^k g_{jk}(\theta_0) + \cdots</math>,
 
где [[Гессиан функции|Гессиан]] <math>g_{jk}(\theta)</math> должен быть неотрицательным. Если позволить <math>\theta_0</math> изменяться (и опуская подиндекс 0), то Гессиан <math>g_{jk}(\theta)</math> определяет (возможно, вырожденную) [[:en:Riemannian manifold#Riemannian metrics|метрику Римана]] в пространстве параметра <math>\theta</math>, называемую ''информационной метрикой Фишера.''
Многие другие величины информационной теории могут быть интерпретированы как применение расстояния Кульбака — Лейблера к частным случаям.
 
[[Собственная информация]] <math>D_{\mathrm{KL}}(\delta_{im} \|parallel \{ p_i \}) </math> является РКЛ вероятностного распределения <math>P(i)</math> из [[Символ Кронекера|символа Кронекера]], представляющего определённость в том, что <math>i=m</math> — то есть число дополнительных бит, которые должны быть переданы для определения <math>i</math>, если только вероятностное распределение <math>P(i)</math> доступно для получателя, не факт, что <math>i=m</math>.
 
[[Взаимная информация]] -
 
<math>\begin{align}I(X;Y) & = D_{\mathrm{KL}}(P(X,Y) \|parallel P(X)P(Y) ) \\
& = \operatorname{E}_X \{D_{\mathrm{KL}}(P(Y|\mid X) \|parallel P(Y) ) \} \\
& = \operatorname{E}_Y \{D_{\mathrm{KL}}(P(X|\mid Y) \|parallel P(X) ) \}\end{align} </math>
 
является РКЛ произведения <math>P(X)P(Y)</math> двух маргинальных вероятностных распределений из совместного вероятностного распределения <math>P(X,Y)</math> — то есть ожидаемое число дополнительных битов, которые должны быть посланы, чтобы определить <math>X</math> и <math>Y</math>, если они закодированы, используя только их маргинальное распределение вместо совместного распределения. Эквивалентно, если совместная вероятность <math>P(X,Y)</math> известна, это ожидаемое число дополнительных битов, которые должны быть в среднем отправлены для определения <math>Y</math>, если значение <math>X</math> уже не известны получателю.
это число битов, которые должны быть переданы для идентификации <math>X</math> из <math>N</math> одинаково вероятных исходов, это меньше, чем РКЛ произведения распределений <math>P_U(X) </math> из истинного совместного распределения <math>P(X,Y)</math> — то есть меньше ожидаемого числа сохраненных битов, которые должны быть отправлены, если значение <math>X</math> закодировано согласно с равномерным распределением <math>P_U(X)</math>, а не с условным распределением <math>P(X \mid Y)</math> данных <math>X</math> и <math>Y</math>.
 
[[Перекрёстная энтропия|Перекрестная энтропия]] между двумя вероятностными распределениями измеряет среднее число битов, необходимых для определения события из множества возможных, если использована схема кодирования, основанная на данном распределении вероятности <math>Q</math>, а не «истинного» распределения <math>P</math>. Перекрестная энтропия для двух распределений <math>P</math> и <math>Q</math> над тем же вероятностным пространством определяется так: <math>H(p, q) = \operatorname{E}_p[-\log q] = H(p) + D_{\mathrm{KL}}(p \|parallel q).</math>
 
== Расстояние Кульбака — Лейблера и Байесовская модификация ==
В [[:en:Bayesian statistics|Байесовской статистике]] Расстояние Кульбака — Лейблера может быть использовано как мера информационного выигрыша при переходе от [[Априорная вероятность|априорного]] к [[Апостериорная вероятность|апостериорному]] вероятностному распределению. Если обнаружен некоторый новый факт <math>Y=y</math>, оно может быть использовано для модификации (априорного) распределения вероятностей <math>p(x|\mid I) </math> для <math>X </math> в новое (апостериорное) распределение вероятностей <math>p(x|\mid y, I) </math> используя [[Теорема Байеса|Теорему Байеса]]:
 
: <math>p(x\mid y,I) = \frac{p(y\mid x,I) p(x\mid I)}{p(y\mid I)}. </math>
: <math>H\big( p(\cdot\mid y,I) \big) = -\sum_x p(x\mid y,I) \log p(x\mid y,I), </math>
 
которая может быть меньше или больше, чем изначальная энтропия <math>H\big( p(\cdot\mid I) \big) </math>. Однако, с точки зрения нового распределения вероятностей можно оценить, что использование исходного кода, основанного на <math>p(x|\mid I) </math> вместо нового кода, основанного на <math>p(x|\mid y, I) </math>, добавило бы ожидаемое число битов — <math>D_{\mathrm{KL}}\big(p(\cdot\mid y,I) \mid p(\cdot\mid I) \big) = \sum_x p(x\mid y,I) \log \frac{p(x\mid y,I)}{p(x\mid I)} </math> к длине сообщения. Это, таким образом, представляет собой количество полезной информации, или информационного выигрыша, касательно <math>X </math>, которое было получено при обнаружении, что <math>Y=y</math>.
 
Если впоследствии приходит еще один фрагмент данных, <math>Y_2=y_2 </math>, то вероятностное распределение для x может быть обновлено далее, чтобы дать новое лучшее предположение <math>p(x|\mid y_1,y_2, I) </math>. Если исследовать заново [[Расстояние Кульбака — Лейблера|информационный выигрыш]] для использования <math>p(x|\mid y_1, I) </math>, а не <math>p(x|\mid I) </math>, оказывается, что это может быть больше или меньше, чем предполагалось ранее: <math>\sum_x p(x\mid y_1,y_2,I) \log \frac{p(x\mid y_1,y_2,I)}{p(x\mid I)} </math>, может быть <math>\leq </math> или <math>> </math>, чем <math>\displaystyle\sum_x p(x\mid y_1,I) \log \frac{p(x\mid y_1,I)}{p(x\mid I)} </math>, и поэтому общий информационный выигрыш не выполняет неравенство треугольника:
 
<math>D_{\mathrm{KL}} \big( p(\cdot\mid y_1,y_2,I) \big\|parallel p(\cdot\mid I) \big) </math>, может быть больше, меньше или равно <math>D_{\mathrm{KL}} \big( p(\cdot\mid y_1,y_2,I)\big\|parallel p(\cdot|\mid y_1,I) \big) + D_{\mathrm{KL}} \big( p(\cdot \mid y_1,I) \big\|parallel p(x\mid I) \big). </math>
 
Все, что можно сказать, что в среднем, беря среднее, используя <math>p(y_2|\mid y_1, x, I) </math>, обе стороны будут давать среднее значение.
 
=== Экспериментальная модель Байеса ===
 
== Различающая информация ==
Расстояние Кульбака — Лейблера <math>D_{\mathrm{KL}}(p(x|\mid H_1)||\parallel p(x|\mid H_0))</math> может также быть интерпретировано как ожидаемая различающая информация для <math>H_1 </math>над <math>H_0 </math>: средняя информация на одну выборку для различия в пользу гипотезы <math>H_1 </math>, против гипотезы <math>H_0 </math>, когда гипотеза <math>H_1 </math> верна<ref>{{Статья|автор=Press, W.H.; Teukolsky, S.A.; Vetterling, W.T.; Flannery, B.P. (2007). "Section 14.7.2. Kullback–Leibler Distance". Numerical Recipes: The Art of Scientific Computing (3rd ed.). Cambridge University Press. ISBN 978-0-521-88068-8|заглавие=|ссылка=|язык=|издание=|тип=|год=|месяц=|число=|том=|номер=|страницы=|issn=}}</ref>. Еще одно имя для этой величины, данное [[Гуд, Ирвинг Джон|Ирвингом Джоном Гудом]], это ожидаемая масса доказательства для <math>H_1 </math>над <math>H_0 </math>, ожидаемая из каждой выборки.
 
Ожидаемая масса доказательства для <math>H_1 </math>над <math>H_0 </math> это не то же что информационный выигрыш, ожидаемый, например, для вероятностного распределения ''p(H)'' гипотезы, <math>D_\mathrm{KL}( p(x|\mid H_1) \|parallel p(x|\mid H_0) ) \neq IG = D_\mathrm{KL}( p(H|\mid x) \|parallel p(H|\mid I) ). </math>.
 
Любая из двух величин может быть использована как функция полезности в Байесовской экспериментальной форме, для выбора оптимального следующего вопроса для исследования, но вообще они приведут скорее к разным экспериментальным стратегиям.
 
== Принцип минимальной различающей информации ==
Идея РКЛ как различающей информации привела Кульбака к предположению '''''Принципа Минимальной различающей информации''''' ({{lang-en|Minimum Discrimination Information, MDI}}): учитывая новые факты, новое распределение <math>f</math> следует выбрать, из тех, которые трудно отличить от первоначального распределения <math>f_0 </math>; потому что новые данные производят так мало информационного выигрыша <math>D_{KL}(f||\parallel f_0) </math> как только возможно.
 
Например, если мы имеем априорное распределение ''<math>p(x, a)''</math> над <math>x</math> и <math>a</math>, и потом изучим истинное распределение <math>a</math> и <math>u(a)</math>. РКЛ между новым совместным распределением для <math>x</math> и <math>a</math>, <math>q(x|\mid a) u(a)</math>, и прежнего априорного распределения было бы: <math>D_\mathrm{KL}(q(x|\mid a)u(a)\|parallel p(x,a)) = \operatorname{E}_{u(a)}\{D_\mathrm{KL}(q(x|\mid a)\|parallel p(x|\mid a))\} + D_\mathrm{KL}(u(a)\|parallel p(a)), </math>
 
то есть сумма РКЛ ''<math>p(a)''</math> априорного распределения для <math>a</math> из обновленного распределения ''<math>u(a)''</math>, плюс ожидаемое значение (используемое вероятностное распределение ''<math>u(a)''</math>) РКЛ априорного условного распределения ''<math>p(x|\mid a)''</math> из нового распределения ''<math>p(x|\mid a)''</math>. (Заметьте что часто позднее ожидаемое значение называется условное РКЛ (или условная относительная энтропия) и обозначается <math>D_{KL}(q(x|\mid a)||\parallel p(x|\mid a)) </math><ref>{{Книга|автор=Thomas M. Cover, Joy A. Thomas|заглавие=Elements of Information Theory|ответственный=|издание=John Wiley & Sons|место=|издательство=|год=1991|страницы=p.22|страниц=|isbn=}}</ref>. Это минимизирует, если ''<math>q(x|\mid a) = p(x|\mid a)''</math> над общим содержанием ''<math>u(a)</math>. И'' мы замечаем что этот результат объединяет теорему Байеса, если новое распределение ''<math>u(a)''</math> это по факту функция, уверенно представляющая, что ''<math>a''</math> имеет одно частное значение.
 
Минимальная различающая информация может быть рассмотрена как расширение [[:en:Principle of indifference|Принципа безразличия]] [[Лаплас, Пьер-Симон|Лапласа]] (другое его название — принцип недостаточного основания) и [[Принцип максимума энтропии|Принципа максимума энтропии]] [[Джейнс, Эдвин Томпсон|Джейнса]]. В частности, это естественное расширение принципа максимума энтропии из дискретного до непрерывного распределения, для которого энтропия Шеннона прекращается, чтобы быть очень удобной (см. [[дифференциальная энтропия]]), но РКЛ продолжает быть столь же актуальной.
 
В инженерной литературе, MDI иногда называется принципом минимума [[Перекрёстная энтропия|перекрестной энтропии]]. Минимизация РКЛ ''<math>m''</math> из ''<math>p''</math> в отношении ''<math>m''</math> эквивалентна минимизации перекрестной энтропии ''<math>p''</math> и ''<math>m''</math>, так <math>H(p,m) = H(p) + D_{\mathrm{KL}}(p\|parallel m), </math> который подходит, если попытаться выбрать точное приближенное значение до ''<math>p''</math>.
 
=== Пример использования ===
Пусть по выборке <math>x_1, x_2, ...\dotsc, x_n</math> из распределения некоторой случайной величины требуется восстановить плотность её распределения, заданную в виде параметрического семейства <math>f(x,\theta)</math>, где <math>x \in X \subseteq R</math> — аргумент функции, <math>\theta</math> — неизвестный параметр. Оценка параметра <math>\theta</math> может быть найдена как решение задачи минимизации расстояния Кульбака — Лейблера между плотностью <math>f(x,\theta)</math> и эмпирической плотностью распределения, считающейся «истинной»,
 
: <math>\hat{f}(x)=\frac{1}{n}\sum\limits_{i=1}^n \mathbf\delta(x-x_i)</math>,