Дивергенция Йенсена — Шеннона

Дивергенция Йенсена — Шеннона[1] — это метод измерения похожести двух распределений вероятностей. Она известна также как информационный радиус[2] или полное отклонение от среднего[3]. Дивергенция базируется на дивергенции Кульбака — Лейблера с некоторыми существенными (и полезными) отличиями, среди которых, что она симметрична и всегда имеет конечное значение. Квадратный корень из дивергенции Йенсена — Шеннона является метрикой, которая часто упоминается как расстояние Йенсена — Шеннона[4][5][6].

Определение

править

Рассмотрим множество   распределений вероятности, где A — это множество, снабжённое некоторой сигма-алгеброй измеримых подмножеств. В частности, мы можем взять в качестве A конечное или счётное множество, в котором все подмножества измеримы.

Дивергенция Йенсена — Шеннона (англ. Jensen–Shannon divergence, JSD)   — это симметризованная и сглаженная версия дивергенции Кульбака — Лейблера  . Она определяется как

 ,

где  

Недавно было предложено обобщение дивергенции Йенсена — Шеннона, в котором вместо арифметического среднего используется абстрактное среднее (наподобие геометрического или гармонического среднего)[7]. Геометрическая дивергенция Йенсена — Шеннона (англ. G-Jensen–Shannon divergence) даёт явную a формулу дивергенции между двумя гауссовыми распределениями путём применения геометрического среднего.

Более общее определение, позволяющее сравнить более двух распределений вероятности (См):

 ,

где   являются весами, выбранными для распределений вероятности  , а   является энтропией Шеннона для распределения  . Для случая двух распределений

 

Границы

править

Дивергенция Йенсена — Шеннона ограничена 1 для двух распределений вероятности, если (в дивергенции Кульбака — Лейблера) используется логарифм по основанию 2[8]

 

С такой нормализацией дивергенция Йенсена — Шеннона является нижней границей полного расстояния вариации[англ.] между P и Q:

 

Для натурального логарифма, который обычно используется в статистической термодинамике, верхняя граница равна ln(2):

 

Дивергенция Йенсена — Шеннона ограничена величиной   для более двух распределений вероятности, если используется логарифм по основанию 2[8]

 

Связь со взаимной информацией

править

Дивергенция Йенсена — Шеннона является взаимной информацией между случайной переменной  , ассоциированной со смесью распределений[англ.] между   и   и двоичной индикаторной переменной  , которая используется для переключения между   и   для получения смеси. Пусть   будет некоторой функцией на множестве событий, которая хорошо различает события, и выберем значение   согласно  , если  , и согласно  , если  , где   равновероятно. То есть мы выбираем   согласно мере  , и его распределение является смесью распределений. Мы вычисляем

 

Из результатов выше следует, что дивергенция Йенсена — Шеннона ограничена 0 и 1, поскольку взаимная информация неотрицательна и ограничена величиной  . Дивергенция Йенсена — Шеннона не всегда ограничена 0 и 1 — здесь верхняя граница 1 возникает из-за того, что мы рассматриваем конкретный случай двоичной переменной  .

Можно применить тот же принцип для совместного распределения и произведения этих двух крайних распределений (по аналогии с дивергенцией Кульбака — Лейблера и взаимной информацией) и измерить, насколько достоверно можно решить, что результат получен от совместного распределения или от произведения распределений при предположении, что имеются только эти две возможности[9].

Квантовая дивергенция Йенсена — Шеннона

править

Обобщение распределений вероятности на матрицы плотности позволяет определить квантовую дивергенцию Йенсена — Шеннона (англ. quantum Jensen–Shannon divergence, QJSD)[10][11]. Она определяется для множества матриц плотности   и распределений вероятности   как

 

где   является энтропией фон Неймана[англ.] плотности  . Эта величина вводится в теории квантовой информации, где называется информацией Холево — она даёт верхнюю границу для количества классической информации, закодированной квантовыми состояниями   при априорных распределениях   (см. статью «Теорема Холево»)[12]. Квантовая Дивергенция Йенсена — Шеннона для   и двух матриц плотности является ограниченной всюду заданной симметричной функцией и равна нулю, только если две матрицы плотности совпадают. Она равна квадрату метрики чистых состояний[13] и недавно было показано, что это метрическое свойство выполняется и для смешанных состояний[14][15]. Метрика Бюреса[англ.] тесно связана с квантовой дивергенцией Йенсена — Шеннона и является квантовым аналогом информационной метрики Фишера.

Обобщение

править

Нильсен ввёл косую K-дивергенцию[16]:   Отсюда получаем однопараметрическое семейство дивергенций Йенсена — Шеннона, называемое  -дивергенциями Йенсена — Шеннона:

 

которое включает дивергенцию Йенсена — Шеннона (для  ) и половину дивергенции Джеффриса (для  ).

Приложения

править

Дивергенция Йенсена — Шеннона применяется в биоинформатике и сравнении геномов[англ.][17][18], при сравнении поверхностей белков[19], в общественных науках[20], при количественных исследованиях в истории[21], экспериментах с огнём[22] и машинном обучении [23].

Примечания

править
  1. В русскоязычной литературе чаще встречается неверное название «Дивергенция Дженсена — Шеннона»
  2. Schütze, Manning, 1999, с. 304.
  3. Dagan, Lee, Pereira, 1997, с. 56–63.
  4. Endres, Schindelin, 2003, с. 1858–1860.
  5. Ôsterreicher, Vajda, 2003, с. 639–653.
  6. Fuglede, Topsoe, 2004, с. 30.
  7. Nielsen, Frank (2019). "On a generalization of the Jensen-Shannon divergence and the JS-symmetrization of distances relying on abstract means". arXiv:1904.04017 [cs.IT].
  8. 1 2 Lin, 1991, с. 145–151.
  9. Schneidman, Bialek, Berry, 2003.
  10. Majtey, Lamberti, Prato, 2005, с. 052310.
  11. Briët, Harremoës, 2009, с. 052311.
  12. Холево, 1973, с. 3–11.
  13. Braunstein, Caves, 1994, с. 3439–3443.
  14. Virosztek, Dániel (2019). "The metric property of the quantum Jensen-Shannon divergence". arXiv:1910.10447.
  15. Sra, Suvrit (2019). "Metrics Induced by Quantum Jensen-Shannon-Renyí and Related Divergences". arXiv:1911.02643.
  16. Nielsen, Frank (2010). "A family of statistical symmetric divergences based on Jensen's inequality". arXiv:1009.4004 [cs.CV].
  17. Sims, Jun, Wu, Kim, 2009, с. 2677–82.
  18. Itzkovitz, Hodis, Segal, 2010, с. 1582–9.
  19. Ofran, Rost, 2003, с. 377–87.
  20. DeDeo, Hawkins, Klingenstein, Hitchcock, 2013, с. 2246–2276.
  21. Klingenstein, Hitchcock, DeDeo, 2014, с. 9419–9424.
  22. Mitroi-Symeonidis, Anghel, Minculete, 2020, с. 22.
  23. Goodfellow, Pouget-Abadie и др., 2014.

Литература

править

Литература для дальнейшего чтения

править
  • Frank Nielsen (2010). "A family of statistical symmetric divergences based on Jensen's inequality". arXiv:1009.4004 [cs.CV].

Ссылки

править