Стирающий код

Стирающий код^[1] (англ. erasure code) — в теории кодирования помехоустойчивый код^[1], способный восстановить целые пакеты данных в случае их потери^[2]. Такой код позволяет бороться с утечками данных при передаче по каналам связи или работе с памятью. Обычно он используется, когда точная позиция потерянных данных известна априори^[3].

Принцип работы

Стирающий код преобразует сообщение из $k$ символов в более длинное сообщение (кодовое слово) из $n$ символов так, что исходное сообщение может быть восстановлено по $k'$ любым символам. Такой код называется $(n,k)$ кодом, выражение $r=k/n$ — кодовой долей^[4], выражение $k'/k$ — эффективностью приёма^[5]^[6].

Стирающий код обычно используется на верхних уровнях стека протоколов каналов передачи и хранения информации^[3].

Оптимальный стирающий код

Оптимальный стирающий отличается тем, что любых $k$ из $n$ символов кодового слова достаточно для восстановления исходного сообщения^[7], то есть они имеют оптимальную эффективность приёма^[5]^[8].

Проверка чётности

Рассмотрим случай, когда $n=k+1$ . С помощью набора из $k$ значений $\{v_{i}\}_{1\leq i\leq k}$ вычисляется контрольная сумма и добавляется к $k$ исходным значениям:

v_{k+1}=-\sum _{i=1}^{k}v_{i}

.

Теперь в набор $\{v_{i}\}_{1\leq i\leq k+1}$ из $k+1$ значений включена контрольную сумму. В случае потери одного из значений $v_{e}$ , его можно будет с лёгкостью восстановить с помощью суммирования оставшихся:

v_{e}=-\sum _{i=1,i\neq e}^{k+1}v_{i}

.

Более сложные комбинации искомых и получаемых значений представляют собой Граф Таннера^[4]^[5].

Линейный код

Важным подклассом стирающего кода является линейный код. Его название связано с тем, что он может быть проанализирован с помощью линейной алгебры. Пусть $x=x_{0}\dots x_{k-1}$ — исходные данные, $G$ — матрица размера $n\times k$ , тогда закодированные данные $(n,k)$ - кода могут быть представлены как ${\vec {y}}=G{\vec {x}}$ . Предположим, что приёмник получил $k$ компонент вектора ${\vec {y}}$ , тогда исходные данные могут быть восстановлены с помощью $k$ уравнений, связанных с известными компонентами вектора ${\vec {y}}$ . Пусть матрица $G'$ размера $k\times k$ соответствует этой системе уравнений. Восстановление возможно, если все эти уравнения линейно независимые и, в общем случае, это означает, что любая матрица размера $k\times k$ обратима. Матрица $G$ называется генерирующей матрицей кода, так как любой допустимый ${\vec {y}}$ может быть получен как линейная комбинация столбцов матрицы $G$ . Так как её ранг равен $k$ , то любое подмножество из $k$ закодированных элементов должно содержать информацию о всех $k$ исходных данных. Для получения исходных данных необходимо решить линейную систему: ${\vec {y'}}=G'{\vec {x}}$ , где ${\vec {y'}}$ — подмножество из $k$ элементов вектора ${\vec {y}}$ , доступных на приёмнике^[9].

Полиномиальная передискретизация

Пример: Неисправная электронная почта (англ. faulty e-mail)

В случае, когда $k=2$ , избыточные символы могут быть созданы как промежуточные точки на отрезке, соединяющем два исходных символа. Это показано на простом примере, называемом неисправной электронной почтой:

Алиса посчитала значения

f(1)

и

f(2)

Алиса хочет отправить свой телефонный номер (555629) Бобу, используя неисправную электронную почту. Данный вид почты работает так же, как обычная электронная почта, за следующим исключением:

Около половины всех сообщений теряются.
Сообщения длиннее 5 символов запрещены.
Это очень дорого.

Вместо того, чтобы спросить у Боба подтверждения сообщения, которое она отправила, Алиса придумывает следующую схему:

Она разбивает свой телефонный номер на две части $a=555,b=629$ и отправляет 2 сообщения Бобу — «A=555» и «B=629».
Она строит линейную функцию $f(i)=a+(b-a)(i-1)$ , в этом примере $f(i)=555+74(i-1)$ . Таким образом $f(1)=555$ и $f(2)=629$ .
Она считает значения $f(3)=703,f(4)=777$ и $f(5)=851$ , а затем отправляет три избыточных сообщения: «C=703», «D=777» и «E=851».

Боб знает, что выражение для $f(k)$ следующее $f(i)=a+(b-a)(i-1)$ , где $a$ и $b$ — две части телефонного номера. Теперь предположим, что Боб получает «D=777» и «E=851».

Боб получает два сообщения с

f(4)

и

f(5)

Боб может восстановить телефонный номер Алисы с помощью $a$ и $b$ , используя значения $f(4)$ и $f(5)$ , которые он получил. Более того, он может это сделать, используя два любых полученных сообщения. Значит, в этом примере кодовая доля равна 40 %. Заметим, что Алиса не может закодировать свой номер телефона только в одном сообщении такой почты, так как он состоит из 6 символов, а максимальная длина одного сообщения — 5 символов. Если бы она отправляла свой номер телефона по частям, запрашивая подтверждения каждой части от Боба, то было бы отправлено минимум 4 сообщения (два от Алисы и два подтверждения от Боба)^[5]^[10].

Общий случай

Приведённая выше линейная конструкция может быть обобщена до полиномиальной интерполяции. В таком случае точки теперь вычисляются над конечным полем $\mathbb {F} _{2^{m}}$ , где $m$ — число бит в символе. Отправитель нумерует символы данных от $0$ до $k-1$ и посылает их. Затем он строит, например, интерполяционный многочлен Лагранжа $p(x)$ степени $k$ , так что $p(i)$ равен $i$ -ому символу данных. Потом он отправляет $p(k),\ldots ,p(n-1)$ . С помощью полиномиальной интерполяции получатель сможет восстановить потерянные данные в случае, если он успешно принял $k$ символов^[5].

Реализация в реальном мире

Данный процесс реализован в Коде Рида — Соломона с кодовыми словами, сконструированными над конечным полем при использовании определителя Вандермонда^[11].

Почти оптимальный стирающий код

Почти оптимальный стирающий код требует $(1+\varepsilon )k$ символов, чтобы восстановить сообщение (где $\varepsilon >0$ ). Величина $\varepsilon$ может быть уменьшена за счёт дополнительного времени работы процессора. При использовании таких кодов необходимо решить, что предпочтительнее: сложность вычислений или возможность коррекции сообщений^[11]. В 2004 году существовал только один почти оптимальный стирающий код с линейным временем кодирования и декодирования — код Торнадо^[англ.]^[8].

Применение

Стирающие коды применяются в^[11]:

Reliable Multicast^[англ.] (например, в группе по надёжному мультивещанию IETF)
3GPP (MBMS и eMBMS (Multimedia Broadcast Multicast Service^[англ.])
одноранговых сетях, например, для решения проблемы передачи последнего блока данных
Распределённых хранилищах^[англ.].

Примеры

Здесь приведены некоторые примеры различных кодов.

Почти оптимальные стирающие коды

Код с малой плотностью проверок на чётность

Оптимальные стирающие коды

Примечания

↑ ¹ ² Шинкаренко К. В., Кориков A. M. Помехоустойчивое кодирование мультимедиа данных в компьютерных сетях (рус.) // Известия Томского политехнического университета [Известия ТПУ] : журнал. — 2008. — 29 сентябрь (т. 313, № 5). — С. 37—41. — ISSN 1684-8519. Архивировано 31 января 2022 года.
↑ Шинкаренко Константин Всеволодович, Кориков Анатолий Михайлович. Исследование эффективности помехоустойчивых кодов Лаби (рус.) // Доклады Томского государственного университета систем управления и радиоэлектроники : журнал. — 2009. — С. 185-192. Архивировано 11 декабря 2019 года.
↑ ¹ ² Katina Kralevska. Applied Erasure Coding in Networks and Distributed Storage (англ.) // ResearchGate : Thesis for the degree of Philosophiae Doctor. — 2018. — Март. — P. 7. Архивировано 31 января 2022 года.
↑ ¹ ² J.S. Plank ; A.L. Buchsbaum ; R.L. Collins ; M.G. Thomason. Small parity-check erasure codes - exploration and observations (англ.) // 2005 International Conference on Dependable Systems and Networks (DSN'05) : conference. — 2005. — 25 июль. — P. 2. — ISSN 1530-0889. Архивировано 31 января 2022 года.
↑ ¹ ² ³ ⁴ ⁵ Dave K. Kythe, Prem K. Kythe. Algebraic and Stochastic Coding Theory. — 1-е изд. — CRC Press, 2012. — С. 377—378. — 512 с. — ISBN 978-1439881811. — ISBN 1439881812.
↑ Alexandros G. Dimakis, P. Brighten Godfrey, Martin J. Wainwright and Kannan Ramchandran. Network Coding for Distributed Storage Systems (англ.) // IEEE Transactions on Information Theory : journal. — 2007. — 16 Август (vol. 56, no. 9). — P. 4539—4551. — ISSN 0018-9448. — doi:10.1109/TIT.2010.2054295. Архивировано 31 января 2022 года.
↑ N. Alon ; J. Edmonds ; M. Luby. Linear time erasure codes with nearly optimal recovery (англ.) // Proceedings of IEEE 36th Annual Foundations of Computer Science : Symposium. — 1995. — 23-25 Октябрь. — P. 1. — ISSN 0272-5428. — doi:10.1109/SFCS.1995.492581. Архивировано 31 января 2022 года.
↑ ¹ ² Petar Maymounkov, David Mazi`eres. Rateless Codes And Big Downloads (англ.) // 2nd International Workshop on Peer-to-Peer Systems : conference. — 2004. — Август (vol. 2735). — P. 2. — doi:10.1007/978-3-540-45172-3_23. Архивировано 31 января 2022 года.
↑ Luigi Rizzo. Effective Erasure Codes for Reliable Computer Communication Protocols (англ.) // ACM SIGCOMM Computer Communication Review : Newsletter. — 1997. — Апрель (vol. 27, no. 2). — P. 24—36. — doi:10.1145/263876.263881. Архивировано 13 марта 2022 года.
↑ Hamid Jafarkhani, Mahdi Hajiaghayi. United States Patent Application Publication (неопр.). COST-EFFICIENT REPAIR FOR STORAGE SYSTEMS USING PROGRESSIVE ENGAGEMENT 1. The Regents of the University of California,Oakland,CA (US) (22 октября 2015). Дата обращения: 3 декабря 2019. Архивировано 4 мая 2022 года.
↑ ¹ ² ³ Dave K.Kythe, Prem K. Kythe. Algebraic and Stochastic Coding Theory. — 1-е изд. — CRC Press,, 2012. — С. 380—381. — 512 с. — ISBN 978-1439881811. — ISBN 1439881812.

Литература

Dave K. Kythe, Prem K. Kythe. Algebraic and Stochastic Coding Theory. — 1-е изд. — CRC Press, 2012. — С. 375—395. — 512 с. — ISBN 978-1439881811.

[:4-1] ¹ ² Шинкаренко К. В., Кориков A. M. Помехоустойчивое кодирование мультимедиа данных в компьютерных сетях (рус.) // Известия Томского политехнического университета [Известия ТПУ] : журнал. — 2008. — 29 сентябрь (т. 313, № 5). — С. 37—41. — ISSN 1684-8519. Архивировано 31 января 2022 года.

[2] Шинкаренко Константин Всеволодович, Кориков Анатолий Михайлович. Исследование эффективности помехоустойчивых кодов Лаби (рус.) // Доклады Томского государственного университета систем управления и радиоэлектроники : журнал. — 2009. — С. 185-192. Архивировано 11 декабря 2019 года.

[:3-3] ¹ ² Katina Kralevska. Applied Erasure Coding in Networks and Distributed Storage (англ.) // ResearchGate : Thesis for the degree of Philosophiae Doctor. — 2018. — Март. — P. 7. Архивировано 31 января 2022 года.

[parityCheck-4] ¹ ² J.S. Plank ; A.L. Buchsbaum ; R.L. Collins ; M.G. Thomason. Small parity-check erasure codes - exploration and observations (англ.) // 2005 International Conference on Dependable Systems and Networks (DSN'05) : conference. — 2005. — 25 июль. — P. 2. — ISSN 1530-0889. Архивировано 31 января 2022 года.

[:1-5] ¹ ² ³ ⁴ ⁵ Dave K. Kythe, Prem K. Kythe. Algebraic and Stochastic Coding Theory. — 1-е изд. — CRC Press, 2012. — С. 377—378. — 512 с. — ISBN 978-1439881811. — ISBN 1439881812.

[6] Alexandros G. Dimakis, P. Brighten Godfrey, Martin J. Wainwright and Kannan Ramchandran. Network Coding for Distributed Storage Systems (англ.) // IEEE Transactions on Information Theory : journal. — 2007. — 16 Август (vol. 56, no. 9). — P. 4539—4551. — ISSN 0018-9448. — doi:10.1109/TIT.2010.2054295. Архивировано 31 января 2022 года.

[7] N. Alon ; J. Edmonds ; M. Luby. Linear time erasure codes with nearly optimal recovery (англ.) // Proceedings of IEEE 36th Annual Foundations of Computer Science : Symposium. — 1995. — 23-25 Октябрь. — P. 1. — ISSN 0272-5428. — doi:10.1109/SFCS.1995.492581. Архивировано 31 января 2022 года.

[:0-8] ¹ ² Petar Maymounkov, David Mazi`eres. Rateless Codes And Big Downloads (англ.) // 2nd International Workshop on Peer-to-Peer Systems : conference. — 2004. — Август (vol. 2735). — P. 2. — doi:10.1007/978-3-540-45172-3_23. Архивировано 31 января 2022 года.

[Luigi-9] Luigi Rizzo. Effective Erasure Codes for Reliable Computer Communication Protocols (англ.) // ACM SIGCOMM Computer Communication Review : Newsletter. — 1997. — Апрель (vol. 27, no. 2). — P. 24—36. — doi:10.1145/263876.263881. Архивировано 13 марта 2022 года.

[10] Hamid Jafarkhani, Mahdi Hajiaghayi. United States Patent Application Publication (неопр.). COST-EFFICIENT REPAIR FOR STORAGE SYSTEMS USING PROGRESSIVE ENGAGEMENT 1. The Regents of the University of California,Oakland,CA (US) (22 октября 2015). Дата обращения: 3 декабря 2019. Архивировано 4 мая 2022 года.

[:2-11] ¹ ² ³ Dave K.Kythe, Prem K. Kythe. Algebraic and Stochastic Coding Theory. — 1-е изд. — CRC Press,, 2012. — С. 380—381. — 512 с. — ISBN 978-1439881811. — ISBN 1439881812.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]