Дедупликация: различия между версиями
[непроверенная версия] | [отпатрулированная версия] |
Содержимое удалено Содержимое добавлено
Нет описания правки |
Нет описания правки |
||
Строка 1:
'''Дедупликация данных''' — специализированный метод [[сжатие данных|сжатия массива данных]], использующий в качестве алгоритма сжатия исключение дублирующих копий повторяющихся данных. Данный метод обычно используется для оптимизации использования дискового пространства [[система хранения данных|систем хранения данных]], однако может применяться и при сетевом обмене данных для сокращения объема передаваемой информации.
В процессе дедупликации во время анализа идентифицируются и запоминаются уникальные элементы информации фиксированного размера ({{lang-en|chunks}}). По мере выполнения анализа сравниваются все новые и новые элементы. При выявлении элемента, уже содержащегося в памяти, этот элемент заменяется более короткой ссылкой на ранее запомненный элемент, а пространство, ранее занимаемое дубликатом, высвобождается. Таких повторяющихся элементов может попадаться очень много, благодаря чему объём, необходимый для сохранения массива данных, может сильно сокращён.
Однако дедупликацию не стоит путать с более традиционными алгоритмами сжатия, например [[LZ77]] или [[LZO]]. Эти алгоритмы производят поиск в пределах определённого буфера отдельного файла (так называемое «скользящее окно»), когда как алгоритм дедупликации производит поиск копий по огромному массиву данных.
== Преимущества и области применения ==
Дедупликация способна сократить объём необходимого пространства для определенного набора файлов. Она наиболее эффективна в тех случаях, когда хранимые файлы мало отличимы или имеют много сходных элементов, например в случае резервных копий, где большинство данных остается неизменными с момента прошлой резервной копии. [[Резервное копирование|Системы резервирования]] могут использовать эту особенность, используя [[Жёсткая ссылка|жёсткие ссылки]] на повторяющиеся файлы или копируя только изменённые файлы. Однако эти подходы могут оказаться мало полезными, если у большого блока данных (например, базы данных или архива почтовых сообщений) изменился только небольшой участок данных.
В передаче данных дедупликация может использоваться для сокращения передаваемой информации, что позволяет сэкономить на ширине необходимой [[пропускная способность|пропускной способности]] канала передачи данных.
Также дедупликация находит широкое применение в [[Виртуализация|системах виртуализации]], где дедупликация позволяет условно выделить повторяющиеся элементы данных каждой из виртуальных систем в отдельное пространство.
== Ссылки ==
* Fellows, Russ(Evaluator Group, Inc.) [http://www.evaluatorgroup.com/document/data-de-duplication-%E2%80%93why-when-where-and-how-infostor-article-by-russ-fellows/ Data Deduplication, why when where and how?]
* [http://public.dhe.ibm.com/common/ssi/ecm/en/tsu12345usen/TSU12345USEN.PDF Data Footprint Reduction Technology Whitepaper]
* [http://www.itnext.in/content/doing-more-less.html Doing More with Less by Jatinder Singh]
{{compu-stub}}
[[Категория:Хранение данных]]
|