Тёмные данные

Тёмные данные — данные, которые автоматически собираются в ходе рутинных действий в компьютерных сетях, но никоим образом не используются для получения информации или принятия решений[1][2]. Способность организации собирать данные может превышать пропускную способность, с которой она может анализировать данные. В некоторых случаях организация может даже не знать, что данные собираются[3]. По оценкам IBM, примерно 90 процентов данных, генерируемых датчиками и аналого-цифровыми преобразователями, никогда не используются[4].

В промышленном контексте тёмные данные могут включать информацию, собранную датчиками и телематикой[5].

Организации хранят скрытые данные по множеству причин, и, по оценкам, большинство компаний анализируют только 1 % своих данных[6]. Причинами хранения неиспользуемых данных может быть необходимость соблюдения нормативных требований[7] и ведения архивов[1]. Некоторые организации считают, что скрытые данные могут быть им полезны в будущем, когда появятся более совершенные технологии аналитики и бизнес-аналитики[3]. Поскольку хранение стоит недорого, хранить данные легко. Однако хранение и защита данных обычно влечет за собой более высокие расходы, чем потенциальная прибыль.

Профессор Дэвид Хэнд из Имперского колледжа Лондона использует термин «тёмные данные» для обозначения отсутствующих данных: «тёмные данные — это данные, которых у вас нет»[8][a].

АнализПравить

Многие тёмные данные неструктурированы, что означает, что информация представлена в форматах, которые может быть трудно классифицировать, прочитать компьютер и, таким образом, проанализировать. Часто причина того, что бизнес не анализирует свои тёмные данные, заключается в количестве ресурсов, которые ему потребуются, и сложности анализа этих данных. По данным журнала Computer Weekly[en], 60 % организаций считают, что их собственные возможности бизнес-аналитики «неадекватны», а 65 % говорят, что у них «несколько неорганизованные подходы к управлению контентом»[10].

АктуальностьПравить

В категорию тёмных данных могут попадать и полезные данные потерявшие актуальность со временем. Это происходит из-за недостаточной скорости обработки данных. Например, если геолокация клиента известна бизнесу, компания может сделать предложение на основе местоположения, однако, если эти данные не обрабатываются немедленно, они могут быть неактуальными в будущем. По данным IBM, около 60 процентов собираемых данных сразу теряют свою ценность[4].

ХранениеПравить

По данным New York Times, 90 % энергии, используемой центрами обработки данных, тратится впустую[11]. Отказ от хранения избыточных данных позволил бы сэкономить на расходах на электроэнергию. Кроме того, существуют издержки, связанные с недоиспользованием информации и, как следствие, упущенными возможностями. Согласно Datamation, "данные, которые хранятся в организациях-членах EMEA на 54 % состоят из тёмных данных, 32 % — избыточные, устаревшие и тривиальные данные и лишь 14 % представляют какую-то ценность. По состоянию на 2020 год хранение избыточных данных обходится в примеро в 900 млд долл. США[12].

Постоянное хранение тёмных данных может подвергнуть организацию риску, особенно если эти данные являются конфиденциальными. Утечка данных может привести к серьезным последствиям: финансовым, юридическими и репутационным. Например, утечка личных данных клиентов может привести к массированной краже личных данных . Другим примером может быть утечка собственной конфиденциальной информации компании, например, относящейся к исследованиям и разработкам . Эти риски можно уменьшить, оценив и проверив необходимость данных для организации, а также используя надежное шифрование и другие меры безопасност[13] . Удаление ненужных данных следует делать таким образом, чтобы их невозможно было восстановить[14].

БудущееПравить

Принято считать, что по мере создания более совершенных вычислительных систем, ценность тёмных данных будет возрастать. Существует мнение, что данные и их анализ станут основой новой промышленной революции[5]. В число потенциально полезных данных входят и те, которые в настоящее время считаются «тёмными данными», поскольку для их обработки недостаточно ресурсов. Все эти данные, могут быть использованы в будущем для обеспечения максимальной производительности и способности организаций удовлетворять потребности потребителей. Особенно большую пользу от обработки неиспользуемых данных могут в будущем получить организации здравоохранения и образования, которые имеют дело с большими объемами данных[15].

ПримечанияПравить

Сноски
  1. Хэндс насчитывает 15 различных типов тёмных данных, в зависимости от природы последних[9]
Примечания
  1. 1 2 Dark Data. Gartner.
  2. Tittel. The Dangers of Dark Data and How to Minimize Your Exposure. CIO (24 September 2014).
  3. 1 2 Brantley. The API Briefing: the Challenge of Government's Dark Data. Digitalgov.gov (17 июня 2015).
  4. 1 2 Johnson. Digging up dark data: What puts IBM at the forefront of insight economy (англ.) ?. SiliconANGLE (30 октября 2015). Дата обращения: 3 ноября 2015.
  5. 1 2 Dennies. TeradataVoice: Factories Of The Future: The Value Of Dark Data. Forbes (February 19, 2015). Архивировано 22 февраля 2015 года.
  6. Shahzad. The big data challenge of transformation for the manufacturing industry. IBM Big Data & Analytics Hub (January 3, 2017).
  7. Are you using your dark data effectively (недоступная ссылка). Дата обращения: 27 апреля 2021. Архивировано 16 января 2017 года.
  8. David Hand. 10-Minute Talks: Dark data. The British Academy. The British Academy (18 November 2020). Дата обращения: 2 марта 2021.
  9. Хэнд, 2021, с. 17.
  10. Miles. Dark data could halt big data's path to success. ComputerWeekly (27 December 2013). Дата обращения: 3 ноября 2015.
  11. Glanz. Data Centers Waste Vast Amounts of Energy, Belying Industry Image, The New York Times (22 сентября 2012). Дата обращения 2 ноября 2015.
  12. Hernandez. Enterprises are Hoarding 'Dark' Data: Veritas. Datamation (October 30, 2015). Дата обращения: 4 ноября 2015.
  13. DarkShield Uses Machine Learning to Find and Mask PII, IRI. Дата обращения 14 января 2019.
  14. Tittel. The Dangers of Dark Data and How to Minimize Your Exposure. CIO (24 сентября 2014). Дата обращения: 2 ноября 2015.
  15. Prag. Leveraging Dark Data: Q&A with Melissa McCormack (англ.) ?. The Machine Learning Times (30 сентября 2014). Дата обращения: 4 ноября 2015.

ЛитератураПравить

  • Дэвид Хэнд. Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных = David J. Hand. Dark Data Why What We Don’t Know Is Even More Important Than What We Do. — М.: Альпина Паблишер, 2021. — 366 с. — ISBN 978-5-9614-4143-7.