Слияние данных является процессом объединения источников данных для получения более согласующейся, точной и полезной информации, чем информация от одного отдельного источника[1].

Слияние данных из двух источников (измерения №1 и №2) могут дать классификатор, превосходящий классификаторы, основанные лишь на измерениях №1 или измерениях №2

Процессы слияния данных часто группируются как низкое, среднее или высокое слияние, в зависимости от стадии обработки, на котором слияние производится[2]. Низкоуровневое слияние данных комбинирует некоторые источники сырых данных для получения других сырых данных. Требуется, чтобы слитые данные были более информативны и синтетические[en], чем исходные данные.

Например, сбор и обобщение данных от датчиков[en] известно как (мультисенсорное) слияние данных и является подмножеством объединения информации[en].

Люди как пример слияния данных править

Люди являются прямым примером слияния данных. Как люди, мы опираемся широко на наши чувства, такие как Зрение, Запах, Вкус, Звук и Физическое движение. Комбинация всех этих чувств комбинируется постоянно, чтобы помочь нам в выполнении большинства, если не всех, задач в нашей повседневной жизни. То есть это является прямым примером слияния данных. Мы опираемся на слияние запаха, вкуса и осязание пищи, чтобы убедиться, что она съедобна. Аналогично, мы опираемся на наше зрение и нашу возможность слышать и контролировать движение нашего тела для прогулок или вождения автомобиля и осуществляем большинство задач в нашей жизни. Во всех этих случаях мозг осуществляет слияние и контролирует, что мы должны сделать в следующий момент. Наш мозг опирается на слияние данных, собранных из вышеперечисленных органов чувств[3].

Геопространственные приложения править

В геопространственной области исследования (GIS) слияние данных является часто синонимом интеграции данных. В этих приложениях имеется часто необходимость комбинировать различные наборы данных в объединённые (слитые) наборы данных, которые включает все точки данных. Слитые наборы данных отличаются от простого объединения в том, что точки в слитом наборе данных содержат атрибуты и метаданные, которые могут не содержаться у точек в оригинальном наборе данных.

Упрощённый пример этого процесса показан ниже, где набор данных α сливается с набором данных β, образуя слитый набор данных δ. Точки данных в множестве α имеют пространственные координаты X и Y и атрибуты A1 и A2. Точки данных в множестве β имеют пространственные координаты X и Y и атрибуты B1 и B2. Слитый набор данных содержит все точки и атрибуты.

Входной набор данных α Входной набор данных β Слитый набор данных δ
Точка X Y A1 A2
α1 10 10 M N
α2 10 30 M N
α3 30 10 M N
α4 30 30 M N
Точка X Y B1 B2
β1 20 20 Q R
β2 20 40 Q R
β3 40 20 Q R
β4 40 40 Q R
Точка X Y A1 A2 B1 B2
δ1 10 10 M N Q? R?
δ2 10 30 M N Q? R?
δ3 30 10 M N Q? R?
δ4 30 30 M N Q? R?
δ5 20 20 M? N? Q R
δ6 20 40 M? N? Q R
δ7 40 20 M? N? Q R
δ8 40 40 M? N? Q R

В простом случае, когда все атрибуты однородны по всей области, атрибуты могут быть назначены просто: M?, N?, Q?, R? в M, N, Q, R. В действительных приложениях атрибуты не однородны и нужны обычно некоторые виды интерполяции для правильного назначения атрибутов точкам данных в слитом наборе.

 
Визуализация слитых наборов данных для движения лангуста в Тасмановом море. Изображение образовано с помощью программы Eonfusion компанией Myriax Pty. Ltd. — eonfusion.myriax.com

В существенно более сложном приложении исследователи морских животных использовали слияние данных о движении животных с батиметрическими и метеорологическими данными, с температурой поверхности моря[en] и местообитанием животных для рассмотрения и понимания поведения животных как реакция на внешние воздействия, такие как погода и температура воды. Каждый из этих наборов данных представляет различные пространственные решётки и частоту отбора данных, так что простая комбинация данных, скорее всего, дала бы необоснованные предположения и испортила бы результаты анализа. Однако путём слияния данных все данные и атрибуты собираются вместе в одно целое, в котором создаётся более полная картина окружения. Это даёт возможность учёным определить ключевые места и время и образует новое представление о взаимодействии окружающей среды и поведения животного.

На изображении справа изучаются лобстеры на берегу Тасманского моря. Хью Педерсон из Университета Тасмани использовал программы слияния данных для слияния данных слежения передвижения южного каменного лобстера[en] (на изображении кодирован жёлтым цветом и чёрным для дневного и ночного времени соответственно) с батиметрическими и данными местообитания в одну 4-мерную картину поведения лобстера.

Интеграция данных править

В приложениях вне геопространственных областей использование терминов интеграция данных и слияние данных различается. В таких областях, как бизнес-аналитика, например, термин «интеграция данных» используется для описания комбинирования данных, в то время как термин «слияние данных» является интеграцией с последующим уплотнением и заменой данных. Интеграцию данных можно рассматривать как комбинацию множеств, при которой большее множество сохраняется, в то время как слияние является техникой сокращения множества с улучшением надёжности.

Модель JDL/DFIG править

В середине 1980-х содиректора Лабораторий (англ. Joint Directors of Laboratories, JDL) образовали Подкомиссию Слияния Данных (которая позднее стала известна как Группа Слияния Данных, англ. Data Fusion Group, DFG). С появлением «Всемирной паутины» (World Wide Web) слияние данных стало включать слияние датчиков и слияние информации. Группа JDL/DFIG представила модель слияния данных, которая разделяется на различные процессы. В настоящее время есть шесть уровней модели Группы Слияния Данных (англ. Data Fusion Information Group, DFIG):

Level 0: Предварительная обработка исходных данных/Оценка содержания (англ. Source Preprocessing/subject Assessment)

Level 1: Оценка объекта (англ. Object Assessment)

Level 2: Оценка ситуации (англ. Situation Assessment)

Level 3: Оценка влияния (англ. Impact Assessment) (или Отыскание угроз, англ. Threat Refinement)

Level 4: Усовершенствование процесса (англ. Process Refinement)

Level 5: Пользовательское улучшение (англ. User Refinement или Когнитивное улучшение, англ. Cognitive Refinement)

Хотя модель JDL (уровни 1–4) используется по сей день, она часто критикуется за требование, чтобы уровни обязательно реализовывались в указанном порядке, а также отсутствия адекватного представления участия человека. Модель DFIG (уровни 0–5) учитывает влияние осведомлённости об окружающей обстановке, пользовательские улучшения и управление работами[4]. Несмотря на недостатки, модели JDL/DFIG полезны для визуализации процесса слияния данных, что способствует обсуждению и общему пониманию[5], также имеет важное значение для разработки слияния информации на системном уровне[4].

Области применения править

От различных датчиков трафика на дороге править

Данные от различных сенсорных технологий могут быть скомбинированы разумным образом для определения точного состояния трафика. Подход, основанный на слиянии данных, который использует полученные от дороги акустические данные, изображения и данные датчиков, показывает преимущество комбинирования различных индивидуальных методов[6].

Объединение решений править

Во многих случаях географически разбросанные датчики строго ограничены по потреблению энергии и пропускной способности. Поэтому сырые данные, касающиеся определённого явления, часто приводятся к нескольким битам для каждого датчика. Когда делаем вывод о бинарном событии (т.е.   или   ), в крайнем случае только бинарное решение посылается от датчика в центр объединения решений и комбинируется для получения улучшенной классификации[7][8][9].

Для улучшения контекстуальной осведомлённости править

С большим числом встроенных датчиков, включая датчики движения, датчиков окружающей среды, датчиков положения, современные мобильные устройства обычно дают мобильным приложениям получить доступ к большому числу данных от датчиков, которые могут быть использованы для улучшения контекстуальной осведомлённости. Используя техники обработки сигналов и слияния данных, таких как генерация признаков, оценка целесообразности и метод главных компонент для анализа таких данных от датчиков, существенно улучшают классификацию движения и контекстуальное состояния устройства[10].


Примечания править

Литература править

Цитаты править

Источники править

Ссылки править

  1. Haghighat, Abdel-Mottaleb, Alhalabi, 2016, с. 1984-1996.