Семантическая неоднородность - Semantic heterogeneity

Семантическая неоднородность когда схема базы данных или же наборы данных для одного и того же домена разрабатываются независимыми сторонами, что приводит к различиям в значении и интерпретации значений данных.[1] Вне структурированные данные, проблема семантической неоднородности усугубляется гибкостью полуструктурированные данные и различные маркировка методы, применяемые к документам или неструктурированные данные. Семантическая неоднородность - один из наиболее важных источников различий в разнородные наборы данных.

Тем не менее, чтобы несколько источников данных могли взаимодействовать друг с другом, важно согласовать эти семантический различия. Разложение различных источников семантических неоднородностей обеспечивает основу для понимания того, как отображать и преобразовывать данные для преодоления этих различий.

Классификация

Одна из первых известных схем классификации, применяемая к семантика данных от Уильяма Кента более двух десятилетий назад.[2] Подход Кента касался больше структурных отображение проблемы, чем различия в значении, на которые он указал словари данных как потенциально решение.

Одна из наиболее полных классификаций взята из Pluempitiwiriyawej и Hammer, «Схема классификации семантических и схематических неоднородностей в источниках данных XML».[3] Они классифицируют неоднородности на три широких класса:

  • Структурные Конфликты возникают, когда в схеме источников, представляющих связанные или перекрывающиеся данные, есть расхождения. Структурные конфликты можно обнаружить при сравнении базовой схемы. Класс структурных конфликтов включает конфликты обобщения, конфликты агрегации, несоответствие внутреннего пути, недостающие элементы, порядок элементов, несоответствие ограничений и типов, а также конфликты именования между типами элементов и именами атрибутов.
  • Домен конфликты возникают, когда семантика источников данных, которые будут интегрированы, обнаруживает несоответствия. Конфликты доменов можно обнаружить, просмотрев информацию, содержащуюся в схеме, и используя знания о базовых доменах данных. Класс конфликтов предметной области включает несоответствие схем, масштабы или единицы измерения, точность и конфликты представления данных.
  • Данные Под конфликтами понимаются расхождения между похожими или связанными значениями данных из нескольких источников. Конфликты данных можно обнаружить только путем сравнения основных источников. Класс конфликтов данных включает в себя ID-значение, недостающие данные, неправильное написание и конфликты именования между содержимым элемента и значениями атрибутов.

Более того, несовпадения или конфликты могут возникать между элементами набора (несоответствие "совокупности") или атрибутами (несоответствие "описания").

Майкл Бергман расширил эту схему, добавив четвертую основную явную категорию языка, а также добавил несколько примеров каждого вида семантической неоднородности, в результате чего получилось около 40 различных потенциальных категорий. [4].[5] В этой таблице показаны объединенные 40 возможных источников семантической неоднородности в разных источниках:

Учебный классКатегорияПодкатегорияПримеры

Язык

Кодирование

Несоответствие кодировки загрузки

Например, ASCII v UTF-8

Отсутствие кодировки загрузкиНеправильное распознавание токенов из-за того, что они не анализируются с использованием правильной кодировки
Несоответствие кодировки запросаНапример, ASCII v UTF-8 в поиске
Отсутствие кодировки запросовНеправильное распознавание поисковых токенов из-за того, что они не анализируются с использованием правильной кодировки
ЯзыкиНесоответствие скриптаРазличия в том, как парсеры обрабатывают, например, выделение корней, пробелы или дефисы
Ошибки синтаксического анализа / морфологического анализа (много)Арабские языки (справа налево) v Романские языки (слева направо)
Синтаксические ошибки (много)

Ссылки на неоднозначные предложения, например Я рада, что я мужчина, и Лола тоже (Лола к Рэй Дэвис и Перегибы )

Семантические ошибки (много)река банк v Деньги банк v бильярд банк выстрелил
КонцептуальныйИменованиеЧувствительность к региструВерхний регистр v нижний регистр v Случай верблюда

Синонимы

Соединенные Штаты v Соединенные Штаты Америки v Америка v Дядя Сэм v Великий сатана

Акронимы

Соединенные Штаты v Соединенные Штаты Америки v нас

Омонимы

Например, когда одно и то же имя относится к более чем одному понятию, например, Имя относится к человеку. v Имя со ссылкой на книгу
Орфографические ошибкиКак указано
Обобщение / СпециализацияКогда отдельные элементы в одной схеме связаны с несколькими элементами в другой схеме, или наоборот. Например, одна схема может относиться к «телефону», но другая схема имеет несколько элементов, таких как «домашний телефон», «рабочий телефон» и «сотовый телефон».
АгрегацияВнутриагрегацияКогда одно и то же население делится по-разному (например, перепись v Федеральные округа для штатов, Англия v Великобритания v Соединенное Королевство, или полное имя человека v первый-средний-последний)
Взаимное агрегированиеМожет произойти, когда суммы или числа включены в качестве членов набора
Несоответствие внутреннего путиМожет возникать из разных путей извлечения источник-цель в двух разных схемах (например, иерархические структуры, где элементы имеют разные уровни удаления)
Отсутствует пунктНесоответствие содержанияРазличия в перечислениях наборов или включение или отсутствие элементов (например, территории США) в списке штатов США
Отсутствующий контентРазличия в охвате двух или более наборов данных для одной и той же концепции
Несоответствие в списке атрибутовРазличия в полноте атрибутов между двумя или более наборами данных
Отсутствующий атрибутРазличия в охвате двух или более наборов данных для одного и того же атрибута
Эквивалентность предметов

Когда два типа (классы или наборы) утверждаются как одинаковые, когда область видимости и ссылка не являются (например, Берлин город v Берлин официальный город-государство)

Когда два человека объявляются одинаковыми, хотя на самом деле они разные (например, Джон Ф. Кеннеди президент v Джон Ф. Кеннеди авианосец)

Несоответствие типовКогда один и тот же предмет характеризуется разными типами, например, человек обозначен как животное. v человек v человек
Несоответствие ограниченийКогда атрибуты, относящиеся к одному и тому же объекту, имеют разную мощность или утверждения о несвязности

Домен

Схематическое несоответствиеОтображение значения элемента в метку элементаОдна из четырех ошибок, которые могут возникнуть, когда имена атрибутов (например, Волосы v Мех) может относиться к одному и тому же атрибуту или когда те же имена атрибутов (например, Волосы v Волосы) могут относиться к различным областям атрибутов (например, Волосы v Fur) или где значения этих атрибутов могут быть одинаковыми, но относятся к разным фактическим атрибутам, или где значения могут отличаться, но относиться к одному и тому же атрибуту и ​​предполагаемому значению.

Многие из других семантических неоднородностей здесь также способствуют несоответствиям схемы.
Значение атрибута для сопоставления метки элемента
Отображение значения элемента в метку атрибута
Значение атрибута для сопоставления метки атрибута
Масштаб или единицыТип измеренияРазличия, скажем, в метрике v Английские системы измерения или валюты
ЕдиницыРазница, скажем, в метрах v сантиметры v миллиметры
ТочностьНапример, значение 4,1 дюйма в одном наборе данных. v 4.106 в другом наборе данных

Представление данных

Примитивный тип данных

Часто возникает путаница в использовании литералов v URI v типы объектов

Формат данныхРазделение десятичных знаков периодом v запятые; различные форматы даты; с использованием показателей степени или агрегированных единиц (например, тысяч или миллионов)

Данные

ИменованиеЧувствительность к региструВерхний регистр v нижний регистр v Случай верблюда
СинонимыНапример, сантиметры v см
АкронимыНапример, символы валюты v названия валют
ОмонимыНапример, когда одно и то же имя относится к более чем одному атрибуту, например, имя относится к человеку. v Имя со ссылкой на книгу
Орфографические ошибкиКак указано
Несовпадение или отсутствие идентификатора IDURI могут быть здесь особой проблемой из-за фактических несоответствий, но также из-за использования пространств имен или нет и усеченных URI
Отсутствующие данные

Распространенная проблема, более острая с подходами закрытого мира, чем с открытый мир

Порядок элементовЧлены набора могут быть упорядоченными или неупорядоченными, и если они упорядочены, последовательности отдельных элементов или значений могут различаться.

Другой подход к классификации семантики и подходов к интеграции используется Шет и другие.[6] Согласно своей концепции, они разделяют семантику на три формы: неявную, формальную и мощную. Неявная семантика - это то, что либо присутствует, либо легко извлекается; формальные языки, хотя и относительно немногочисленны, встречаются в форме онтологии или другой логика описания; а мощная (мягкая) семантика нечеткая и не ограничивается жесткими назначениями на основе наборов. Основная мысль Sheth et al. Заключается в том, что логика первого порядка (FOL) или логика описания неадекватны сами по себе, чтобы правильно уловить необходимую семантику.

Соответствующие приложения

Помимо взаимодействия данных, соответствующие области в информационные технологии которые зависят от согласования семантических неоднородностей, включают отображение данных, семантическая интеграция, и интеграция корпоративной информации, среди многих других. От концептуальных до фактических данных существуют различия во взглядах, словарях, показателях и условных обозначениях после объединения любых двух источников данных. Явное внимание к этим семантическим неоднородностям - одно из средств получения информации для интеграции или взаимодействия.

Всего двадцать лет назад информационные системы выражали и хранили данные во множестве форматов и систем. Интернет и веб-протоколы многое сделали для устранения этих источников различий. Несмотря на то, что существует большое количество категорий семантической неоднородности, эти категории также являются шаблонными, и их можно предвидеть и исправлять. Эти структурированные источники информируют о том, какую работу необходимо выполнить, чтобы преодолеть семантические различия, в которых они все еще существуют.

Смотрите также

Рекомендации

  1. ^ Алон Халеви (2005). «Почему ваши данные не смешиваются». Очередь. 3 (8).
  2. ^ Уильям Кент (27 февраля - 3 марта 1989 г.). Множество форм одного факта. Труды IEEE COMPCON. Сан-Франциско. 13 стр.
  3. ^ Charnyote Pluempitiwiriyawej и Иоахим Хаммер (сентябрь 2000 г.). «Схема классификации семантических и схематических неоднородностей в источниках данных XML» (PDF). Гейнсвилл, Флорида: Университет Флориды. Технический отчет TR00-004.
  4. ^ М.К. Бергман (6 июня 2006 г.). «Источники и классификация семантических неоднородностей». AI3 ::: Адаптивная информация. Получено 28 сентября 2014.
  5. ^ М.К. Бергман (12 августа 2014 г.). «Большая структура и взаимодействие данных». AI3 ::: Адаптивная информация. Получено 28 сентября 2014.
  6. ^ Амит П. Шет; Картич Рамакришнан; Кристофер Томас (2005). «Семантика семантической сети: неявное, формальное и мощное». Международный журнал по семантической сети и информационным системам. 1 (1): 1–18. Дои:10.4018 / jswis.2005010101.

дальнейшее чтение