Извлечение знаний - Knowledge extraction

Извлечение знаний это создание знание из структурированных (реляционные базы данных, XML ) и неструктурированные (текст, документы, изображений ) источники. Полученные знания должны быть в машиночитаемом и машинно-интерпретируемом формате и должны представлять знания таким образом, чтобы облегчить вывод. Хотя методически он похож на извлечение информации (НЛП ) и ETL (хранилище данных), основным критерием является то, что результат извлечения выходит за рамки создания структурированной информации или преобразования в реляционная схема. Это требует либо повторного использования существующих формальное знание (повторное использование идентификаторов или онтологии ) или генерации схемы на основе исходных данных.

Группа RDB2RDF W3C [1] в настоящее время стандартизирует язык для извлечения рамки описания ресурсов (RDF) из реляционные базы данных. Еще один популярный пример извлечения знаний - преобразование Википедии в структурированные данные а также сопоставление с существующими знание (видеть DBpedia и Freebase ).

Обзор

После стандартизации языков представления знаний, таких как RDF и СОВА, в этой области было проведено много исследований, особенно в отношении преобразования реляционных баз данных в RDF, разрешение личности, открытие знаний и изучение онтологии. В общем процессе используются традиционные методы от извлечение информации и извлечь, преобразовать и загрузить (ETL), которые преобразуют данные из источников в структурированные форматы.

Следующие критерии можно использовать для категоризации подходов в этой теме (некоторые из них учитывают только извлечение из реляционных баз данных):[2]

ИсточникКакие источники данных рассматриваются: текст, реляционные базы данных, XML, CSV
ЭкспозицияКак извлеченные знания становятся явными (файл онтологии, семантическая база данных)? Как вы можете запросить это?
СинхронизацияВыполняется ли процесс извлечения знаний один раз для создания дампа или результат синхронизируется с источником? Статический или динамический. Записываются ли изменения результата (двунаправленные)
Повторное использование словарейИнструмент может повторно использовать существующие словари при извлечении. Например, столбец таблицы "firstName" можно сопоставить с foaf: firstName. Некоторые автоматические подходы не могут отображать словарь.
АвтоматизацияСтепень помощи / автоматизации экстракции. Ручной, графический, полуавтоматический, автоматический.
Требуется онтология предметной областиДля сопоставления с ней необходима уже существующая онтология. Таким образом, либо создается отображение, либо схема извлекается из источника (онтологическое обучение ).

Примеры

Связывание сущностей

  1. Обзор DBpedia, OpenCalais, Данные одуванчикаTXT, API Земанты, Extractiv и PoolParty Extractor анализировать свободный текст через признание названного лица а затем устраняет неоднозначность кандидатов через разрешение имени и связывает найденные объекты с DBpedia хранилище знаний[3] (Демо Dandelion dataTXT или же Веб-демонстрация DBpedia Spotlight или же Демонстрация PoolParty Extractor ).

Президент Обама позвонил в среду в Конгресс продлить налоговые льготы для студентов, включенных в прошлогодний пакет экономических стимулов, утверждая, что эта политика предусматривает более щедрую помощь.

Поскольку президент Обама связан с DBpedia LinkedData ресурс, дополнительная информация может быть получена автоматически и Semantic Reasoner может, например, сделать вывод, что упомянутая сущность относится к типу Человек (с помощью FOAF (программное обеспечение) ) и типа Президенты США (с помощью ЯГО ). Примеры счетчиков: методы, которые распознают только сущности или ссылаются на статьи Википедии и другие цели, не обеспечивающие дальнейшего извлечения структурированных данных и формальных знаний.

Реляционные базы данных в RDF

  1. Утроить, Сервер D2R, Ultrawrap, и Виртуоз RDF Views - это инструменты, которые преобразуют реляционные базы данных в RDF. Во время этого процесса они позволяют повторно использовать существующие словари и онтологии в процессе конвертации. При преобразовании типичной реляционной таблицы с именем пользователи, один столбец (например,имя) или агрегирование столбцов (например,имя и фамилия) должен предоставить URI созданного объекта. Обычно используется первичный ключ. Любой другой столбец может быть извлечен как отношение к этому объекту.[4] Затем свойства с формально определенной семантикой используются (и повторно используются) для интерпретации информации. Например, столбец в пользовательской таблице называется замужем за можно определить как симметричное отношение и столбец домашняя страница может быть преобразован в собственность из Словарь FOAF называется foaf: домашняя страница, квалифицируя его как обратное функциональное свойство. Затем каждая запись Пользователь table можно сделать экземпляром класса foaf: Человек (Население онтологии). Кроме того базовые знания (в форме онтологии) может быть создан из status_id, либо по правилам, созданным вручную (если status_id равно 2, запись принадлежит классу Учитель) или (полу) автоматизированными методами (онтологическое обучение ). Вот пример преобразования:
Имязамужем задомашняя страницаstatus_id
ПитерМэриhttp://example.org/Peters_page[постоянная мертвая ссылка ]1
КлаусЕваhttp://example.org/Claus_page[постоянная мертвая ссылка ]2
:Питер:замужем за:Мэри.:замужем заасова:SymmetricProperty.:Питерfoaf:домашняя страница<http://example.org/Peters_page>.:Питераfoaf:Человек.:Питера:Ученик.:Клауса:Учитель.

Извлечение из структурированных источников в RDF

Отображение 1: 1 таблиц / представлений RDB в сущности / атрибуты / значения RDF

При построении RDB-представления проблемной области отправной точкой часто является диаграмма сущность-связь (ERD). Обычно каждый объект представлен в виде таблицы базы данных, каждый атрибут объекта становится столбцом в этой таблице, а отношения между объектами указываются внешними ключами. Каждая таблица обычно определяет конкретный класс сущности, каждый столбец - один из своих атрибутов. Каждая строка в таблице описывает экземпляр сущности, однозначно идентифицируемый первичным ключом. Строки таблицы в совокупности описывают набор сущностей. В эквивалентном RDF-представлении того же набора сущностей:

  • Каждый столбец в таблице является атрибутом (т. Е. Предикатом)
  • Каждое значение столбца является значением атрибута (т. Е. Объекта)
  • Каждый ключ строки представляет идентификатор объекта (т. Е. Тему)
  • Каждая строка представляет экземпляр объекта
  • Каждая строка (экземпляр объекта) представлена ​​в RDF набором троек с общим предметом (идентификатором объекта).

Итак, чтобы отобразить эквивалентное представление на основе семантики RDF, основной алгоритм сопоставления будет следующим:

  1. создать класс RDFS для каждой таблицы
  2. преобразовать все первичные и внешние ключи в IRI
  3. назначить предикат IRI каждому столбцу
  4. назначить предикат rdf: type для каждой строки, связав его с IRI класса RDFS, соответствующим таблице
  5. для каждого столбца, который не является частью первичного или внешнего ключа, создайте тройку, содержащую IRI первичного ключа в качестве субъекта, IRI столбца в качестве предиката и значение столбца в качестве объекта.

Раннее упоминание об этом базовом или прямом отображении можно найти в Тим Бернерс-Ли сравнение Модель ER к модели RDF.[4]

Сложные отображения реляционных баз данных в RDF

Упомянутое выше сопоставление 1: 1 предоставляет унаследованные данные как RDF простым способом, дополнительные уточнения могут быть использованы для повышения полезности вывода RDF в соответствии с данными сценариями использования. Обычно информация теряется во время преобразования диаграммы сущности-отношения (ERD) в реляционные таблицы (подробности можно найти в объектно-относительное рассогласование импеданса ) и должен быть реконструированный. С концептуальной точки зрения подходы к извлечению могут исходить из двух направлений. Первое направление пытается извлечь или изучить схему OWL из данной схемы базы данных. Ранние подходы использовали фиксированное количество созданных вручную правил сопоставления для уточнения сопоставления 1: 1.[5][6][7] Более сложные методы используют эвристику или алгоритмы обучения для получения схематической информации (методы перекрываются с онтологическое обучение ). Хотя некоторые подходы пытаются извлечь информацию из структуры, присущей схеме SQL[8] (анализируя, например, внешние ключи), другие анализируют содержимое и значения в таблицах для создания концептуальных иерархий[9] (например, столбцы с небольшим количеством значений могут стать категориями). Второе направление пытается сопоставить схему и ее содержимое с уже существующей онтологией домена (см. Также: согласование онтологий ). Однако часто подходящая онтология предметной области не существует, и ее необходимо сначала создать.

XML

Поскольку XML имеет древовидную структуру, любые данные можно легко представить в RDF, который имеет структуру графа. XML2RDF является одним из примеров подхода, который использует пустые узлы RDF и преобразует элементы и атрибуты XML в свойства RDF. Однако тема более сложная, как в случае с реляционными базами данных. В реляционной таблице первичный ключ - идеальный кандидат на роль объекта извлеченных троек. Однако элемент XML может быть преобразован - в зависимости от контекста - как субъект, предикат или объект тройки. XSLT можно использовать стандартный язык преобразования для ручного преобразования XML в RDF.

Обзор методов / инструментов

ИмяИсточник данныхЭкспозиция данныхСинхронизация данныхЯзык отображенияПовторное использование словарного запасаКартографический автомат.Треб. Онтология доменаИспользует графический интерфейс
Прямое отображение реляционных данных в RDFРеляционные данныеSPARQL / ETLдинамичныйНет данныхложныйавтоматическийложныйложный
CSV2RDF4LODCSVETLстатическийRDFистинныйруководстволожныйложный
CoNLL-RDFTSV, CoNLLПоток SPARQL / RDFстатическийниктоистинныйавтоматический (зависящий от предметной области, для случаев использования в языковых технологиях, сохраняет отношения между строками)ложныйложный
Конвертировать2RDFТекстовый файл с разделителямиETLстатическийRDF / DAMLистинныйруководстволожныйистинный
Сервер D2RRDBSPARQLдвунаправленныйКарта D2Rистинныйруководстволожныйложный
DartGridRDBсобственный язык запросовдинамичныйВизуальный инструментистинныйруководстволожныйистинный
DataMasterRDBETLстатическийпроприетарныйистинныйруководствоистинныйистинный
Расширение RDF от Google RefineCSV, XMLETLстатическийниктополуавтоматическийложныйистинный
KrextorXMLETLстатическийxsltистинныйруководствоистинныйложный
МАПОНТОRDBETLстатическийпроприетарныйистинныйруководствоистинныйложный
МЕТАморфозыRDBETLстатическийсобственный язык сопоставления на основе xmlистинныйруководстволожныйистинный
MappingMasterCSVETLстатическийMappingMasterистинныйGUIложныйистинный
ODEMapsterRDBETLстатическийпроприетарныйистинныйруководствоистинныйистинный
Подключаемый модуль OntoWiki CSV Importer - DataCube и TabularCSVETLстатическийСловарь RDF Data Cube Vocaublaryистинныйполуавтоматическийложныйистинный
Poolparty Extraktor (PPX)XML, текстLinkedDataдинамичныйRDF (SKOS)истинныйполуавтоматическийистинныйложный
RDBToOntoRDBETLстатическийниктоложныйавтоматически, пользователь, кроме того, имеет возможность точной настройки результатовложныйистинный
RDF 123CSVETLстатическийложныйложныйруководстволожныйистинный
RDOTERDBETLстатическийSQLистинныйруководствоистинныйистинный
Relational.OWLRDBETLстатическийниктоложныйавтоматическийложныйложный
T2LDCSVETLстатическийложныйложныйавтоматическийложныйложный
Словарь RDF Data Cube VocabularyМногомерные статистические данные в электронных таблицахСловарь куба данныхистинныйруководстволожный
Композитор TopBraidCSVETLстатическийSKOSложныйполуавтоматическийложныйистинный
УтроитьRDBLinkedDataдинамичныйSQLистинныйруководстволожныйложный
UltrawrapRDBSPARQL / ETLдинамичныйR2RMLистинныйполуавтоматическийложныйистинный
Виртуозные представления RDFRDBSPARQLдинамичныйЯзык мета-схемыистинныйполуавтоматическийложныйистинный
Виртуозный спонджерструктурированные и полуструктурированные источники данныхSPARQLдинамичныйВиртуоз PL и XSLTистинныйполуавтоматическийложныйложный
VisAVisRDBRDQLдинамичныйSQLистинныйруководствоистинныйистинный
XLWrap: электронная таблица в RDFCSVETLстатическийСинтаксис TriGистинныйруководстволожныйложный
XML в RDFXMLETLстатическийложныйложныйавтоматическийложныйложный

Извлечение из источников на естественном языке

Наибольшая часть информации содержится в деловых документах (около 80%[10]) закодирован на естественном языке и поэтому неструктурирован. Потому что неструктурированные данные это скорее проблема для извлечения знаний, требуются более сложные методы, которые обычно дают худшие результаты по сравнению со структурированными данными. Однако возможность массового приобретения извлеченных знаний должна компенсировать возросшую сложность и снижение качества извлечения. В дальнейшем источники на естественном языке понимаются как источники информации, где данные представлены в неструктурированном виде в виде простого текста. Если данный текст дополнительно встроен в документ разметки (например, документ HTML), упомянутые системы обычно автоматически удаляют элементы разметки.

Лингвистическая аннотация / обработка естественного языка (NLP)

В качестве этапа предварительной обработки для извлечения знаний может потребоваться выполнить лингвистическую аннотацию одним или несколькими НЛП инструменты. Отдельные модули в рабочем процессе НЛП обычно строятся на специфичных для инструмента форматах ввода и вывода, но в контексте извлечения знаний были применены структурированные форматы для представления лингвистических аннотаций.

Типичные задачи НЛП, относящиеся к извлечению знаний, включают:

  • теги части речи (POS)
  • лемматизация (LEMMA) или стемминг (STEM)
  • устранение неоднозначности смысла слов (WSD, относящаяся к семантической аннотации ниже)
  • распознавание именованных объектов (NER, также см. IE ниже)
  • синтаксический анализ, часто использующий синтаксические зависимости (DEP)
  • неглубокий синтаксический синтаксический анализ (CHUNK): если производительность является проблемой, разбиение на фрагменты дает быстрое извлечение номинальных и других фраз
  • разрешение анафоры (см. разрешение кореферентности в IE ниже, но здесь рассматривается как задача создания связей между текстовыми упоминаниями, а не между упоминанием объекта и абстрактным представлением объекта)
  • маркировка семантической роли (SRL, связанная с извлечением отношения; не путать с семантической аннотацией, как описано ниже)
  • синтаксический анализ дискурса (отношения между различными предложениями, редко используемые в реальных приложениях)

В NLP такие данные обычно представлены в форматах TSV (форматы CSV с TAB в качестве разделителей), часто называемые форматами CoNLL. Для рабочих процессов извлечения знаний RDF-представления таких данных были созданы в соответствии со следующими стандартами сообщества:

  • Формат обмена NLP (NIF, для многих часто используемых типов аннотаций)[11][12]
  • Веб-аннотация (WA, часто используется для связывания сущностей)[13]
  • CoNLL-RDF (для аннотаций, изначально представленных в форматах TSV)[14][15]

Другие форматы, зависящие от платформы, включают

  • Формат обмена LAPPS (LIF, используется в LAPPS Grid)[16][17]
  • Формат аннотаций NLP (NAF, используется в системе управления рабочим процессом NewsReader)[18][19]

Традиционное извлечение информации (IE)

Традиционный извлечение информации [20] - это технология обработки естественного языка, которая извлекает информацию из текстов на естественном языке и структурирует их подходящим образом. Виды идентифицируемой информации должны быть указаны в модели до начала процесса, поэтому весь процесс традиционного извлечения информации зависит от предметной области. IE разделен на следующие пять подзадач.

Задача признание названного лица заключается в распознавании и категоризации всех именованных сущностей, содержащихся в тексте (присвоение именованной сущности предопределенной категории). Это работает с применением методов, основанных на грамматике или статистических моделей.

Разрешение Coreference определяет в тексте эквивалентные сущности, которые были распознаны NER. Есть два важных типа отношений эквивалентности. Первый относится к отношениям между двумя различными представленными объектами (например, IBM Europe и IBM), а второй - к отношениям между объектом и их анафорические ссылки (например, это и IBM). Оба вида можно распознать по разрешающей способности кореференции.

Во время построения элемента шаблона система IE определяет описательные свойства сущностей, распознаваемые NER и CO. Эти свойства соответствуют обычным качествам, таким как красный или большой.

Построение отношения шаблона определяет отношения, которые существуют между элементами шаблона. Эти отношения могут быть нескольких видов, например, для работы или нахождения, с ограничением, что и домен, и диапазон соответствуют объектам.

В шаблоне сценария производственные события, которые описаны в тексте, будут идентифицированы и структурированы относительно сущностей, распознаваемых NER и CO, и отношений, идентифицированных TR.

Извлечение информации на основе онтологий (OBIE)

Извлечение информации на основе онтологий [10] - подполе извлечения информации, в котором хотя бы одно онтология используется для управления процессом извлечения информации из текста на естественном языке. Система OBIE использует методы традиционного извлечения информации для идентификации концепции, экземпляры и отношения используемых онтологий в тексте, которые будут структурированы в онтологию после процесса. Таким образом, входные онтологии составляют модель извлекаемой информации.

Онтологическое обучение (OL)

Изучение онтологий - это автоматическое или полуавтоматическое создание онтологий, включая извлечение терминов соответствующей области из текста на естественном языке. Поскольку создание онтологий вручную чрезвычайно трудоемко и занимает много времени, есть большая мотивация для автоматизации процесса.

Семантическая аннотация (SA)

Во время семантической аннотации[21] текст на естественном языке дополнен метаданными (часто представленными в RDFa ), что должно сделать семантику содержащихся терминов машинно понятной. В этом процессе, который обычно является полуавтоматическим, извлекаются знания в том смысле, что устанавливается связь между лексическими терминами и, например, понятиями из онтологий. Таким образом, выясняется, какое значение термина в обработанном контексте было предназначено, и, следовательно, значение текста основано на машиночитаемые данные с умением делать выводы. Семантическая аннотация обычно разделяется на следующие две подзадачи.

  1. Извлечение терминологии
  2. Связывание сущностей

На уровне извлечения терминологии из текста извлекаются лексические термины. Для этого токенизатор сначала определяет границы слов и решает сокращения. Затем термины из текста, которые соответствуют концепции, извлекаются с помощью предметно-ориентированного словаря, чтобы связать их при связывании сущностей.

При связывании объекта [22] связь между извлеченными лексическими терминами из исходного текста и концепциями из онтологии или базы знаний, такой как DBpedia Установлено. Для этого с помощью лексики выявляются подходящие концепты к нескольким значениям термина. Наконец, контекст терминов анализируется, чтобы определить наиболее подходящее устранение неоднозначности и присвоить термин правильному понятию.

Обратите внимание, что «семантическую аннотацию» в контексте извлечения знаний не следует путать с семантический анализ в понимании обработки естественного языка (также называемой «семантической аннотацией»): семантический синтаксический анализ направлен на полное машиночитаемое представление естественного языка, тогда как семантическая аннотация в смысле извлечения знаний затрагивает только очень элементарный аспект этого.

Инструменты

Следующие критерии можно использовать для категоризации инструментов, извлекающих знания из текста на естественном языке.

ИсточникКакие входные форматы могут обрабатываться инструментом (например, обычный текст, HTML или PDF)?
Доступ к парадигмеМожет ли инструмент запрашивать источник данных или для процесса извлечения требуется полный дамп?
Синхронизация данныхСинхронизирован ли результат процесса извлечения с источником?
Использует онтологию выводаСвязывает ли инструмент результат с онтологией?
Картографическая автоматизацияНасколько автоматизирован процесс извлечения (ручной, полуавтоматический или автоматический)?
Требуется онтологияНужна ли инструменту онтология для извлечения?
Использует графический интерфейсПредлагает ли инструмент графический пользовательский интерфейс?
ПодходКакой подход (IE, OBIE, OL или SA) используется инструментом?
Извлеченные сущностиКакие типы сущностей (например, именованные сущности, концепции или отношения) могут быть извлечены инструментом?
Прикладные методыКакие методы применяются (например, НЛП, статистические методы, кластеризация или машинное обучение )?
Модель выводаКакая модель используется для представления результата работы инструмента (например, RDF или OWL)?
Поддерживаемые доменыКакие области поддерживаются (например, экономика или биология)?
Поддерживаемые языкиКакие языки можно обрабатывать (например, английский или немецкий)?

В следующей таблице описаны некоторые инструменты для извлечения знаний из источников на естественном языке.

ИмяИсточникДоступ к парадигмеСинхронизация данныхИспользует онтологию выводаКартографическая автоматизацияТребуется онтологияИспользует графический интерфейсПодходИзвлеченные сущностиПрикладные методыМодель выводаПоддерживаемые доменыПоддерживаемые языки
[1] [23]простой текст, HTML, XML, SGMLсвалканетдаавтоматическийдадаIEименованные сущности, отношения, событиялингвистические правилапроприетарныйнезависимый от доменаАнглийский, испанский, арабский, китайский, индонезийский
АлхимияAPI [24]простой текст, HTMLавтоматическийдаSAмногоязычный
ЭННИ [25]простой текстсвалкададаIEалгоритмы конечного состояниямногоязычный
ASIUM [26]простой текстсвалкаполуавтоматическийдаПРконцепции, иерархия понятийНЛП, кластеризация
Исчерпывающая экстракция интенсивности [27]автоматическийIEименованные сущности, отношения, событияНЛП
Dandelion APIпростой текст, HTML, URLОТДЫХнетнетавтоматическийнетдаSAименованные сущности, концепцииСтатистические методыJSONнезависимый от доменамногоязычный
Обзор DBpedia [28]простой текст, HTMLдамп, SPARQLдадаавтоматическийнетдаSAаннотация к каждому слову, аннотация к непрерывным словамНЛП, статистические методы, машинное обучениеRDFaнезависимый от доменаанглийский
EntityClassifier.euпростой текст, HTMLсвалкададаавтоматическийнетдаIE, OL, SAаннотация к каждому слову, аннотация к непрерывным словамоснованная на правилах грамматикаXMLнезависимый от доменаАнглийский, немецкий, голландский
ФРЕД [29]простой текстдамп, REST APIдадаавтоматическийнетдаIE, OL, SA, шаблоны проектирования онтологий, семантика кадра(много) словесная аннотация NIF или EarMark, предикаты, экземпляры, композиционная семантика, таксономия понятий, фреймы, семантические роли, перифрастические отношения, события, модальность, время, связь сущностей, связь событий, тональностьНЛП, машинное обучение, эвристические правилаRDF / OWLнезависимый от доменаАнглийский, другие языки через перевод
iDocument [30]HTML, PDF, DOCSPARQLдадаOBIEэкземпляры, значения свойствНЛПличное дело
NetOwl Extractor [31]простой текст, HTML, XML, SGML, PDF, MS OfficeсвалкаНетдаАвтоматическийдадаIEименованные сущности, отношения, событияНЛПXML, JSON, RDF-OWL и другиенесколько доменовАнглийский, арабский, китайский (упрощенный и традиционный), французский, корейский, персидский (фарси и дари), русский, испанский
OntoGen [32]полуавтоматическийдаПРпонятия, иерархия понятий, нетаксономические отношения, экземплярыНЛП, машинное обучение, кластеризация
OntoLearn [33]простой текст, HTMLсвалканетдаавтоматическийданетПРконцепции, иерархия понятий, экземплярыНЛП, статистические методыпроприетарныйнезависимый от доменаанглийский
OntoLearn Reloadedпростой текст, HTMLсвалканетдаавтоматическийданетПРконцепции, иерархия понятий, экземплярыНЛП, статистические методыпроприетарныйнезависимый от доменаанглийский
ОнтоСифон [34]HTML, PDF, DOCдамп, поисковые запросынетдаавтоматическийданетOBIEпонятия, отношения, примерыНЛП, статистические методыRDFнезависимый от доменаанглийский
onX [35]простой текстсвалканетдаполуавтоматическийданетOBIEэкземпляры, значения свойств типа данныхэвристические методыпроприетарныйнезависимый от доменанезависимый от языка
OpenCalaisпростой текст, HTML, XMLсвалканетдаавтоматическийданетSAаннотации к сущностям, аннотации к событиям, аннотации к фактамНЛП, машинное обучениеRDFнезависимый от доменаАнглийский, французский, испанский
PoolParty Extractor [36]простой текст, HTML, DOC, ODTсвалканетдаавтоматическийдадаOBIEименованные объекты, понятия, отношения, понятия, которые классифицируют текст, обогащенияНЛП, машинное обучение, статистические методыRDF, OWLнезависимый от доменаАнглийский, немецкий, испанский, французский
Росокапростой текст, HTML, XML, SGML, PDF, MS OfficeсвалкададаАвтоматическийнетдаIEизвлечение именованных сущностей, разрешение сущностей, извлечение отношений, атрибуты, концепции, многовекторность анализ настроений, геотеги, идентификация языкаНЛП, машинное обучениеXML, JSON, POJO, RDFнесколько доменовМногоязычный 200+ языков
СКОБИпростой текст, HTMLсвалканетдаавтоматическийнетнетOBIEэкземпляры, значения свойств, типы RDFSНЛП, машинное обучениеRDF, RDFaнезависимый от доменаАнглийский, немецкий
SemTag [37][38]HTMLсвалканетдаавтоматическийданетSAмашинное обучениезапись в базе данныхнезависимый от доменанезависимый от языка
умный FIXпростой текст, HTML, PDF, DOC, электронная почтасвалкаданетавтоматическийнетдаOBIEназванные объектыНЛП, машинное обучениепроприетарныйнезависимый от доменаАнглийский, немецкий, французский, голландский, польский
Text2Onto [39]простой текст, HTML, PDFсвалкаданетполуавтоматическийдадаПРпонятия, иерархия понятий, нетаксономические отношения, экземпляры, аксиомыНЛП, статистические методы, машинное обучение, методы на основе правилСОВАдеомен-независимыйАнглийский, немецкий, испанский
Text-To-Onto [40]простой текст, HTML, PDF, PostScriptсвалкаполуавтоматическийдадаПРпонятия, иерархия понятий, нетаксономические отношения, лексические объекты, относящиеся к концептам, лексические объекты, относящиеся к отношениямНЛП, машинное обучение, кластеризация, статистические методыНемецкий
ThatNeedleПростой текстсвалкаавтоматическийнетпонятия, отношения, иерархияНЛП, проприетарныйJSONнесколько доменованглийский
Вики-машина [41]простой текст, HTML, PDF, DOCсвалканетдаавтоматическийдадаSAаннотации к существительным собственным, аннотации к существительным нарицательныммашинное обучениеRDFaнезависимый от доменаАнглийский, немецкий, испанский, французский, португальский, итальянский, русский
ThingFinder [42]IEименованные сущности, отношения, событиямногоязычный

Открытие знаний

Обнаружение знаний описывает процесс автоматического поиска в больших объемах данные для моделей, которые можно рассматривать знание о данные.[43] Его часто описывают как получение знания из исходных данных. Открытие знаний развилось из сбор данных домен, и тесно связан с ним как с точки зрения методологии, так и с точки зрения терминологии.[44]

Самая известная ветвь сбор данных открытие знаний, также известное как открытие знаний в базах данных (КДД). Как и многие другие формы открытия знаний, он создает абстракции входных данных. В знание полученные в процессе могут стать дополнительными данные которые можно использовать для дальнейшего использования и обнаружения. Часто результаты открытия знаний не требуют действий, практическое открытие знаний, также известный как интеллектуальный анализ данных на основе предметной области,[45] направлен на обнаружение и предоставление практических знаний и идей.

Еще одно многообещающее применение открытия знаний находится в области модернизация программного обеспечения, обнаружение слабых мест и соответствие требованиям, что предполагает понимание существующих программных артефактов. Этот процесс связан с концепцией разобрать механизм с целью понять, как это работает. Обычно знания, полученные с помощью существующего программного обеспечения, представлены в форме моделей, к которым при необходимости могут быть сделаны конкретные запросы. An отношения сущности - это частый формат представления знаний, полученных с помощью существующего программного обеспечения. Группа управления объектами (OMG) разработала спецификацию Метамодель открытия знаний (KDM), который определяет онтологию для программных активов и их взаимосвязей с целью выполнения обнаружения знаний в существующем коде. Обнаружение знаний из существующих программных систем, также известных как программный майнинг тесно связан с сбор данных, поскольку существующие программные артефакты имеют огромное значение для управления рисками и ценность бизнеса, ключ для оценки и развития программных систем. Вместо майнинга индивидуального наборы данных, программный майнинг фокусируется на метаданные, например, потоки процессов (например, потоки данных, потоки управления и карты вызовов), архитектура, схемы баз данных и бизнес-правила / термины / процесс.

Входные данные

Форматы вывода

Смотрите также

Рекомендации

  1. ^ Рабочая группа RDB2RDF, Веб-сайт: http://www.w3.org/2001/sw/rdb2rdf/, устав: http://www.w3.org/2009/08/rdb2rdf-charter, R2RML: язык отображения RDB в RDF: http://www.w3.org/TR/r2rml/
  2. ^ LOD2 EU Результат 3.1.1 Извлечение знаний из структурированных источников http://static.lod2.eu/Deliverables/deliverable-3.1.1.pdf В архиве 2011-08-27 на Wayback Machine
  3. ^ «Жизнь в облаке связанных данных». www.opencalais.com. Архивировано из оригинал в 2009-11-24. Получено 2009-11-10. В Википедии есть двойник связанных данных под названием DBpedia. DBpedia имеет ту же структурированную информацию, что и Википедия, но переведена в машиночитаемый формат.
  4. ^ а б Тим Бернерс-Ли (1998), «Реляционные базы данных в семантической сети». Дата обращения: 20 февраля 2011.
  5. ^ Hu et al. (2007), «Обнаружение простых соответствий между схемами реляционных баз данных и онтологиями», In Proc. 6-й Международной конференции по семантической паутине (ISWC 2007), 2-й Азиатской конференции по семантической паутине (ASWC 2007), LNCS 4825, страницы 225-238, Пусан, Корея, 11-15 ноября 2007 г. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.97.6934&rep=rep1&type=pdf
  6. ^ Р. Гави и Н. Каллот (2007), "Генерация преобразования базы данных в онтологию для семантической совместимости". В Третьем международном семинаре по взаимодействию баз данных (InterDB 2007). http://le2i.cnrs.fr/IMG/publications/InterDB07-Ghawi.pdf
  7. ^ Ли и др. (2005) «Полуавтоматический метод получения онтологии для семантической паутины», WAIM, том 3739 конспектов лекций по информатике, стр. 209-220. Springer. Дои:10.1007/11563952_19
  8. ^ Tirmizi et al. (2008), «Перевод приложений SQL в семантическую сеть», конспект лекций по информатике, том 5181/2008 (Приложения баз данных и экспертных систем). http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=15E8AB2A37BD06DAE59255A1AC3095F0?doi=10.1.1.140.3169&rep=rep1&type=pdf
  9. ^ Фарид Цербах (2008). «Изучение высоко структурированных семантических репозиториев из реляционных баз данных», Семантическая сеть: исследования и приложения, том 5021 конспектов лекций по информатике, Springer, Берлин / Гейдельберг http://www.tao-project.eu/resources/publications/cerbah-learning-highly-structured-semantic-repositories-from-relational-databases.pdf В архиве 2011-07-20 на Wayback Machine
  10. ^ а б Wimalasuriya, Daya C .; Доу, Дэцзин (2010). «Извлечение информации на основе онтологий: введение и обзор современных подходов», Журнал информатики, 36 (3), с. 306 - 323, http://ix.cs.uoregon.edu/~dou/research/papers/jis09.pdf (дата обращения: 18.06.2012).
  11. ^ «Формат обмена NLP (NIF) 2.0 - Обзор и документация». persistence.uni-leipzig.org. Получено 2020-06-05.
  12. ^ Хеллманн, Себастьян; Леманн, Йенс; Ауэр, Сорен; Брюммер, Мартин (2013). Алани, Харит; Кагал, Лалана; Фокуэ, Ахилл; Грот, Пол; Биманн, Крис; Паррейра, Жозиан Ксавьер; Аройо, Лора; Ной, Наташа; Велти, Крис (ред.). «Интеграция НЛП с использованием связанных данных». Семантическая сеть - ISWC 2013. Конспект лекций по информатике. Берлин, Гейдельберг: Springer. 7908: 98–113. Дои:10.1007/978-3-642-41338-4_7. ISBN  978-3-642-41338-4.
  13. ^ Верспур, Карин; Ливингстон, Кевин (июль 2012 г.). «На пути к адаптации лингвистических аннотаций к формализмам научных аннотаций в семантической сети». Материалы шестого семинара по лингвистической аннотации. Чеджу, Республика Корея: Ассоциация компьютерной лингвистики: 75–84.
  14. ^ acoli-репо / conll-rdf, ACoLi, 2020-05-27, получено 2020-06-05
  15. ^ Чиаркос, Кристиан; Фет, Кристиан (2017). Грация, Хорхе; Бонд, Фрэнсис; McCrae, John P .; Буйтелаар, Пол; Чиаркос, Кристиан; Хеллманн, Себастьян (ред.). «CoNLL-RDF: связанные корпуса, созданные с учетом требований НЛП». Язык, данные и знания. Конспект лекций по информатике. Чам: Издательство Springer International. 10318: 74–88. Дои:10.1007/978-3-319-59888-8_6. ISBN  978-3-319-59888-8.
  16. ^ Верхаген, Марк; Судерман, Кейт; Ван, Ди; Иде, Нэнси; Ши, Чуньци; Райт, Джонатан; Пустеевский, Джеймс (2016). Мураками, Йохей; Линь, Дунхуэй (ред.). «Формат обмена LAPPS». Инфраструктура языковых услуг по всему миру. Конспект лекций по информатике. Чам: Издательство Springer International. 9442: 33–47. Дои:10.1007/978-3-319-31468-6_3. ISBN  978-3-319-31468-6.
  17. ^ "The Language Application Grid | Платформа веб-сервисов для разработки и исследований в области обработки естественного языка". Получено 2020-06-05.
  18. ^ программа чтения новостей / NAF, NewsReader, 2020-05-25, получено 2020-06-05
  19. ^ Фоссен, Пик; Аджерри, Родриго; Алдабе, Итциар; Цибульская, Агата; ван Эрп, Мариеке; Фоккенс, Антске; Лапарра, Эгоитц; Минар, Анн-Лиз; Палмеро Апросио, Алессио; Ригау, немецкий; Роспочер, Марко (15.10.2016). «NewsReader: использование ресурсов знаний в многоязычной читающей машине для получения дополнительных знаний из огромных потоков новостей». Системы, основанные на знаниях. 110: 60–85. Дои:10.1016 / j.knosys.2016.07.013. ISSN  0950-7051.
  20. ^ Каннингем, Хэмиш (2005). "Извлечение информации, автоматическое", Энциклопедия языка и лингвистики, 2, с. 665 - 677, http://gate.ac.uk/sale/ell2/ie/main.pdf (дата обращения: 18.06.2012).
  21. ^ Erdmann, M .; Маэдче, Александр; Schnurr, H.-P .; Стааб, Штеффен (2000). «От ручного к полуавтоматической семантической аннотации: об инструментах аннотации текста на основе онтологий», Труды COLING, http://www.ida.liu.se/ext/epa/cis/2001/002/paper.pdf (дата обращения: 18.06.2012).
  22. ^ Рао, Делип; Макнейми, Пол; Дредзе, Марк (2011). «Связывание сущностей: поиск извлеченных сущностей в базе знаний», Извлечение и обобщение информации из нескольких источников и языков, http://www.cs.jhu.edu/~delip/entity-linking.pdf[постоянная мертвая ссылка ] (дата обращения: 18.06.2012).
  23. ^ Rocket Software, Inc. (2012). «технология извлечения интеллекта из текста», http://www.rocketsoftware.com/products/aerotext В архиве 2013-06-21 на Wayback Machine (дата обращения: 18.06.2012).
  24. ^ Orchestr8 (2012): "Обзор AlchemyAPI", http://www.alchemyapi.com/api В архиве 2016-05-13 в Wayback Machine (дата обращения: 18.06.2012).
  25. ^ Университет Шеффилда (2011 г.). "ЭННИ: почти новая система извлечения информации", http://gate.ac.uk/sale/tao/splitch6.html#chap:annie (дата обращения: 18.06.2012).
  26. ^ Сеть передового опыта ПДОДИ. «ASIUM (LRI)», http://www-ai.ijs.si/~ilpnet2/systems/asium.html (дата обращения: 18.06.2012).
  27. ^ Посещаемость (2012). «Исчерпывающая экстракция», http://www.attensity.com/products/technology/semantic-server/exhaustive-extraction/ В архиве 2012-07-11 в Wayback Machine (дата обращения: 18.06.2012).
  28. ^ Mendes, Pablo N .; Якоб, Макс; Гарсия-Сильва, Андрес; Бизер; Кристиан (2011). "В центре внимания DBpedia: проливаем свет на сеть документов", Материалы 7-й Международной конференции по семантическим системам, п. 1 - 8, http://www.wiwiss.fu-berlin.de/en/institute/pwo/bizer/research/publications/Mendes-Jakob-GarciaSilva-Bizer-DBpediaSpotlight-ISEM2011.pdf В архиве 2012-04-05 в Wayback Machine (дата обращения: 18.06.2012).
  29. ^ Гангеми, Альдо; Пресутти, Валентина; Рефорджато Рекуперо, Диего; Нуццолезе, Андреа Джованни; Драиккио, Франческо; Mongiovì, Misael (2016). "Машинное чтение семантической паутины с FRED", Семантический веб-журнал, Дои: 10.3233 / SW-160240, http://www.semantic-web-journal.net/system/files/swj1379.pdf
  30. ^ Адриан, Бенджамин; Маус, Хейко; Денгел, Андреас (2009). «iDocument: Использование онтологий для извлечения информации из текста», http://www.dfki.uni-kl.de/~maus/dok/AdrianMausDengel09.pdf (дата обращения: 18.06.2012).
  31. ^ SRA International, Inc. (2012). "NetOwl Extractor", http://www.sra.com/netowl/entity-extraction/ В архиве 2012-09-24 в Wayback Machine (дата обращения: 18.06.2012).
  32. ^ Фортуна, Блаз; Гробельник, Марко; Младенич, Дунья (2007). "OntoGen: полуавтоматический редактор онтологий", Материалы конференции 2007 года по интерфейсу человека, часть 2, п. 309 - 318, http://analytics.ijs.si/~blazf/papers/OntoGen2_HCII2007.pdf (дата обращения: 18.06.2012).
  33. ^ Миссикофф, Микеле; Навильи, Роберто; Веларди, Паола (2002). «Интегрированный подход к изучению и разработке веб-онтологий», Компьютер, 35 (11), с. 60 - 63, http://wwwusers.di.uniroma1.it/~velardi/IEEE_C.pdf (дата обращения: 18.06.2012).
  34. ^ Макдауэлл, Люк К .; Кафарелла, Майкл (2006). «Извлечение информации на основе онтологий с помощью OntoSyphon», Материалы 5-й международной конференции по семантической сети, п. 428 - 444, http://turing.cs.washington.edu/papers/iswc2006McDowell-final.pdf (дата обращения: 18.06.2012).
  35. ^ Йылдыз, Бурку; Микш, Сильвия (2007). "onX - метод извлечения информации на основе онтологий", Труды международной конференции 2007 г. по вычислительным наукам и их приложениям., 3, с. 660–673, http://publik.tuwien.ac.at/files/pub-inf_4769.pdf (дата обращения: 18.06.2012).
  36. ^ semanticweb.org (2011). "PoolParty Extractor", http://semanticweb.org/wiki/PoolParty_Extractor В архиве 2016-03-04 в Wayback Machine (дата обращения: 18.06.2012).
  37. ^ Укроп, Стивен; Эйрон, Надав; Гибсон, Дэвид; Груль, Даниэль; Guha, R .; Джингран, Анант; Канунго, Тапас; Раджагопалан, Шридхар; Томкинс, Эндрю; Томлин, Джон А .; Зиен, Джейсон Ю. (2003). «SemTag и Seeker: загрузка семантической сети с помощью автоматизированной семантической аннотации», Материалы 12-й международной конференции по всемирной паутине, п. 178 - 186, http://www2003.org/cdrom/papers/refereed/p831/p831-dill.html (дата обращения: 18.06.2012).
  38. ^ Урен, Виктория; Чимиано, Филипп; Ирия, Хосе; Хандшу, Зигфрид; Варгас-Вера, Мария; Мотта, Энрико; Чиравенья, Фабио (2006). «Семантическая аннотация для управления знаниями: требования и обзор современного состояния», Веб-семантика: наука, услуги и агенты во всемирной паутине, 4 (1), с. 14 - 28, http://staffwww.dcs.shef.ac.uk/people/J.Iria/iria_jws06.pdf[постоянная мертвая ссылка ], (дата обращения 18.06.2012).
  39. ^ Чимиано, Филипп; Фёлькер, Йоханна (2005). «Text2Onto - платформа для изучения онтологий и обнаружения изменений на основе данных», Труды 10-й Международной конференции по приложениям естественного языка к информационным системам, 3513, с. 227 - 238, http://www.cimiano.de/Publications/2005/nldb05/nldb05.pdf (дата обращения: 18.06.2012).
  40. ^ Маэдче, Александр; Волц, Рафаэль (2001). "Структура извлечения и сопровождения онтологий Text-To-Onto", Материалы Международной конференции IEEE по интеллектуальному анализу данных, http://users.csc.calpoly.edu/~fkurfess/Events/DM-KM-01/Volz.pdf (дата обращения: 18.06.2012).
  41. ^ Связывание машин. «Подключаемся к облаку Linked Open Data», http://thewikimachine.fbk.eu/html/index.html В архиве 2012-07-19 в Wayback Machine (дата обращения: 18.06.2012).
  42. ^ Inxight Federal Systems (2008). «Inxight ThingFinder и ThingFinder Professional», http://inxightfedsys.com/products/sdks/tf/ В архиве 2012-06-29 в Wayback Machine (дата обращения: 18.06.2012).
  43. ^ Фроули Уильям. F. et al. (1992), «Открытие знаний в базах данных: обзор», Журнал AI (Том 13, № 3), 57-70 (онлайн полная версия: http://www.aaai.org/ojs/index.php/aimagazine/article/viewArticle/1011 В архиве 2016-03-04 в Wayback Machine )
  44. ^ Fayyad U. et al. (1996), «От интеллектуального анализа данных к открытию знаний в базах данных», Журнал AI (Том 17, № 3), 37-54 (полная онлайн версия: http://www.aaai.org/ojs/index.php/aimagazine/article/viewArticle/1230 В архиве 2016-05-04 в Wayback Machine
  45. ^ Цао, Л. (2010). «Интеллектуальный анализ данных на основе предметной области: проблемы и перспективы». IEEE Transactions по разработке знаний и данных. 22 (6): 755–769. CiteSeerX  10.1.1.190.8427. Дои:10.1109 / tkde.2010.32. S2CID  17904603.