Извлечение знаний - Knowledge extraction
Извлечение знаний это создание знание из структурированных (реляционные базы данных, XML ) и неструктурированные (текст, документы, изображений ) источники. Полученные знания должны быть в машиночитаемом и машинно-интерпретируемом формате и должны представлять знания таким образом, чтобы облегчить вывод. Хотя методически он похож на извлечение информации (НЛП ) и ETL (хранилище данных), основным критерием является то, что результат извлечения выходит за рамки создания структурированной информации или преобразования в реляционная схема. Это требует либо повторного использования существующих формальное знание (повторное использование идентификаторов или онтологии ) или генерации схемы на основе исходных данных.
Группа RDB2RDF W3C [1] в настоящее время стандартизирует язык для извлечения рамки описания ресурсов (RDF) из реляционные базы данных. Еще один популярный пример извлечения знаний - преобразование Википедии в структурированные данные а также сопоставление с существующими знание (видеть DBpedia и Freebase ).
Обзор
После стандартизации языков представления знаний, таких как RDF и СОВА, в этой области было проведено много исследований, особенно в отношении преобразования реляционных баз данных в RDF, разрешение личности, открытие знаний и изучение онтологии. В общем процессе используются традиционные методы от извлечение информации и извлечь, преобразовать и загрузить (ETL), которые преобразуют данные из источников в структурированные форматы.
Следующие критерии можно использовать для категоризации подходов в этой теме (некоторые из них учитывают только извлечение из реляционных баз данных):[2]
Источник | Какие источники данных рассматриваются: текст, реляционные базы данных, XML, CSV |
---|---|
Экспозиция | Как извлеченные знания становятся явными (файл онтологии, семантическая база данных)? Как вы можете запросить это? |
Синхронизация | Выполняется ли процесс извлечения знаний один раз для создания дампа или результат синхронизируется с источником? Статический или динамический. Записываются ли изменения результата (двунаправленные) |
Повторное использование словарей | Инструмент может повторно использовать существующие словари при извлечении. Например, столбец таблицы "firstName" можно сопоставить с foaf: firstName. Некоторые автоматические подходы не могут отображать словарь. |
Автоматизация | Степень помощи / автоматизации экстракции. Ручной, графический, полуавтоматический, автоматический. |
Требуется онтология предметной области | Для сопоставления с ней необходима уже существующая онтология. Таким образом, либо создается отображение, либо схема извлекается из источника (онтологическое обучение ). |
Примеры
Связывание сущностей
- Обзор DBpedia, OpenCalais, Данные одуванчикаTXT, API Земанты, Extractiv и PoolParty Extractor анализировать свободный текст через признание названного лица а затем устраняет неоднозначность кандидатов через разрешение имени и связывает найденные объекты с DBpedia хранилище знаний[3] (Демо Dandelion dataTXT или же Веб-демонстрация DBpedia Spotlight или же Демонстрация PoolParty Extractor ).
Президент Обама позвонил в среду в Конгресс продлить налоговые льготы для студентов, включенных в прошлогодний пакет экономических стимулов, утверждая, что эта политика предусматривает более щедрую помощь.
- Поскольку президент Обама связан с DBpedia LinkedData ресурс, дополнительная информация может быть получена автоматически и Semantic Reasoner может, например, сделать вывод, что упомянутая сущность относится к типу Человек (с помощью FOAF (программное обеспечение) ) и типа Президенты США (с помощью ЯГО ). Примеры счетчиков: методы, которые распознают только сущности или ссылаются на статьи Википедии и другие цели, не обеспечивающие дальнейшего извлечения структурированных данных и формальных знаний.
Реляционные базы данных в RDF
- Утроить, Сервер D2R, Ultrawrap, и Виртуоз RDF Views - это инструменты, которые преобразуют реляционные базы данных в RDF. Во время этого процесса они позволяют повторно использовать существующие словари и онтологии в процессе конвертации. При преобразовании типичной реляционной таблицы с именем пользователи, один столбец (например,имя) или агрегирование столбцов (например,имя и фамилия) должен предоставить URI созданного объекта. Обычно используется первичный ключ. Любой другой столбец может быть извлечен как отношение к этому объекту.[4] Затем свойства с формально определенной семантикой используются (и повторно используются) для интерпретации информации. Например, столбец в пользовательской таблице называется замужем за можно определить как симметричное отношение и столбец домашняя страница может быть преобразован в собственность из Словарь FOAF называется foaf: домашняя страница, квалифицируя его как обратное функциональное свойство. Затем каждая запись Пользователь table можно сделать экземпляром класса foaf: Человек (Население онтологии). Кроме того базовые знания (в форме онтологии) может быть создан из status_id, либо по правилам, созданным вручную (если status_id равно 2, запись принадлежит классу Учитель) или (полу) автоматизированными методами (онтологическое обучение ). Вот пример преобразования:
Имя | замужем за | домашняя страница | status_id |
---|---|---|---|
Питер | Мэри | http://example.org/Peters_page[постоянная мертвая ссылка ] | 1 |
Клаус | Ева | http://example.org/Claus_page[постоянная мертвая ссылка ] | 2 |
:Питер:замужем за:Мэри.:замужем заасова:SymmetricProperty.:Питерfoaf:домашняя страница<http://example.org/Peters_page>.:Питераfoaf:Человек.:Питера:Ученик.:Клауса:Учитель.
Извлечение из структурированных источников в RDF
Отображение 1: 1 таблиц / представлений RDB в сущности / атрибуты / значения RDF
При построении RDB-представления проблемной области отправной точкой часто является диаграмма сущность-связь (ERD). Обычно каждый объект представлен в виде таблицы базы данных, каждый атрибут объекта становится столбцом в этой таблице, а отношения между объектами указываются внешними ключами. Каждая таблица обычно определяет конкретный класс сущности, каждый столбец - один из своих атрибутов. Каждая строка в таблице описывает экземпляр сущности, однозначно идентифицируемый первичным ключом. Строки таблицы в совокупности описывают набор сущностей. В эквивалентном RDF-представлении того же набора сущностей:
- Каждый столбец в таблице является атрибутом (т. Е. Предикатом)
- Каждое значение столбца является значением атрибута (т. Е. Объекта)
- Каждый ключ строки представляет идентификатор объекта (т. Е. Тему)
- Каждая строка представляет экземпляр объекта
- Каждая строка (экземпляр объекта) представлена в RDF набором троек с общим предметом (идентификатором объекта).
Итак, чтобы отобразить эквивалентное представление на основе семантики RDF, основной алгоритм сопоставления будет следующим:
- создать класс RDFS для каждой таблицы
- преобразовать все первичные и внешние ключи в IRI
- назначить предикат IRI каждому столбцу
- назначить предикат rdf: type для каждой строки, связав его с IRI класса RDFS, соответствующим таблице
- для каждого столбца, который не является частью первичного или внешнего ключа, создайте тройку, содержащую IRI первичного ключа в качестве субъекта, IRI столбца в качестве предиката и значение столбца в качестве объекта.
Раннее упоминание об этом базовом или прямом отображении можно найти в Тим Бернерс-Ли сравнение Модель ER к модели RDF.[4]
Сложные отображения реляционных баз данных в RDF
Упомянутое выше сопоставление 1: 1 предоставляет унаследованные данные как RDF простым способом, дополнительные уточнения могут быть использованы для повышения полезности вывода RDF в соответствии с данными сценариями использования. Обычно информация теряется во время преобразования диаграммы сущности-отношения (ERD) в реляционные таблицы (подробности можно найти в объектно-относительное рассогласование импеданса ) и должен быть реконструированный. С концептуальной точки зрения подходы к извлечению могут исходить из двух направлений. Первое направление пытается извлечь или изучить схему OWL из данной схемы базы данных. Ранние подходы использовали фиксированное количество созданных вручную правил сопоставления для уточнения сопоставления 1: 1.[5][6][7] Более сложные методы используют эвристику или алгоритмы обучения для получения схематической информации (методы перекрываются с онтологическое обучение ). Хотя некоторые подходы пытаются извлечь информацию из структуры, присущей схеме SQL[8] (анализируя, например, внешние ключи), другие анализируют содержимое и значения в таблицах для создания концептуальных иерархий[9] (например, столбцы с небольшим количеством значений могут стать категориями). Второе направление пытается сопоставить схему и ее содержимое с уже существующей онтологией домена (см. Также: согласование онтологий ). Однако часто подходящая онтология предметной области не существует, и ее необходимо сначала создать.
XML
Поскольку XML имеет древовидную структуру, любые данные можно легко представить в RDF, который имеет структуру графа. XML2RDF является одним из примеров подхода, который использует пустые узлы RDF и преобразует элементы и атрибуты XML в свойства RDF. Однако тема более сложная, как в случае с реляционными базами данных. В реляционной таблице первичный ключ - идеальный кандидат на роль объекта извлеченных троек. Однако элемент XML может быть преобразован - в зависимости от контекста - как субъект, предикат или объект тройки. XSLT можно использовать стандартный язык преобразования для ручного преобразования XML в RDF.
Обзор методов / инструментов
Имя | Источник данных | Экспозиция данных | Синхронизация данных | Язык отображения | Повторное использование словарного запаса | Картографический автомат. | Треб. Онтология домена | Использует графический интерфейс |
---|---|---|---|---|---|---|---|---|
Прямое отображение реляционных данных в RDF | Реляционные данные | SPARQL / ETL | динамичный | Нет данных | ложный | автоматический | ложный | ложный |
CSV2RDF4LOD | CSV | ETL | статический | RDF | истинный | руководство | ложный | ложный |
CoNLL-RDF | TSV, CoNLL | Поток SPARQL / RDF | статический | никто | истинный | автоматический (зависящий от предметной области, для случаев использования в языковых технологиях, сохраняет отношения между строками) | ложный | ложный |
Конвертировать2RDF | Текстовый файл с разделителями | ETL | статический | RDF / DAML | истинный | руководство | ложный | истинный |
Сервер D2R | RDB | SPARQL | двунаправленный | Карта D2R | истинный | руководство | ложный | ложный |
DartGrid | RDB | собственный язык запросов | динамичный | Визуальный инструмент | истинный | руководство | ложный | истинный |
DataMaster | RDB | ETL | статический | проприетарный | истинный | руководство | истинный | истинный |
Расширение RDF от Google Refine | CSV, XML | ETL | статический | никто | полуавтоматический | ложный | истинный | |
Krextor | XML | ETL | статический | xslt | истинный | руководство | истинный | ложный |
МАПОНТО | RDB | ETL | статический | проприетарный | истинный | руководство | истинный | ложный |
МЕТАморфозы | RDB | ETL | статический | собственный язык сопоставления на основе xml | истинный | руководство | ложный | истинный |
MappingMaster | CSV | ETL | статический | MappingMaster | истинный | GUI | ложный | истинный |
ODEMapster | RDB | ETL | статический | проприетарный | истинный | руководство | истинный | истинный |
Подключаемый модуль OntoWiki CSV Importer - DataCube и Tabular | CSV | ETL | статический | Словарь RDF Data Cube Vocaublary | истинный | полуавтоматический | ложный | истинный |
Poolparty Extraktor (PPX) | XML, текст | LinkedData | динамичный | RDF (SKOS) | истинный | полуавтоматический | истинный | ложный |
RDBToOnto | RDB | ETL | статический | никто | ложный | автоматически, пользователь, кроме того, имеет возможность точной настройки результатов | ложный | истинный |
RDF 123 | CSV | ETL | статический | ложный | ложный | руководство | ложный | истинный |
RDOTE | RDB | ETL | статический | SQL | истинный | руководство | истинный | истинный |
Relational.OWL | RDB | ETL | статический | никто | ложный | автоматический | ложный | ложный |
T2LD | CSV | ETL | статический | ложный | ложный | автоматический | ложный | ложный |
Словарь RDF Data Cube Vocabulary | Многомерные статистические данные в электронных таблицах | Словарь куба данных | истинный | руководство | ложный | |||
Композитор TopBraid | CSV | ETL | статический | SKOS | ложный | полуавтоматический | ложный | истинный |
Утроить | RDB | LinkedData | динамичный | SQL | истинный | руководство | ложный | ложный |
Ultrawrap | RDB | SPARQL / ETL | динамичный | R2RML | истинный | полуавтоматический | ложный | истинный |
Виртуозные представления RDF | RDB | SPARQL | динамичный | Язык мета-схемы | истинный | полуавтоматический | ложный | истинный |
Виртуозный спонджер | структурированные и полуструктурированные источники данных | SPARQL | динамичный | Виртуоз PL и XSLT | истинный | полуавтоматический | ложный | ложный |
VisAVis | RDB | RDQL | динамичный | SQL | истинный | руководство | истинный | истинный |
XLWrap: электронная таблица в RDF | CSV | ETL | статический | Синтаксис TriG | истинный | руководство | ложный | ложный |
XML в RDF | XML | ETL | статический | ложный | ложный | автоматический | ложный | ложный |
Извлечение из источников на естественном языке
Наибольшая часть информации содержится в деловых документах (около 80%[10]) закодирован на естественном языке и поэтому неструктурирован. Потому что неструктурированные данные это скорее проблема для извлечения знаний, требуются более сложные методы, которые обычно дают худшие результаты по сравнению со структурированными данными. Однако возможность массового приобретения извлеченных знаний должна компенсировать возросшую сложность и снижение качества извлечения. В дальнейшем источники на естественном языке понимаются как источники информации, где данные представлены в неструктурированном виде в виде простого текста. Если данный текст дополнительно встроен в документ разметки (например, документ HTML), упомянутые системы обычно автоматически удаляют элементы разметки.
Лингвистическая аннотация / обработка естественного языка (NLP)
В качестве этапа предварительной обработки для извлечения знаний может потребоваться выполнить лингвистическую аннотацию одним или несколькими НЛП инструменты. Отдельные модули в рабочем процессе НЛП обычно строятся на специфичных для инструмента форматах ввода и вывода, но в контексте извлечения знаний были применены структурированные форматы для представления лингвистических аннотаций.
Типичные задачи НЛП, относящиеся к извлечению знаний, включают:
- теги части речи (POS)
- лемматизация (LEMMA) или стемминг (STEM)
- устранение неоднозначности смысла слов (WSD, относящаяся к семантической аннотации ниже)
- распознавание именованных объектов (NER, также см. IE ниже)
- синтаксический анализ, часто использующий синтаксические зависимости (DEP)
- неглубокий синтаксический синтаксический анализ (CHUNK): если производительность является проблемой, разбиение на фрагменты дает быстрое извлечение номинальных и других фраз
- разрешение анафоры (см. разрешение кореферентности в IE ниже, но здесь рассматривается как задача создания связей между текстовыми упоминаниями, а не между упоминанием объекта и абстрактным представлением объекта)
- маркировка семантической роли (SRL, связанная с извлечением отношения; не путать с семантической аннотацией, как описано ниже)
- синтаксический анализ дискурса (отношения между различными предложениями, редко используемые в реальных приложениях)
В NLP такие данные обычно представлены в форматах TSV (форматы CSV с TAB в качестве разделителей), часто называемые форматами CoNLL. Для рабочих процессов извлечения знаний RDF-представления таких данных были созданы в соответствии со следующими стандартами сообщества:
- Формат обмена NLP (NIF, для многих часто используемых типов аннотаций)[11][12]
- Веб-аннотация (WA, часто используется для связывания сущностей)[13]
- CoNLL-RDF (для аннотаций, изначально представленных в форматах TSV)[14][15]
Другие форматы, зависящие от платформы, включают
- Формат обмена LAPPS (LIF, используется в LAPPS Grid)[16][17]
- Формат аннотаций NLP (NAF, используется в системе управления рабочим процессом NewsReader)[18][19]
Традиционное извлечение информации (IE)
Традиционный извлечение информации [20] - это технология обработки естественного языка, которая извлекает информацию из текстов на естественном языке и структурирует их подходящим образом. Виды идентифицируемой информации должны быть указаны в модели до начала процесса, поэтому весь процесс традиционного извлечения информации зависит от предметной области. IE разделен на следующие пять подзадач.
- Признание именной организации (NER)
- Разрешение Coreference (CO)
- Построение элемента шаблона (TE)
- Построение отношения шаблона (TR)
- Изготовление шаблонного сценария (ST)
Задача признание названного лица заключается в распознавании и категоризации всех именованных сущностей, содержащихся в тексте (присвоение именованной сущности предопределенной категории). Это работает с применением методов, основанных на грамматике или статистических моделей.
Разрешение Coreference определяет в тексте эквивалентные сущности, которые были распознаны NER. Есть два важных типа отношений эквивалентности. Первый относится к отношениям между двумя различными представленными объектами (например, IBM Europe и IBM), а второй - к отношениям между объектом и их анафорические ссылки (например, это и IBM). Оба вида можно распознать по разрешающей способности кореференции.
Во время построения элемента шаблона система IE определяет описательные свойства сущностей, распознаваемые NER и CO. Эти свойства соответствуют обычным качествам, таким как красный или большой.
Построение отношения шаблона определяет отношения, которые существуют между элементами шаблона. Эти отношения могут быть нескольких видов, например, для работы или нахождения, с ограничением, что и домен, и диапазон соответствуют объектам.
В шаблоне сценария производственные события, которые описаны в тексте, будут идентифицированы и структурированы относительно сущностей, распознаваемых NER и CO, и отношений, идентифицированных TR.
Извлечение информации на основе онтологий (OBIE)
Извлечение информации на основе онтологий [10] - подполе извлечения информации, в котором хотя бы одно онтология используется для управления процессом извлечения информации из текста на естественном языке. Система OBIE использует методы традиционного извлечения информации для идентификации концепции, экземпляры и отношения используемых онтологий в тексте, которые будут структурированы в онтологию после процесса. Таким образом, входные онтологии составляют модель извлекаемой информации.
Онтологическое обучение (OL)
Изучение онтологий - это автоматическое или полуавтоматическое создание онтологий, включая извлечение терминов соответствующей области из текста на естественном языке. Поскольку создание онтологий вручную чрезвычайно трудоемко и занимает много времени, есть большая мотивация для автоматизации процесса.
Семантическая аннотация (SA)
Во время семантической аннотации[21] текст на естественном языке дополнен метаданными (часто представленными в RDFa ), что должно сделать семантику содержащихся терминов машинно понятной. В этом процессе, который обычно является полуавтоматическим, извлекаются знания в том смысле, что устанавливается связь между лексическими терминами и, например, понятиями из онтологий. Таким образом, выясняется, какое значение термина в обработанном контексте было предназначено, и, следовательно, значение текста основано на машиночитаемые данные с умением делать выводы. Семантическая аннотация обычно разделяется на следующие две подзадачи.
На уровне извлечения терминологии из текста извлекаются лексические термины. Для этого токенизатор сначала определяет границы слов и решает сокращения. Затем термины из текста, которые соответствуют концепции, извлекаются с помощью предметно-ориентированного словаря, чтобы связать их при связывании сущностей.
При связывании объекта [22] связь между извлеченными лексическими терминами из исходного текста и концепциями из онтологии или базы знаний, такой как DBpedia Установлено. Для этого с помощью лексики выявляются подходящие концепты к нескольким значениям термина. Наконец, контекст терминов анализируется, чтобы определить наиболее подходящее устранение неоднозначности и присвоить термин правильному понятию.
Обратите внимание, что «семантическую аннотацию» в контексте извлечения знаний не следует путать с семантический анализ в понимании обработки естественного языка (также называемой «семантической аннотацией»): семантический синтаксический анализ направлен на полное машиночитаемое представление естественного языка, тогда как семантическая аннотация в смысле извлечения знаний затрагивает только очень элементарный аспект этого.
Инструменты
Следующие критерии можно использовать для категоризации инструментов, извлекающих знания из текста на естественном языке.
Источник | Какие входные форматы могут обрабатываться инструментом (например, обычный текст, HTML или PDF)? |
Доступ к парадигме | Может ли инструмент запрашивать источник данных или для процесса извлечения требуется полный дамп? |
Синхронизация данных | Синхронизирован ли результат процесса извлечения с источником? |
Использует онтологию вывода | Связывает ли инструмент результат с онтологией? |
Картографическая автоматизация | Насколько автоматизирован процесс извлечения (ручной, полуавтоматический или автоматический)? |
Требуется онтология | Нужна ли инструменту онтология для извлечения? |
Использует графический интерфейс | Предлагает ли инструмент графический пользовательский интерфейс? |
Подход | Какой подход (IE, OBIE, OL или SA) используется инструментом? |
Извлеченные сущности | Какие типы сущностей (например, именованные сущности, концепции или отношения) могут быть извлечены инструментом? |
Прикладные методы | Какие методы применяются (например, НЛП, статистические методы, кластеризация или машинное обучение )? |
Модель вывода | Какая модель используется для представления результата работы инструмента (например, RDF или OWL)? |
Поддерживаемые домены | Какие области поддерживаются (например, экономика или биология)? |
Поддерживаемые языки | Какие языки можно обрабатывать (например, английский или немецкий)? |
В следующей таблице описаны некоторые инструменты для извлечения знаний из источников на естественном языке.
Имя | Источник | Доступ к парадигме | Синхронизация данных | Использует онтологию вывода | Картографическая автоматизация | Требуется онтология | Использует графический интерфейс | Подход | Извлеченные сущности | Прикладные методы | Модель вывода | Поддерживаемые домены | Поддерживаемые языки |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
[1] [23] | простой текст, HTML, XML, SGML | свалка | нет | да | автоматический | да | да | IE | именованные сущности, отношения, события | лингвистические правила | проприетарный | независимый от домена | Английский, испанский, арабский, китайский, индонезийский |
АлхимияAPI [24] | простой текст, HTML | автоматический | да | SA | многоязычный | ||||||||
ЭННИ [25] | простой текст | свалка | да | да | IE | алгоритмы конечного состояния | многоязычный | ||||||
ASIUM [26] | простой текст | свалка | полуавтоматический | да | ПР | концепции, иерархия понятий | НЛП, кластеризация | ||||||
Исчерпывающая экстракция интенсивности [27] | автоматический | IE | именованные сущности, отношения, события | НЛП | |||||||||
Dandelion API | простой текст, HTML, URL | ОТДЫХ | нет | нет | автоматический | нет | да | SA | именованные сущности, концепции | Статистические методы | JSON | независимый от домена | многоязычный |
Обзор DBpedia [28] | простой текст, HTML | дамп, SPARQL | да | да | автоматический | нет | да | SA | аннотация к каждому слову, аннотация к непрерывным словам | НЛП, статистические методы, машинное обучение | RDFa | независимый от домена | английский |
EntityClassifier.eu | простой текст, HTML | свалка | да | да | автоматический | нет | да | IE, OL, SA | аннотация к каждому слову, аннотация к непрерывным словам | основанная на правилах грамматика | XML | независимый от домена | Английский, немецкий, голландский |
ФРЕД [29] | простой текст | дамп, REST API | да | да | автоматический | нет | да | IE, OL, SA, шаблоны проектирования онтологий, семантика кадра | (много) словесная аннотация NIF или EarMark, предикаты, экземпляры, композиционная семантика, таксономия понятий, фреймы, семантические роли, перифрастические отношения, события, модальность, время, связь сущностей, связь событий, тональность | НЛП, машинное обучение, эвристические правила | RDF / OWL | независимый от домена | Английский, другие языки через перевод |
iDocument [30] | HTML, PDF, DOC | SPARQL | да | да | OBIE | экземпляры, значения свойств | НЛП | личное дело | |||||
NetOwl Extractor [31] | простой текст, HTML, XML, SGML, PDF, MS Office | свалка | Нет | да | Автоматический | да | да | IE | именованные сущности, отношения, события | НЛП | XML, JSON, RDF-OWL и другие | несколько доменов | Английский, арабский, китайский (упрощенный и традиционный), французский, корейский, персидский (фарси и дари), русский, испанский |
OntoGen [32] | полуавтоматический | да | ПР | понятия, иерархия понятий, нетаксономические отношения, экземпляры | НЛП, машинное обучение, кластеризация | ||||||||
OntoLearn [33] | простой текст, HTML | свалка | нет | да | автоматический | да | нет | ПР | концепции, иерархия понятий, экземпляры | НЛП, статистические методы | проприетарный | независимый от домена | английский |
OntoLearn Reloaded | простой текст, HTML | свалка | нет | да | автоматический | да | нет | ПР | концепции, иерархия понятий, экземпляры | НЛП, статистические методы | проприетарный | независимый от домена | английский |
ОнтоСифон [34] | HTML, PDF, DOC | дамп, поисковые запросы | нет | да | автоматический | да | нет | OBIE | понятия, отношения, примеры | НЛП, статистические методы | RDF | независимый от домена | английский |
onX [35] | простой текст | свалка | нет | да | полуавтоматический | да | нет | OBIE | экземпляры, значения свойств типа данных | эвристические методы | проприетарный | независимый от домена | независимый от языка |
OpenCalais | простой текст, HTML, XML | свалка | нет | да | автоматический | да | нет | SA | аннотации к сущностям, аннотации к событиям, аннотации к фактам | НЛП, машинное обучение | RDF | независимый от домена | Английский, французский, испанский |
PoolParty Extractor [36] | простой текст, HTML, DOC, ODT | свалка | нет | да | автоматический | да | да | OBIE | именованные объекты, понятия, отношения, понятия, которые классифицируют текст, обогащения | НЛП, машинное обучение, статистические методы | RDF, OWL | независимый от домена | Английский, немецкий, испанский, французский |
Росока | простой текст, HTML, XML, SGML, PDF, MS Office | свалка | да | да | Автоматический | нет | да | IE | извлечение именованных сущностей, разрешение сущностей, извлечение отношений, атрибуты, концепции, многовекторность анализ настроений, геотеги, идентификация языка | НЛП, машинное обучение | XML, JSON, POJO, RDF | несколько доменов | Многоязычный 200+ языков |
СКОБИ | простой текст, HTML | свалка | нет | да | автоматический | нет | нет | OBIE | экземпляры, значения свойств, типы RDFS | НЛП, машинное обучение | RDF, RDFa | независимый от домена | Английский, немецкий |
SemTag [37][38] | HTML | свалка | нет | да | автоматический | да | нет | SA | машинное обучение | запись в базе данных | независимый от домена | независимый от языка | |
умный FIX | простой текст, HTML, PDF, DOC, электронная почта | свалка | да | нет | автоматический | нет | да | OBIE | названные объекты | НЛП, машинное обучение | проприетарный | независимый от домена | Английский, немецкий, французский, голландский, польский |
Text2Onto [39] | простой текст, HTML, PDF | свалка | да | нет | полуавтоматический | да | да | ПР | понятия, иерархия понятий, нетаксономические отношения, экземпляры, аксиомы | НЛП, статистические методы, машинное обучение, методы на основе правил | СОВА | деомен-независимый | Английский, немецкий, испанский |
Text-To-Onto [40] | простой текст, HTML, PDF, PostScript | свалка | полуавтоматический | да | да | ПР | понятия, иерархия понятий, нетаксономические отношения, лексические объекты, относящиеся к концептам, лексические объекты, относящиеся к отношениям | НЛП, машинное обучение, кластеризация, статистические методы | Немецкий | ||||
ThatNeedle | Простой текст | свалка | автоматический | нет | понятия, отношения, иерархия | НЛП, проприетарный | JSON | несколько доменов | английский | ||||
Вики-машина [41] | простой текст, HTML, PDF, DOC | свалка | нет | да | автоматический | да | да | SA | аннотации к существительным собственным, аннотации к существительным нарицательным | машинное обучение | RDFa | независимый от домена | Английский, немецкий, испанский, французский, португальский, итальянский, русский |
ThingFinder [42] | IE | именованные сущности, отношения, события | многоязычный |
Открытие знаний
Обнаружение знаний описывает процесс автоматического поиска в больших объемах данные для моделей, которые можно рассматривать знание о данные.[43] Его часто описывают как получение знания из исходных данных. Открытие знаний развилось из сбор данных домен, и тесно связан с ним как с точки зрения методологии, так и с точки зрения терминологии.[44]
Самая известная ветвь сбор данных открытие знаний, также известное как открытие знаний в базах данных (КДД). Как и многие другие формы открытия знаний, он создает абстракции входных данных. В знание полученные в процессе могут стать дополнительными данные которые можно использовать для дальнейшего использования и обнаружения. Часто результаты открытия знаний не требуют действий, практическое открытие знаний, также известный как интеллектуальный анализ данных на основе предметной области,[45] направлен на обнаружение и предоставление практических знаний и идей.
Еще одно многообещающее применение открытия знаний находится в области модернизация программного обеспечения, обнаружение слабых мест и соответствие требованиям, что предполагает понимание существующих программных артефактов. Этот процесс связан с концепцией разобрать механизм с целью понять, как это работает. Обычно знания, полученные с помощью существующего программного обеспечения, представлены в форме моделей, к которым при необходимости могут быть сделаны конкретные запросы. An отношения сущности - это частый формат представления знаний, полученных с помощью существующего программного обеспечения. Группа управления объектами (OMG) разработала спецификацию Метамодель открытия знаний (KDM), который определяет онтологию для программных активов и их взаимосвязей с целью выполнения обнаружения знаний в существующем коде. Обнаружение знаний из существующих программных систем, также известных как программный майнинг тесно связан с сбор данных, поскольку существующие программные артефакты имеют огромное значение для управления рисками и ценность бизнеса, ключ для оценки и развития программных систем. Вместо майнинга индивидуального наборы данных, программный майнинг фокусируется на метаданные, например, потоки процессов (например, потоки данных, потоки управления и карты вызовов), архитектура, схемы баз данных и бизнес-правила / термины / процесс.
Входные данные
Форматы вывода
- Модель данных
- Метаданные
- Метамодели
- Онтология
- Представление знаний
- Теги знаний
- Бизнес-правило
- Метамодель открытия знаний (KDM)
- Обозначение моделирования бизнес-процессов (BPMN)
- Промежуточное представительство
- Структура описания ресурсов (RDF)
- Показатели программного обеспечения
Смотрите также
Рекомендации
- ^ Рабочая группа RDB2RDF, Веб-сайт: http://www.w3.org/2001/sw/rdb2rdf/, устав: http://www.w3.org/2009/08/rdb2rdf-charter, R2RML: язык отображения RDB в RDF: http://www.w3.org/TR/r2rml/
- ^ LOD2 EU Результат 3.1.1 Извлечение знаний из структурированных источников http://static.lod2.eu/Deliverables/deliverable-3.1.1.pdf В архиве 2011-08-27 на Wayback Machine
- ^ «Жизнь в облаке связанных данных». www.opencalais.com. Архивировано из оригинал в 2009-11-24. Получено 2009-11-10.
В Википедии есть двойник связанных данных под названием DBpedia. DBpedia имеет ту же структурированную информацию, что и Википедия, но переведена в машиночитаемый формат.
- ^ а б Тим Бернерс-Ли (1998), «Реляционные базы данных в семантической сети». Дата обращения: 20 февраля 2011.
- ^ Hu et al. (2007), «Обнаружение простых соответствий между схемами реляционных баз данных и онтологиями», In Proc. 6-й Международной конференции по семантической паутине (ISWC 2007), 2-й Азиатской конференции по семантической паутине (ASWC 2007), LNCS 4825, страницы 225-238, Пусан, Корея, 11-15 ноября 2007 г. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.97.6934&rep=rep1&type=pdf
- ^ Р. Гави и Н. Каллот (2007), "Генерация преобразования базы данных в онтологию для семантической совместимости". В Третьем международном семинаре по взаимодействию баз данных (InterDB 2007). http://le2i.cnrs.fr/IMG/publications/InterDB07-Ghawi.pdf
- ^ Ли и др. (2005) «Полуавтоматический метод получения онтологии для семантической паутины», WAIM, том 3739 конспектов лекций по информатике, стр. 209-220. Springer. Дои:10.1007/11563952_19
- ^ Tirmizi et al. (2008), «Перевод приложений SQL в семантическую сеть», конспект лекций по информатике, том 5181/2008 (Приложения баз данных и экспертных систем). http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=15E8AB2A37BD06DAE59255A1AC3095F0?doi=10.1.1.140.3169&rep=rep1&type=pdf
- ^ Фарид Цербах (2008). «Изучение высоко структурированных семантических репозиториев из реляционных баз данных», Семантическая сеть: исследования и приложения, том 5021 конспектов лекций по информатике, Springer, Берлин / Гейдельберг http://www.tao-project.eu/resources/publications/cerbah-learning-highly-structured-semantic-repositories-from-relational-databases.pdf В архиве 2011-07-20 на Wayback Machine
- ^ а б Wimalasuriya, Daya C .; Доу, Дэцзин (2010). «Извлечение информации на основе онтологий: введение и обзор современных подходов», Журнал информатики, 36 (3), с. 306 - 323, http://ix.cs.uoregon.edu/~dou/research/papers/jis09.pdf (дата обращения: 18.06.2012).
- ^ «Формат обмена NLP (NIF) 2.0 - Обзор и документация». persistence.uni-leipzig.org. Получено 2020-06-05.
- ^ Хеллманн, Себастьян; Леманн, Йенс; Ауэр, Сорен; Брюммер, Мартин (2013). Алани, Харит; Кагал, Лалана; Фокуэ, Ахилл; Грот, Пол; Биманн, Крис; Паррейра, Жозиан Ксавьер; Аройо, Лора; Ной, Наташа; Велти, Крис (ред.). «Интеграция НЛП с использованием связанных данных». Семантическая сеть - ISWC 2013. Конспект лекций по информатике. Берлин, Гейдельберг: Springer. 7908: 98–113. Дои:10.1007/978-3-642-41338-4_7. ISBN 978-3-642-41338-4.
- ^ Верспур, Карин; Ливингстон, Кевин (июль 2012 г.). «На пути к адаптации лингвистических аннотаций к формализмам научных аннотаций в семантической сети». Материалы шестого семинара по лингвистической аннотации. Чеджу, Республика Корея: Ассоциация компьютерной лингвистики: 75–84.
- ^ acoli-репо / conll-rdf, ACoLi, 2020-05-27, получено 2020-06-05
- ^ Чиаркос, Кристиан; Фет, Кристиан (2017). Грация, Хорхе; Бонд, Фрэнсис; McCrae, John P .; Буйтелаар, Пол; Чиаркос, Кристиан; Хеллманн, Себастьян (ред.). «CoNLL-RDF: связанные корпуса, созданные с учетом требований НЛП». Язык, данные и знания. Конспект лекций по информатике. Чам: Издательство Springer International. 10318: 74–88. Дои:10.1007/978-3-319-59888-8_6. ISBN 978-3-319-59888-8.
- ^ Верхаген, Марк; Судерман, Кейт; Ван, Ди; Иде, Нэнси; Ши, Чуньци; Райт, Джонатан; Пустеевский, Джеймс (2016). Мураками, Йохей; Линь, Дунхуэй (ред.). «Формат обмена LAPPS». Инфраструктура языковых услуг по всему миру. Конспект лекций по информатике. Чам: Издательство Springer International. 9442: 33–47. Дои:10.1007/978-3-319-31468-6_3. ISBN 978-3-319-31468-6.
- ^ "The Language Application Grid | Платформа веб-сервисов для разработки и исследований в области обработки естественного языка". Получено 2020-06-05.
- ^ программа чтения новостей / NAF, NewsReader, 2020-05-25, получено 2020-06-05
- ^ Фоссен, Пик; Аджерри, Родриго; Алдабе, Итциар; Цибульская, Агата; ван Эрп, Мариеке; Фоккенс, Антске; Лапарра, Эгоитц; Минар, Анн-Лиз; Палмеро Апросио, Алессио; Ригау, немецкий; Роспочер, Марко (15.10.2016). «NewsReader: использование ресурсов знаний в многоязычной читающей машине для получения дополнительных знаний из огромных потоков новостей». Системы, основанные на знаниях. 110: 60–85. Дои:10.1016 / j.knosys.2016.07.013. ISSN 0950-7051.
- ^ Каннингем, Хэмиш (2005). "Извлечение информации, автоматическое", Энциклопедия языка и лингвистики, 2, с. 665 - 677, http://gate.ac.uk/sale/ell2/ie/main.pdf (дата обращения: 18.06.2012).
- ^ Erdmann, M .; Маэдче, Александр; Schnurr, H.-P .; Стааб, Штеффен (2000). «От ручного к полуавтоматической семантической аннотации: об инструментах аннотации текста на основе онтологий», Труды COLING, http://www.ida.liu.se/ext/epa/cis/2001/002/paper.pdf (дата обращения: 18.06.2012).
- ^ Рао, Делип; Макнейми, Пол; Дредзе, Марк (2011). «Связывание сущностей: поиск извлеченных сущностей в базе знаний», Извлечение и обобщение информации из нескольких источников и языков, http://www.cs.jhu.edu/~delip/entity-linking.pdf[постоянная мертвая ссылка ] (дата обращения: 18.06.2012).
- ^ Rocket Software, Inc. (2012). «технология извлечения интеллекта из текста», http://www.rocketsoftware.com/products/aerotext В архиве 2013-06-21 на Wayback Machine (дата обращения: 18.06.2012).
- ^ Orchestr8 (2012): "Обзор AlchemyAPI", http://www.alchemyapi.com/api В архиве 2016-05-13 в Wayback Machine (дата обращения: 18.06.2012).
- ^ Университет Шеффилда (2011 г.). "ЭННИ: почти новая система извлечения информации", http://gate.ac.uk/sale/tao/splitch6.html#chap:annie (дата обращения: 18.06.2012).
- ^ Сеть передового опыта ПДОДИ. «ASIUM (LRI)», http://www-ai.ijs.si/~ilpnet2/systems/asium.html (дата обращения: 18.06.2012).
- ^ Посещаемость (2012). «Исчерпывающая экстракция», http://www.attensity.com/products/technology/semantic-server/exhaustive-extraction/ В архиве 2012-07-11 в Wayback Machine (дата обращения: 18.06.2012).
- ^ Mendes, Pablo N .; Якоб, Макс; Гарсия-Сильва, Андрес; Бизер; Кристиан (2011). "В центре внимания DBpedia: проливаем свет на сеть документов", Материалы 7-й Международной конференции по семантическим системам, п. 1 - 8, http://www.wiwiss.fu-berlin.de/en/institute/pwo/bizer/research/publications/Mendes-Jakob-GarciaSilva-Bizer-DBpediaSpotlight-ISEM2011.pdf В архиве 2012-04-05 в Wayback Machine (дата обращения: 18.06.2012).
- ^ Гангеми, Альдо; Пресутти, Валентина; Рефорджато Рекуперо, Диего; Нуццолезе, Андреа Джованни; Драиккио, Франческо; Mongiovì, Misael (2016). "Машинное чтение семантической паутины с FRED", Семантический веб-журнал, Дои: 10.3233 / SW-160240, http://www.semantic-web-journal.net/system/files/swj1379.pdf
- ^ Адриан, Бенджамин; Маус, Хейко; Денгел, Андреас (2009). «iDocument: Использование онтологий для извлечения информации из текста», http://www.dfki.uni-kl.de/~maus/dok/AdrianMausDengel09.pdf (дата обращения: 18.06.2012).
- ^ SRA International, Inc. (2012). "NetOwl Extractor", http://www.sra.com/netowl/entity-extraction/ В архиве 2012-09-24 в Wayback Machine (дата обращения: 18.06.2012).
- ^ Фортуна, Блаз; Гробельник, Марко; Младенич, Дунья (2007). "OntoGen: полуавтоматический редактор онтологий", Материалы конференции 2007 года по интерфейсу человека, часть 2, п. 309 - 318, http://analytics.ijs.si/~blazf/papers/OntoGen2_HCII2007.pdf (дата обращения: 18.06.2012).
- ^ Миссикофф, Микеле; Навильи, Роберто; Веларди, Паола (2002). «Интегрированный подход к изучению и разработке веб-онтологий», Компьютер, 35 (11), с. 60 - 63, http://wwwusers.di.uniroma1.it/~velardi/IEEE_C.pdf (дата обращения: 18.06.2012).
- ^ Макдауэлл, Люк К .; Кафарелла, Майкл (2006). «Извлечение информации на основе онтологий с помощью OntoSyphon», Материалы 5-й международной конференции по семантической сети, п. 428 - 444, http://turing.cs.washington.edu/papers/iswc2006McDowell-final.pdf (дата обращения: 18.06.2012).
- ^ Йылдыз, Бурку; Микш, Сильвия (2007). "onX - метод извлечения информации на основе онтологий", Труды международной конференции 2007 г. по вычислительным наукам и их приложениям., 3, с. 660–673, http://publik.tuwien.ac.at/files/pub-inf_4769.pdf (дата обращения: 18.06.2012).
- ^ semanticweb.org (2011). "PoolParty Extractor", http://semanticweb.org/wiki/PoolParty_Extractor В архиве 2016-03-04 в Wayback Machine (дата обращения: 18.06.2012).
- ^ Укроп, Стивен; Эйрон, Надав; Гибсон, Дэвид; Груль, Даниэль; Guha, R .; Джингран, Анант; Канунго, Тапас; Раджагопалан, Шридхар; Томкинс, Эндрю; Томлин, Джон А .; Зиен, Джейсон Ю. (2003). «SemTag и Seeker: загрузка семантической сети с помощью автоматизированной семантической аннотации», Материалы 12-й международной конференции по всемирной паутине, п. 178 - 186, http://www2003.org/cdrom/papers/refereed/p831/p831-dill.html (дата обращения: 18.06.2012).
- ^ Урен, Виктория; Чимиано, Филипп; Ирия, Хосе; Хандшу, Зигфрид; Варгас-Вера, Мария; Мотта, Энрико; Чиравенья, Фабио (2006). «Семантическая аннотация для управления знаниями: требования и обзор современного состояния», Веб-семантика: наука, услуги и агенты во всемирной паутине, 4 (1), с. 14 - 28, http://staffwww.dcs.shef.ac.uk/people/J.Iria/iria_jws06.pdf[постоянная мертвая ссылка ], (дата обращения 18.06.2012).
- ^ Чимиано, Филипп; Фёлькер, Йоханна (2005). «Text2Onto - платформа для изучения онтологий и обнаружения изменений на основе данных», Труды 10-й Международной конференции по приложениям естественного языка к информационным системам, 3513, с. 227 - 238, http://www.cimiano.de/Publications/2005/nldb05/nldb05.pdf (дата обращения: 18.06.2012).
- ^ Маэдче, Александр; Волц, Рафаэль (2001). "Структура извлечения и сопровождения онтологий Text-To-Onto", Материалы Международной конференции IEEE по интеллектуальному анализу данных, http://users.csc.calpoly.edu/~fkurfess/Events/DM-KM-01/Volz.pdf (дата обращения: 18.06.2012).
- ^ Связывание машин. «Подключаемся к облаку Linked Open Data», http://thewikimachine.fbk.eu/html/index.html В архиве 2012-07-19 в Wayback Machine (дата обращения: 18.06.2012).
- ^ Inxight Federal Systems (2008). «Inxight ThingFinder и ThingFinder Professional», http://inxightfedsys.com/products/sdks/tf/ В архиве 2012-06-29 в Wayback Machine (дата обращения: 18.06.2012).
- ^ Фроули Уильям. F. et al. (1992), «Открытие знаний в базах данных: обзор», Журнал AI (Том 13, № 3), 57-70 (онлайн полная версия: http://www.aaai.org/ojs/index.php/aimagazine/article/viewArticle/1011 В архиве 2016-03-04 в Wayback Machine )
- ^ Fayyad U. et al. (1996), «От интеллектуального анализа данных к открытию знаний в базах данных», Журнал AI (Том 17, № 3), 37-54 (полная онлайн версия: http://www.aaai.org/ojs/index.php/aimagazine/article/viewArticle/1230 В архиве 2016-05-04 в Wayback Machine
- ^ Цао, Л. (2010). «Интеллектуальный анализ данных на основе предметной области: проблемы и перспективы». IEEE Transactions по разработке знаний и данных. 22 (6): 755–769. CiteSeerX 10.1.1.190.8427. Дои:10.1109 / tkde.2010.32. S2CID 17904603.