Извлечение информации - Information extraction

Извлечение информации (IE) - это задача автоматического извлечения структурированной информации из неструктурированный и / или полуструктурированный машиночитаемый документы и другие источники, представленные в электронном виде. В большинстве случаев эта деятельность касается обработки текстов на человеческом языке с помощью обработка естественного языка (НЛП). Недавняя деятельность в мультимедиа обработка документов, такая как автоматическое добавление комментариев и извлечение контента из изображений / аудио / видео / документов, может рассматриваться как извлечение информации

Из-за сложности проблемы современные подходы к IE сосредоточены на узко ограниченных областях. Примером может служить извлечение из новостной ленты отчетов о корпоративных слияниях, например, обозначенных формальным отношением:

,

из предложения онлайн-новостей, например:

«Вчера компания Foo Inc. из Нью-Йорка объявила о приобретении Bar Corp.»

Основная цель IE - позволить вычислениям выполняться на ранее неструктурированных данных. Более конкретная цель - позволить Логическое объяснение делать выводы на основе логического содержания входных данных. Структурированные данные - это семантически четко определенные данные из выбранного целевого домена, интерпретированные с учетом категории и контекст.

Извлечение информации - это часть большой головоломки, которая связана с проблемой разработки автоматических методов управления текстом, помимо его передачи, хранения и отображения. Дисциплина поиск информации (ИК)[1] разработал автоматические методы, обычно статистического характера, для индексации больших коллекций документов и классификации документов. Другой дополнительный подход - это подход обработка естественного языка (NLP), которая решила проблему моделирования обработки человеческого языка со значительным успехом, учитывая масштабность задачи. С точки зрения сложности и акцента IE решает задачи между IR и NLP. Что касается ввода, IE предполагает наличие набора документов, в котором каждый документ следует шаблону, то есть описывает одну или несколько сущностей или событий способом, аналогичным таковым в других документах, но отличающимся деталями. В качестве примера рассмотрим группу новостных статей о терроризме в Латинской Америке, каждая из которых предположительно основана на одном или нескольких террористических актах. Мы также определяем для любой данной задачи IE шаблон, который представляет собой (или набор) фреймов (ов) для хранения информации, содержащейся в одном документе. В примере с терроризмом в шаблоне должны быть слоты, соответствующие исполнителю, жертве и оружию террористического акта, а также дате, когда произошло событие. Система IE для решения этой проблемы требуется, чтобы «понять» статью об атаке настолько, чтобы найти данные, соответствующие слотам в этом шаблоне.

История

Извлечение информации восходит к концу 1970-х годов, на заре НЛП.[2] Ранняя коммерческая система середины 1980-х годов была создана JASPER для Рейтер компанией Carnegie Group Inc. с целью предоставления финансовые новости в реальном времени финансовым трейдерам.[3]

Начиная с 1987 года, IE был стимулирован серией Сообщения о конференциях. MUC - конференция на основе конкурса[4] который сосредоточился на следующих областях:

  • MUC-1 (1987), MUC-2 (1989): сообщения о морских операциях.
  • MUC-3 (1991), MUC-4 (1992): Терроризм в странах Латинской Америки.
  • MUC-5 (1993): Совместные предприятия и область микроэлектроники.
  • MUC-6 (1995): новостные статьи об изменениях в управлении.
  • MUC-7 (1998): отчеты о запуске спутников.

Значительную поддержку оказало Агентство перспективных исследовательских проектов Министерства обороны США (DARPA ), который хотел автоматизировать рутинные задачи, выполняемые правительственными аналитиками, такие как сканирование газет на предмет возможных связей с терроризмом.[нужна цитата ]

Настоящее значение

Текущее значение IE связано с растущим объемом информации, доступной в неструктурированной форме. Тим Бернерс-Ли, изобретатель Всемирная сеть, относится к существующим Интернет как сеть документы [5] и выступает за то, чтобы больше контента было доступно как сеть данные.[6] Пока это не выяснится, Интернет в основном состоит из неструктурированных документов, лишенных семантики. метаданные. Знания, содержащиеся в этих документах, можно сделать более доступными для машинной обработки путем преобразования в родственная форма, или путем разметки XML теги. Интеллектуальный агент, отслеживающий поток данных новостей, требует, чтобы IE преобразовывал неструктурированные данные во что-то, с чем можно было бы договориться. Типичное применение IE - сканирование набора документов, написанных на естественный язык и заполнить базу данных извлеченной информацией.[7]

Задачи и подзадачи

Применение извлечения информации к тексту связано с проблемой упрощение текста для создания структурированного представления информации, представленной в виде произвольного текста. Общая цель - создать более легко читаемый машинами текст для обработки предложений. Типичные задачи и подзадачи IE включают:

  • Заполнение шаблона: извлечение фиксированного набора полей из документа, например извлекать преступников, жертв, время и т. д. из газетной статьи о террористическом нападении.
    • Извлечение событий: для входящего документа выведите ноль или более шаблонов событий. Например, газетная статья может описывать несколько террористических атак.
  • База знаний Население: Заполните базу данных фактов с помощью набора документов. Обычно база данных имеет форму триплетов (объект 1, отношение, объект 2), например (Барак Обама, Супруг, Мишель Обама )
    • Признание именной организации: распознавание известных имен объектов (для людей и организаций), географических названий, временных выражений и определенных типов числовых выражений путем использования существующих знаний о предметной области или информации, извлеченной из других предложений.[8] Обычно задача распознавания включает присвоение извлеченному объекту уникального идентификатора. Более простая задача - обнаружение именованных объектов, который направлен на обнаружение сущностей без каких-либо существующих знаний об экземплярах сущностей. Например, при обработке предложения «М. Смит любит рыбалку», обнаружение именованных объектов обозначил бы обнаружение что фраза "М. Смит" действительно относится к человеку, но не обязательно имеющему (или использующему) какие-либо знания об определенных М. Смит кто (или «может быть») конкретный человек, о котором говорится в этом предложении.
    • Coreference разрешение: обнаружение Coreference и анафорический ссылки между текстовыми объектами. В задачах IE это обычно ограничивается поиском связей между ранее извлеченными именованными объектами. Например, «International Business Machines» и «IBM» относятся к одному и тому же реальному объекту. Если мы возьмем два предложения «М. Смит любит рыбалку. Но он не любит ездить на велосипеде», было бы полезно обнаружить, что «он» имеет в виду ранее обнаруженного человека «М. Смит».
    • Извлечение отношений: идентификация отношений между сущностями,[8] такие как:
      • ПЕРСОН работает на ОРГАНИЗАЦИЮ (извлечено из предложения «Билл работает на IBM»).
      • PERSON, расположенный в LOCATION (извлечено из предложения "Bill is in France").
  • Извлечение полуструктурированной информации, которое может относиться к любому IE, который пытается восстановить какую-либо информационную структуру, которая была потеряна в результате публикации, например:
    • Извлечение таблиц: поиск и извлечение таблиц из документов.[9][10]
    • Извлечение информации из таблиц: извлечение информации из таблиц в структурированном виде. Это более сложная задача, чем извлечение таблицы, поскольку извлечение таблицы - это только первый шаг, а понимание ролей ячеек, строк, столбцов, связывание информации внутри таблицы и понимание информации, представленной в таблице, являются дополнительными задачами, необходимыми для таблицы извлечение информации. [11][12][13]
    • Извлечение комментариев: извлечение комментариев из фактического содержания статьи для восстановления связи между авторами каждого предложения
  • Анализ языка и словарного запаса
  • Аудио извлечение
    • Извлечение музыки на основе шаблонов: поиск соответствующей характеристики в звуковом сигнале, взятом из заданного репертуара; например [14] временные индексы появления ударных звуков могут быть извлечены, чтобы представить основной ритмический компонент музыкального произведения.

Обратите внимание, что этот список не является исчерпывающим и что точное значение действий IE не является общепринятым, и что многие подходы объединяют несколько подзадач IE для достижения более широкой цели. В IE часто используются машинное обучение, статистический анализ и / или обработка естественного языка.

IE на нетекстовых документах становится все более интересной темой[когда? ] в исследованиях, а информация, извлеченная из мультимедийных документов, теперь может[когда? ] быть выраженным в структуре высокого уровня, как это делается в тексте. Это, естественно, приводит к слиянию информации, извлеченной из различных документов и источников.

Приложения World Wide Web

IE был в центре внимания конференций MUC. Распространение Интернет однако усилилась потребность в разработке систем IE, которые помогают людям справляться с огромное количество данных который доступен в Интернете. Системы, которые выполняют IE из онлайн-текста, должны отвечать требованиям низкой стоимости, гибкости в разработке и легкой адаптации к новым доменам. Системы MUC не соответствуют этим критериям. Более того, лингвистический анализ, выполняемый для неструктурированного текста, не использует HTML /XML теги и форматы макетов, доступные в онлайн-текстах. В результате для IE в Интернете были разработаны менее лингвистические подходы с использованием обертки, которые представляют собой наборы очень точных правил, которые извлекают содержимое определенной страницы. Ручная разработка оболочек оказалась трудоемкой задачей, требующей высокого уровня знаний. Машинное обучение техники, либо под наблюдением или без присмотра, использовались для автоматического установления таких правил.

Обертки обычно обрабатывают сильно структурированные коллекции веб-страниц, такие как каталоги продуктов и телефонные справочники. Однако они терпят неудачу, когда тип текста менее структурирован, что также часто встречается в Интернете. Недавние усилия по адаптивное извлечение информации мотивирует разработку систем IE, которые могут обрабатывать различные типы текста, от хорошо структурированного до почти свободного текста (где обычные оболочки не работают), включая смешанные типы. Такие системы могут использовать поверхностное знание естественного языка и, таким образом, также могут применяться к менее структурированным текстам.

Недавний[когда? ] разработка - визуальное извлечение информации,[15][16] который основан на отображении веб-страницы в браузере и создании правил на основе близости регионов на отображаемой веб-странице. Это помогает извлекать объекты из сложных веб-страниц, которые могут демонстрировать визуальный узор, но не иметь заметного шаблона в исходном коде HTML.

Подходы

В настоящее время широко распространены следующие стандартные подходы:

Для IE существует множество других подходов, включая гибридные подходы, которые объединяют некоторые из стандартных подходов, перечисленных ранее.

Бесплатное или открытое программное обеспечение и услуги

Смотрите также

использованная литература

  1. ^ ФРЕИТАГ, ДЭЙН. «Машинное обучение для извлечения информации в неформальных областях» (PDF). 2000 Kluwer Academic Publishers. Напечатано в Нидерландах.
  2. ^ Андерсен, Пегги М .; Hayes, Филип Дж .; Huettner, Alison K .; Schmandt, Linda M .; Ниренбург, Ирэн Б.; Вайнштейн, Стивен П. (1992). «Автоматическое извлечение фактов из пресс-релизов для создания новостей». Труды третьей конференции по прикладной обработке естественного языка -. С. 170–177. CiteSeerX  10.1.1.14.7943. Дои:10.3115/974499.974531. S2CID  14746386.
  3. ^ Коуи, Джим; Уилкс, Йорик (1996). Извлечение информации (PDF). п. 3. CiteSeerX  10.1.1.61.6480. S2CID  10237124.
  4. ^ Марко Константино, Паоло Колетти, Извлечение информации в финансах, Wit Press, 2008. ISBN  978-1-84564-146-7
  5. ^ «Связанные данные - история до сих пор» (PDF).
  6. ^ "Тим Бернерс-Ли в следующей сети".
  7. ^ Р. К. Шрихари, В. Ли, Ч. Ниу и Т. Корнелл, «InfoXtract: настраиваемый механизм извлечения информации промежуточного уровня»,Журнал инженерии естественного языка,[мертвая ссылка ] Cambridge U. Press, 14 (1), 2008, стр. 33-69.
  8. ^ а б Дат Куок Нгуен и Карин Верспур (2019). «Сквозное извлечение нейронных отношений с использованием глубокого биаффинного внимания». Труды 41-й Европейской конференции по поиску информации (ECIR). arXiv:1812.11275. Дои:10.1007/978-3-030-15712-8_47.
  9. ^ Милошевич Н., Грегсон С., Эрнандес Р., Ненадич Г. (февраль 2019 г.). «Структура для извлечения информации из таблиц в биомедицинской литературе». Международный журнал анализа и распознавания документов (IJDAR). 22 (1): 55–78. arXiv:1902.10031. Bibcode:2019arXiv190210031M. Дои:10.1007 / s10032-019-00317-0. S2CID  62880746.
  10. ^ Милошевич, Никола (2018). Многоуровневый подход к извлечению информации из таблиц в биомедицинских документах (PDF) (Кандидат наук). Манчестерский университет.
  11. ^ Милошевич Н., Грегсон С., Эрнандес Р., Ненадич Г. (февраль 2019 г.). «Структура для извлечения информации из таблиц в биомедицинской литературе». Международный журнал анализа и распознавания документов (IJDAR). 22 (1): 55–78. arXiv:1902.10031. Bibcode:2019arXiv190210031M. Дои:10.1007 / s10032-019-00317-0. S2CID  62880746.
  12. ^ Милошевич Н., Грегсон С., Эрнандес Р., Ненадич Г. (июнь 2016 г.). «Распутывание структуры таблиц в научной литературе». 21-я Международная конференция по применению естественного языка в информационных системах. Конспект лекций по информатике. 21: 162–174. Дои:10.1007/978-3-319-41754-7_14. ISBN  978-3-319-41753-0.
  13. ^ Милошевич, Никола (2018). Многоуровневый подход к извлечению информации из таблиц в биомедицинских документах (PDF) (Кандидат наук). Манчестерский университет.
  14. ^ А. Зилс, Ф. Паше, О. Делерю и Ф. Гуйон, Автоматическое извлечение ударных из полифонических музыкальных сигналов, Proceedings of WedelMusic, Дармштадт, Германия, 2002.
  15. ^ Чентамаракшан, Виджил; Desphande, Prasad M; Кришнапурам, Рагху; Варадараджан, Рамакришнан; Штольце, Кнут (2015). «WYSIWYE: алгебра для выражения пространственных и текстовых правил для извлечения информации». arXiv:1506.08454 [cs.CL ].
  16. ^ Баумгартнер, Роберт; Флеска, Серджио; Готтлоб, Георг (2001). «Извлечение визуальной информации из Интернета с помощью Lixto»: 119–128. CiteSeerX  10.1.1.21.8236. Цитировать журнал требует | журнал = (Помогите)
  17. ^ Peng, F .; МакКаллум, А. (2006). «Извлечение информации из исследовательских работ с использованием условных случайных полей ☆». Обработка информации и управление. 42 (4): 963. Дои:10.1016 / j.ipm.2005.09.002.
  18. ^ Симидзу, Нобуюки; Хасс, Эндрю (2006). «Извлечение представления знаний на основе фреймов из инструкций по маршруту» (PDF). Архивировано из оригинал (PDF) на 2006-09-01. Получено 2010-03-27.

внешние ссылки