Скрытый семантический анализ - Latent semantic analysis

Скрытый семантический анализ (LSA) - техника в обработка естественного языка, особенно распределительная семантика, анализа отношений между набором документов и содержащимися в них терминами путем создания набора концепций, связанных с документами и терминами. LSA предполагает, что близкие по значению слова встречаются в похожих частях текста ( распределительная гипотеза ). Матрица, содержащая количество слов в документе (строки представляют уникальные слова, а столбцы представляют каждый документ), построена из большого фрагмента текста и математического метода, называемого разложение по сингулярным числам (SVD) используется для уменьшения количества строк при сохранении структуры сходства между столбцами. Затем документы сравниваются, беря косинус угла между двумя векторами (или скалярное произведение между нормализации двух векторов), образованного любыми двумя столбцами. Значения, близкие к 1, представляют очень похожие документы, а значения, близкие к 0, представляют очень разные документы.[1]

Методика поиска информации с использованием скрытой семантической структуры была запатентована в 1988 г. (Патент США 4839853, срок действия истек) на Скотт Дирвестер, Сьюзан Дюмэ, Джордж Фурнас, Ричард Харшман, Томас Ландауэр, Карен Лохбаум и Линн Стритер. В контексте его применения к поиск информации, его иногда называют скрытое семантическое индексирование (LSI).[2]

Обзор

Анимация процесса определения темы в матрице документ-слово. Каждый столбец соответствует документу, каждая строка - слову. В ячейке хранится вес слова в документе (например, tf-idf ), темные клетки указывают на большой вес. LSA группирует как документы, содержащие похожие слова, так и слова, встречающиеся в аналогичном наборе документов. Полученные шаблоны используются для обнаружения скрытых компонентов.[3]

Матрица вхождений

LSA может использовать термодокументная матрица который описывает вхождения терминов в документы; это разреженная матрица чьи строки соответствуют термины и чьи столбцы соответствуют документам. Типичный пример взвешивания элементов матрицы: tf-idf (частота термина - обратная частота документа): вес элемента матрицы пропорционален тому, сколько раз термины встречаются в каждом документе, причем редкие термины имеют повышенный вес, чтобы отразить их относительную важность.

Эта матрица также является общей для стандартных семантических моделей, хотя не обязательно явно выражается в виде матрицы, поскольку математические свойства матриц используются не всегда.

Понижение ранга

После построения матрицы вхождений LSA находит приближение низкого ранга[4] к термодокументная матрица. У этих приближений могут быть разные причины:

  • Исходная матрица термин-документ считается слишком большой для вычислительных ресурсов; в этом случае аппроксимированная матрица низкого ранга интерпретируется как приближение («наименьшее и необходимое зло»).
  • Предполагается, что исходная матрица терминов и документов шумный: например, анекдотические примеры терминов следует исключить. С этой точки зрения приближенная матрица интерпретируется как очищенная от шума матрица (матрица получше оригинала).
  • Исходная матрица терминов и документов предполагается чрезмерно редкий относительно «истинной» матрицы термин-документ. То есть в исходной матрице перечислены только слова, которые действительно в каждый документ, тогда как нам могут быть интересны все слова относится к каждый документ - обычно гораздо больший набор из-за синонимия.

Следствием понижения ранга является то, что некоторые параметры объединяются и зависят от более чем одного члена:

{(автомобиль), (грузовик), (цветок)} -> {(1,3452 * автомобиль + 0,2828 * грузовик), (цветок)}

Это смягчает проблему идентификации синонимии, поскольку ожидается, что понижение ранга объединит измерения, связанные с терминами, имеющими схожие значения. Это также частично решает проблему с многозначность, поскольку компоненты многозначных слов, указывающие в «правильном» направлении, добавляются к компонентам слов, которые имеют аналогичное значение. И наоборот, компоненты, которые указывают в других направлениях, имеют тенденцию либо просто сокращаться, либо, в худшем случае, быть меньше компонентов в направлениях, соответствующих предполагаемому значению.

Вывод

Позволять - матрица, в которой элемент описывает возникновение термина в документе (это может быть, например, частота). будет выглядеть так:

Теперь строка в этой матрице будет вектором, соответствующим термину, определяющему его отношение к каждому документу:

Точно так же столбец в этой матрице будет вектором, соответствующим документу, определяющим его отношение к каждому термину:

Сейчас скалярное произведение между двумя терминами векторами дает корреляция между сроками по комплекту документов. В матричный продукт содержит все эти скалярные произведения. Элемент (что равно element ) содержит скалярное произведение (). Аналогично матрица содержит скалярные произведения между всеми векторами документа, давая их корреляцию по условиям: .

Теперь из теории линейной алгебры существует разложение такой, что и находятся ортогональные матрицы и это диагональная матрица. Это называется разложение по сингулярным числам (СВД):

Матричные продукты, дающие нам корреляции терминов и документов, затем становятся

поскольку и диагональны, мы видим, что должен содержать собственные векторы из , в то время как должны быть собственными векторами . Оба продукта имеют одинаковые ненулевые собственные значения, заданные ненулевыми элементами , или в равной степени ненулевыми элементами . Теперь разложение выглядит так:

Ценности называются сингулярными значениями, а и левый и правый сингулярные векторы. Обратите внимание на единственную часть что способствует это row.Пусть этот вектор-строку назовем .Также единственная часть что способствует это столбец .Эти не собственные векторы, но зависеть на все собственные векторы.

Оказывается, при выборе наибольшие сингулярные значения и соответствующие им сингулярные векторы из и ты получаешь звание приближение к с наименьшей ошибкой (Норма Фробениуса ). Это приближение имеет минимальную ошибку. Но что еще более важно, теперь мы можем рассматривать термин и векторы документа как «семантическое пространство». Строка "термин" вектор затем имеет записи, отображающие его в измерения пространства меньшего измерения. Эти новые измерения не относятся ни к каким понятным концепциям. Они представляют собой приближение более низкой размерности к пространству более высокой размерности. Точно так же вектор "документ" является приближением в этом пространстве меньшей размерности. Запишем это приближение как

Теперь вы можете сделать следующее:

  • Посмотрите, как связанные документы и находятся в низкоразмерном пространстве путем сравнения векторов и (обычно косинусное подобие ).
  • Сравнение сроков и сравнивая векторы и . Обратите внимание, что теперь вектор-столбец.
  • Документы и векторные представления терминов можно кластеризовать с помощью традиционных алгоритмов кластеризации, таких как k-среднее, с использованием таких мер сходства, как косинус.
  • Получив запрос, просмотрите его как мини-документ и сравните его со своими документами в низкоразмерном пространстве.

Чтобы сделать последнее, вы должны сначала перевести свой запрос в низкоразмерное пространство. Тогда интуитивно понятно, что вы должны использовать то же преобразование, которое вы используете в своих документах:

Обратите внимание, что матрица, обратная диагональной может быть найден путем инвертирования каждого ненулевого значения в матрице.

Это означает, что если у вас есть вектор запроса ты должен сделать перевод прежде чем сравнивать его с векторами документа в низкоразмерном пространстве. Вы можете сделать то же самое для векторов псевдотерм:

Приложения

Новое низкоразмерное пространство обычно можно использовать для:

  • Сравните документы в низкоразмерном пространстве (кластеризация данных, классификация документов ).
  • Найдите похожие документы на разных языках, проанализировав базовый набор переведенных документов (поиск межъязыковой информации ).
  • Найдите отношения между терминами (синонимия и многозначность ).
  • Учитывая запрос терминов, переведите его в низкоразмерное пространство и найдите соответствующие документы (поиск информации ).
  • Найдите максимальное сходство между небольшими группами терминов семантическим способом (то есть в контексте корпуса знаний), например, в вопросах с несколькими вариантами ответов. MCQ отвечающая модель.[5]
  • Расширьте функциональное пространство систем машинного обучения / интеллектуального анализа текста [6]
  • Анализировать словесные ассоциации в корпусе текста [7]

Синонимия и многозначность - фундаментальные проблемы в обработка естественного языка:

  • Синонимия - это явление, когда разные слова описывают одну и ту же идею. Таким образом, запрос в поисковой системе может не найти релевантный документ, который не содержит слов, появившихся в запросе. Например, поиск по запросу «врачи» может не вернуть документ, содержащий слово «врачи ", хотя слова имеют то же значение.
  • Многозначность - это явление, при котором одно и то же слово имеет несколько значений. Таким образом, поиск может найти нерелевантные документы, содержащие искомые слова в неправильном значении. Например, ботаник и компьютерный ученый, ищущие слово «дерево», вероятно, захотят разные наборы документов.

Коммерческие приложения

LSA использовался для помощи в выполнении предшествующий уровень техники ищет патенты.[8]

Приложения в памяти человека

Использование скрытого семантического анализа было распространено при изучении человеческой памяти, особенно в областях бесплатный отзыв и поиск в памяти. Существует положительная корреляция между семантическим сходством двух слов (измеренным с помощью LSA) и вероятностью того, что слова будут вспоминаться одно за другим в задачах свободного отзыва с использованием учебных списков случайных нарицательных существительных. Они также отметили, что в этих ситуациях время взаимного ответа между похожими словами было намного быстрее, чем между разными словами. Эти результаты называются Эффект семантической близости.[9]

Когда участники совершали ошибки при вспоминании изученных элементов, эти ошибки, как правило, были элементами, которые были более семантически связаны с желаемым элементом и были обнаружены в ранее изученном списке. Эти вторжения из предыдущего списка, как их стали называть, похоже, конкурируют с элементами текущего списка за отзыв.[10]

Другая модель, получившая название Пробелы словесных ассоциаций (WAS) также используется в исследованиях памяти путем сбора данных о свободных ассоциациях из серии экспериментов, которые включают измерения родства слов для более чем 72000 различных пар слов.[11]

Реализация

В СВД обычно вычисляется с использованием больших матричных методов (например, Методы Ланцоша ), но также может вычисляться постепенно и со значительно сокращенными ресурсами с помощью нейронная сеть -подобный подход, который не требует хранения в памяти большой полноранговой матрицы.[12]Недавно был разработан быстрый инкрементный алгоритм SVD с большой матрицей и малым объемом памяти.[13] MATLAB и Python доступны реализации этих быстрых алгоритмов. В отличие от стохастической аппроксимации Горрелла и Уэбба (2005), алгоритм Брэнда (2003) дает точное решение. В последние годы был достигнут прогресс в уменьшении вычислительной сложности SVD; например, используя параллельный алгоритм ARPACK для выполнения параллельного разложения на собственные значения, можно ускорить стоимость вычислений SVD, обеспечивая при этом сопоставимое качество предсказания.[14]

Ограничения

Некоторые из недостатков LSA включают:

  • Полученные размеры может быть трудно интерпретировать. Например, в
{(автомобиль), (грузовик), (цветок)} ↦ {(1,3452 * автомобиль + 0,2828 * грузовик), (цветок)}
компонент (1,3452 * автомобиль + 0,2828 * грузовик) можно интерпретировать как «транспортное средство». Однако весьма вероятно, что случаи, близкие к
{(машина), (бутылка), (цветок)} ↦ {(1,3452 * машина + 0,2828 * бутылка), (цветок)}
произойдет. Это приводит к результатам, которые могут быть оправданы на математическом уровне, но не имеют интерпретируемого значения на естественном языке.
  • LSA может только частично захватить многозначность (т. е. несколько значений слова), поскольку каждое вхождение слова рассматривается как имеющее одно и то же значение из-за того, что слово представлено как единственная точка в пространстве. Например, появление слова «председатель» в документе, содержащем «председатель совета директоров», и в отдельном документе, содержащем слово «производитель председателя», считается одинаковым. Поведение приводит к тому, что векторное представление является средний различных значений всех слов в корпусе, что может затруднить сравнение.[15] Однако эффект часто уменьшается из-за слов, имеющих преобладающее чувство по всему корпусу (т.е. не все значения одинаково вероятны).
  • Ограничения мешок слов модель (BOW), где текст представлен как неупорядоченный набор слов. Чтобы устранить некоторые ограничения мешок слов модель (ЛУК), мультиграмм словарь можно использовать для поиска прямых и косвенных ассоциаций, а также более высокого порядка совпадение среди терминов.[16]
  • В вероятностная модель LSA не соответствует наблюдаемым данным: LSA предполагает, что слова и документы образуют Гауссовский модель (эргодическая гипотеза ), а распределение Пуассона наблюдалось. Таким образом, более новая альтернатива вероятностный латентно-семантический анализ, на основе полиномиальный модель, которая, как сообщается, дает лучшие результаты, чем стандартный LSA.[17]

Альтернативные методы

Семантическое хеширование

В семантическом хешировании [18] документы отображаются в адреса памяти с помощью нейронная сеть таким образом, чтобы семантически похожие документы располагались по соседним адресам. Глубокая нейронная сеть по сути строит графическая модель векторов подсчета слов, полученных из большого набора документов. Документы, похожие на документ запроса, затем можно найти, просто обратившись ко всем адресам, которые отличаются всего на несколько бит от адреса документа запроса. Этот способ повышения эффективности хэш-кодирования для приблизительного сопоставления намного быстрее, чем хеширование с учетом местоположения, который является самым быстрым из существующих методов.[требуется разъяснение ]

Скрытое семантическое индексирование

Скрытое семантическое индексирование (LSI) - это метод индексации и поиска, который использует математический метод, называемый разложение по сингулярным числам (SVD) для выявления закономерностей во взаимоотношениях между термины и концепции содержится в неструктурированном наборе текста. LSI основан на том принципе, что слова, которые используются в одном контексте, имеют сходные значения. Ключевой особенностью LSI является его способность извлекать концептуальное содержание основной текст путем установления ассоциаций между теми терминами, которые встречаются в аналогичных контексты.[19]

LSI также является приложением анализ корреспонденции, многомерный статистический метод, разработанный Жан-Поль Бензекри[20] в начале 1970-х годов Таблица сопряженности построен из количества слов в документах.

Называется "скрытая семантика индексирование "из-за его способности соотносить семантически связанные термины, которые скрытый в коллекции текста он был сначала применен к тексту в Bellcore в конце 1980-х гг. Этот метод, также называемый латентным семантическим анализом (LSA), раскрывает скрытую семантическую структуру, лежащую в основе использования слов в теле текста, и то, как его можно использовать для извлечения значения текста в ответ на запросы пользователей, обычно называемые как поиск концепции. Запросы или концептуальные поиски по набору документов, прошедших LSI, вернут результаты, концептуально похожие по смыслу с критериями поиска, даже если результаты не совпадают с определенным словом или словами с критериями поиска.

Преимущества LSI

LSI помогает преодолеть синонимию за счет увеличения отзыв, одно из самых проблемных ограничений логического запросы по ключевым словам и векторные пространственные модели.[15] Синонимия часто является причиной несоответствия в лексике, используемой авторами документов и пользователями поиск информации системы.[21] В результате логические запросы или запросы по ключевым словам часто возвращают нерелевантные результаты и пропускают релевантную информацию.

LSI также используется для выполнения автоматизированных категоризация документов. Фактически, несколько экспериментов продемонстрировали, что существует ряд корреляций между тем, как LSI и люди обрабатывают и классифицируют текст.[22] Категоризация документов - это отнесение документов к одной или нескольким предопределенным категориям на основе их сходства с концептуальным содержанием категорий.[23] LSI использует пример документы, устанавливающие концептуальную основу для каждой категории. Во время обработки категоризации концепции, содержащиеся в классифицируемых документах, сравниваются с концепциями, содержащимися в примерах элементов, и категория (или категории) присваивается документам на основе сходства между концепциями, которые они содержат, и концепциями, которые они содержат. в примерах документов.

Динамическая кластеризация на основе концептуального содержания документов также может выполняться с помощью LSI. Кластеризация - это способ группировки документов на основе их концептуального сходства друг с другом без использования примеров документов для создания концептуальной основы для каждого кластера. Это очень полезно при работе с неизвестным набором неструктурированного текста.

Поскольку в нем используется строго математический подход, LSI по своей сути не зависит от языка. Это позволяет LSI извлекать семантическое содержание информации, написанной на любом языке, без необходимости использования вспомогательных структур, таких как словари и тезаурусы. LSI также может выполнять кросс-языковые поиск концепции и категоризация на основе примеров. Например, запросы могут выполняться на одном языке, таком как английский, и будут возвращены концептуально похожие результаты, даже если они составлены на совершенно другом языке или на нескольких языках.[нужна цитата ]

LSI не ограничивается работой только со словами. Он также может обрабатывать произвольные строки символов. Любой объект, который может быть выражен как текст, может быть представлен в векторном пространстве LSI. Например, тесты с рефератами из MEDLINE показали, что LSI может эффективно классифицировать гены на основе концептуального моделирования биологической информации, содержащейся в заголовках и отрывках из ссылок MEDLINE.[24]

LSI автоматически адаптируется к новой и изменяющейся терминологии и, как было показано, очень устойчив к шуму (например, к ошибкам в написании, типографским ошибкам, нечитаемым символам и т. Д.).[25] Это особенно важно для приложений, использующих текст, полученный с помощью оптического распознавания символов (OCR) и преобразования речи в текст. LSI также эффективно работает с разреженными, неоднозначными и противоречивыми данными.

Чтобы LSI была эффективной, текст не обязательно должен быть в форме предложения. Он может работать со списками, заметками в произвольной форме, электронной почтой, веб-контентом и т. Д. Если набор текста содержит несколько терминов, LSI можно использовать для выявления закономерностей во взаимосвязях между важными терминами и концепциями, содержащимися в текст.

LSI оказалась полезным решением ряда проблем концептуального сопоставления.[26][27] Было показано, что этот метод позволяет собирать ключевую информацию о взаимосвязях, включая причинную, целевую и таксономическую информацию.[28]

Хронология LSI

  • Середина 1960-х - Впервые описана и протестирована методика факторного анализа (Х. Борко и М. Берник)
  • 1988 - Опубликована итоговая статья по технике LSI. [19]
  • 1989 - Получен оригинальный патент [19]
  • 1992 - Первое использование LSI для назначения статей рецензентам[29]
  • 1994 - Получен патент на межъязыковое применение LSI (Ландауэр и др.)
  • 1995 - Первое использование LSI для оценки эссе (Фольц и др., Ландауэр и др.)
  • 1999 - Первая реализация технологии LSI для разведывательного сообщества для анализа неструктурированного текста (SAIC ).
  • 2002 - Предложение продуктов на базе LSI для правительственных агентств на основе разведки (SAIC)

Математика LSI

LSI использует общие методы линейной алгебры для изучения концептуальных корреляций в коллекции текста. В общем, процесс включает построение взвешенной матрицы терминов-документов, выполнение Разложение по сингулярным значениям на матрице и используя матрицу для определения концепций, содержащихся в тексте.

Матрица курьерских документов

LSI начинает с построения матрицы терминов и документов, , чтобы идентифицировать появление уникальные термины в коллекции документы. В матрице термин-документ каждый термин представлен строкой, а каждый документ представлен столбцом с каждой ячейкой матрицы, , первоначально представляющий количество раз, когда связанный термин встречается в указанном документе, . Эта матрица обычно очень большая и очень разреженная.

После построения матрицы терм-документ к ней могут быть применены локальные и глобальные весовые функции для кондиционирования данных. Весовые функции преобразуют каждую ячейку, из , чтобы быть произведением веса местного термина, , который описывает относительную частоту использования термина в документе и общий вес, , который описывает относительную частоту использования термина во всей коллекции документов.

Некоторые общие локальные весовые функции[30] определены в следующей таблице.

Двоичный если термин существует в документе, или иначе
Срок, количество появлений термина в документе
Журнал
Augnorm

Некоторые общие глобальные весовые функции определены в следующей таблице.

Двоичный
Нормальный
GfIdf, где это общее количество раз термин встречается во всей коллекции, и количество документов, в которых срок происходит.
Idf (обратная частота документов)
Энтропия, где

Эмпирические исследования с LSI показывают, что функции взвешивания журнала и энтропии хорошо работают на практике со многими наборами данных.[31] Другими словами, каждая запись из вычисляется как:

Разложение сингулярных чисел с пониженным рангом

Пониженный ранг, разложение по сингулярным числам выполняется на матрице для определения закономерностей во взаимоотношениях между терминами и понятиями, содержащимися в тексте. СВД составляет основу LSI.[32] Он вычисляет термины и векторные пространства документов, аппроксимируя матрицу частоты одного члена, , на три другие матрицы - м от р матрица векторов понятия , р от р матрица сингулярных значений , а п от р векторная матрица концептуального документа, , удовлетворяющие следующим соотношениям:

В формуле А поставляется м от п взвешенная матрица частот терминов в наборе текста, где м - количество уникальных терминов, а п количество документов. Т вычисляется м от р матрица векторов термов, где р это ранг А- мера его уникальных размеров ≤ мин (м, н). S вычисляется р от р диагональная матрица убывающих сингулярных чисел, и D вычисляется п от р матрица векторов документов.

СВД тогда усеченный понизить рейтинг, оставив только самые большие k « р диагональные элементы в матрице сингулярных чисел S,где k обычно имеет порядок от 100 до 300 измерений. Это эффективно уменьшает размеры векторной матрицы терминов и документов до м от k и п от k соответственно. Операция SVD, наряду с этим сокращением, имеет эффект сохранения наиболее важной семантической информации в тексте, уменьшая при этом шум и другие нежелательные артефакты исходного пространства исходного текста. А. Этот сокращенный набор матриц часто обозначается модифицированной формулой, например:

А ≈ Аk = Tk Sk DkТ

Эффективные алгоритмы LSI вычисляют только первое k сингулярные значения и векторы терминов и документов, в отличие от вычисления полного SVD с последующим его усечением.

Обратите внимание, что это снижение ранга по сути то же самое, что и выполнение Анализ главных компонентов (PCA) на матрице А, за исключением того, что PCA вычитает средние. PCA теряет разреженность А матрица, что может сделать его неприменимым для больших лексиконов.

Запрос и расширение векторных пространств LSI

Вычисленный Тk и Dk матрицы определяют термины и векторные пространства документов, которые с вычисленными сингулярными значениями, Sk, воплощают концептуальную информацию, полученную из коллекции документов. Сходство терминов или документов в этих пространствах является фактором того, насколько они близки друг к другу в этих пространствах, обычно вычисляется как функция угла между соответствующими векторами.

Те же шаги используются для нахождения векторов, представляющих текст запросов и новых документов в пространстве документов существующего индекса LSI. Путем простого преобразования А = Т С ДТ уравнение в эквивалент D = АТ Т С−1 уравнение, новый вектор, d, для запроса или для нового документа можно создать, вычислив новый столбец в А а затем умножая новый столбец на Т С−1. Новая колонка в А вычисляется с использованием первоначально полученных глобальных весов терминов и применения той же локальной весовой функции к терминам в запросе или в новом документе.

Недостатком такого способа вычисления векторов при добавлении новых доступных для поиска документов является то, что термины, которые не были известны на этапе SVD для исходного индекса, игнорируются. Эти термины не будут влиять на глобальные веса и усвоенные корреляции, полученные из исходного набора текста. Однако вычисленные векторы для нового текста по-прежнему очень важны для сравнения схожести со всеми другими векторами документа.

Процесс пополнения векторных пространств документов для индекса LSI новыми документами таким образом называется складывание. Хотя процесс свертывания не учитывает новое семантическое содержание нового текста, добавление значительного количества документов таким образом по-прежнему будет обеспечивать хорошие результаты для запросов, если содержащиеся в них термины и концепции хорошо представлены в LSI. индекс, в который они добавляются. Когда термины и концепции нового набора документов необходимо включить в индекс LSI, необходимо пересчитать либо матрицу терминов, либо SVD, либо использовать метод инкрементного обновления (например, описанный в [13]) необходим.

Дополнительное использование LSI

Общепризнано, что способность работать с текстом на семантической основе необходима для современных информационно-поисковых систем. В результате в последние годы использование LSI значительно расширилось, поскольку ранее были преодолены проблемы масштабируемости и производительности.

LSI используется во множестве приложений для поиска информации и обработки текста, хотя его основное применение было для поиска концепций и автоматической категоризации документов.[33] Ниже приведены некоторые другие способы использования LSI:

  • Открытие информации[34] (eDiscovery, Правительство / разведывательное сообщество, Издательское дело)
  • Автоматическая классификация документов (eDiscovery, правительство / разведывательное сообщество, публикации)[35]
  • Резюме текста[36] (eDiscovery, публикация)
  • Открытие отношений[37] (Правительство, разведывательное сообщество, социальные сети)
  • Автоматическое создание диаграмм ссылок отдельных лиц и организаций[38] (Правительство, разведывательное сообщество)
  • Согласование технических документов и грантов с рецензентами[39] (Правительство)
  • Онлайн-поддержка клиентов[40] (Управление клиентами)
  • Определение авторства документа[41] (Образование)
  • Автоматическая аннотация ключевых слов изображений[42]
  • Понимание исходного кода программного обеспечения[43] (Разработка программного обеспечения)
  • Фильтрация спам[44] (Системное администрирование)
  • Визуализация информации[45]
  • Оценка эссе[46] (Образование)
  • Открытие на основе литературы[47]
  • Прогноз доходности акций[6]
  • Анализ содержания сновидений (психология) [7]

LSI все чаще используется для обнаружения электронных документов (eDiscovery), чтобы помочь предприятиям подготовиться к судебным разбирательствам. В eDiscovery очень важна возможность кластеризации, классификации и поиска в больших коллекциях неструктурированного текста на концептуальной основе. Поиск на основе концепций с использованием LSI был применен к процессу обнаружения электронных данных ведущими поставщиками еще в 2003 году.[48]

Проблемы LSI

Первые вызовы LSI были связаны с масштабируемостью и производительностью. LSI требует относительно высокой вычислительной производительности и памяти по сравнению с другими методами поиска информации.[49] Однако с внедрением современных высокоскоростных процессоров и доступностью недорогой памяти эти соображения в значительной степени были преодолены. Реальные приложения, включающие более 30 миллионов документов, которые были полностью обработаны с помощью матрицы, и вычисления SVD распространены в некоторых приложениях LSI. Полностью масштабируемая (неограниченное количество документов, онлайн-обучение) реализация LSI содержится в открытом исходном коде. Gensim пакет программного обеспечения.[50]

Другой проблемой для LSI была предполагаемая сложность определения оптимального количества измерений для использования при выполнении SVD. Как правило, меньшее количество измерений позволяет проводить более широкие сравнения концепций, содержащихся в коллекции текста, в то время как большее количество измерений позволяет проводить более конкретные (или более релевантные) сравнения концепций. Фактическое количество измерений, которые можно использовать, ограничено количеством документов в коллекции. Исследования показали, что около 300 измерений обычно обеспечивают наилучшие результаты для коллекций документов среднего размера (сотни тысяч документов) и, возможно, 400 измерений для более крупных коллекций документов (миллионы документов).[51] Однако недавние исследования показывают, что от 50 до 1000 измерений подходят в зависимости от размера и характера коллекции документов.[52] Проверка доли сохраненной дисперсии аналогично PCA или факторный анализ, для определения оптимальной размерности не подходит БИС. Использование теста синонимов или прогнозирования пропущенных слов - это два возможных метода определения правильной размерности. [53] Когда темы LSI используются в качестве функций в методах обучения с учителем, можно использовать измерения ошибок прогнозирования, чтобы найти идеальную размерность.

Смотрите также

использованная литература

  1. ^ Сьюзан Т. Дюмэ (2005). «Скрытый семантический анализ». Ежегодный обзор информационных наук и технологий. 38: 188–230. Дои:10.1002 / aris.1440380105.
  2. ^ "Домашняя страница скрытого семантического индексирования".
  3. ^ http://topicmodels.west.uni-koblenz.de/ckling/tmt/svd_ap.html
  4. ^ Марковский И. (2012) Аппроксимация низкого ранга: алгоритмы, реализация, приложения, Springer, 2012, ISBN  978-1-4471-2226-5[страница нужна ]
  5. ^ Ален Лифшиц; Сандра Джин-Ларос; Ги Деньер (2009). «Влияние настроенных параметров на модель ответов на вопросы АЛП с множественным выбором» (PDF). Методы исследования поведения. 41 (4): 1201–1209. Дои:10.3758 / BRM.41.4.1201. PMID  19897829. S2CID  480826.
  6. ^ а б Рамиро Х. Гальвес; Агустин Гравано (2017). «Оценка полезности майнинга онлайн-доски объявлений в автоматических системах прогнозирования запасов». Журнал вычислительной науки. 19: 1877–7503. Дои:10.1016 / j.jocs.2017.01.001.
  7. ^ а б Altszyler, E .; Ribeiro, S .; Сигман, М .; Фернандес Слезак, Д. (2017). «Толкование значения сновидения: устранение двусмысленности с помощью скрытого семантического анализа в небольшом корпусе текста». Сознание и познание. 56: 178–187. arXiv:1610.01520. Дои:10.1016 / j.concog.2017.09.004. PMID  28943127. S2CID  195347873.
  8. ^ Джерри Дж. Элман (октябрь 2007 г.). «Автоматизированная поддержка патентной экспертизы - Предложение». Отчет о законе о биотехнологии. 26 (5): 435–436. Дои:10.1089 / blr.2007.9896.
  9. ^ Марк У. Ховард; Майкл Дж. Кахана (1999). «Контекстная изменчивость и эффекты последовательного позиционирования в свободном отзыве» (PDF). Цитировать журнал требует | журнал = (Помогите)
  10. ^ Франклин М. Заромб; и другие. (2006). "Временные ассоциации и вторжения в предварительный список в свободном отзыве" (PDF). Цитировать журнал требует | журнал = (Помогите)
  11. ^ Нельсон, Дуглас. "Ассоциация слов, рифмы и отрывки слов Университета Южной Флориды". Получено 8 мая, 2011.
  12. ^ Женевьева Горрелл; Брандин Уэбб (2005). «Обобщенный алгоритм Хебба для скрытого семантического анализа» (PDF). Интерспич'2005. Архивировано из оригинал (PDF) 21 декабря 2008 г.
  13. ^ а б Мэтью Брэнд (2006). «Быстрые низкоранговые модификации тонкой декомпозиции сингулярных значений» (PDF). Линейная алгебра и ее приложения. 415: 20–30. Дои:10.1016 / j.laa.2005.07.021.
  14. ^ Дин, Ягуанг; Чжу, Гофэн; Цуй, Чэньян; Чжоу, Цзянь; Тао, Лян (2011). Параллельная реализация Singular Value Decomposition на основе Map-Reduce и PARPACK. Материалы Международной конференции по компьютерным наукам и сетевым технологиям 2011 г.. С. 739–741. Дои:10.1109 / ICCSNT.2011.6182070. ISBN  978-1-4577-1587-7. S2CID  15281129.
  15. ^ а б Дирвестер, Скотт; Dumais, Susan T .; Фурнас, Джордж В .; Ландауэр, Томас К .; Харшман, Ричард (1990). «Индексирование методом скрытого семантического анализа». Журнал Американского общества информационных наук. 41 (6): 391–407. CiteSeerX  10.1.1.108.8490. Дои:10.1002 / (SICI) 1097-4571 (199009) 41: 6 <391 :: AID-ASI1> 3.0.CO; 2-9.
  16. ^ Абеди, Вида; Йасин, Мохаммед; Занд, Рамин (27 ноября 2014 г.). «Эмпирическое исследование с использованием сети семантически связанных ассоциаций в преодолении разрыва в знаниях». Журнал трансляционной медицины. 12 (1): 324. Дои:10.1186 / s12967-014-0324-9. ЧВК  4252998. PMID  25428570.
  17. ^ Томас Хофманн (1999). «Вероятностный латентно-семантический анализ». Неопределенность в искусственном интеллекте. arXiv:1301.6705.
  18. ^ Салахутдинов, Руслан и Джеффри Хинтон. «Семантическое хеширование». RBM 500.3 (2007): 500.
  19. ^ а б c Дирвестер, С. и др., Улучшение поиска информации с помощью скрытого семантического индексирования, Материалы 51-го ежегодного собрания Американского общества информационных наук 25, 1988, стр. 36–40.
  20. ^ Benzécri, J.-P. (1973). L'Analyse des Données. Том II. L'Analyse des Correspondences. Париж, Франция: Dunod.
  21. ^ Furnas, G.W .; Ландауэр, Т. К .; Gomez, L.M .; Дюмэ, С. Т. (1987). «Проблема словарного запаса в человеко-системном общении». Коммуникации ACM. 30 (11): 964–971. CiteSeerX  10.1.1.118.4768. Дои:10.1145/32206.32212. S2CID  3002280.
  22. ^ Ландауэр Т. и др., Изучение человеческих знаний путем разложения единичных ценностей: отчет о прогрессе, М. И. Джордан, М. Дж. Кернс и С. А. Солла (редакторы), «Достижения в системах обработки нейронной информации» 10, Кембридж: MIT Press, 1998, стр. 45–51.
  23. ^ Dumais, S .; Platt, J .; Heckerman, D .; Сахами М. (1998). «Алгоритмы индуктивного обучения и представления для категоризации текста» (PDF). Материалы седьмой международной конференции по управлению информацией и знаниями - CIKM '98. стр.148. CiteSeerX  10.1.1.80.8909. Дои:10.1145/288627.288651. ISBN  978-1581130614. S2CID  617436.
  24. ^ Homayouni, R .; Генрих, К .; Wei, L .; Берри, М. В. (2004). «Кластеризация генов с помощью скрытого семантического индексирования рефератов MEDLINE». Биоинформатика. 21 (1): 104–115. Дои:10.1093 / биоинформатика / bth464. PMID  15308538.
  25. ^ Price, R.J .; Зукас, А. Э. (2005). «Применение скрытого семантического индексирования к обработке зашумленного текста». Разведка и информатика безопасности. Конспект лекций по информатике. 3495. п. 602. Дои:10.1007/11427995_68. ISBN  978-3-540-25999-2.
  26. ^ Дин, К., Вероятностная модель на основе сходства для скрытого семантического индексирования, Материалы 22-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска, 1999 г., стр. 59–65.
  27. ^ Бартелл Б., Коттрелл Г. и Белью Р. Скрытое семантическое индексирование - оптимальный частный случай многомерного масштабирования, Материалы конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска, 1992, стр. 161–167.
  28. ^ Graesser, A .; Карнават А. (2000). «Скрытый семантический анализ захватывает причинные, целевые и таксономические структуры». Труды CogSci 2000: 184–189. CiteSeerX  10.1.1.23.5444.
  29. ^ Dumais, S .; Нильсен, Дж. (1992). Автоматизация распределения присланных рукописей рецензентам. Труды пятнадцатой ежегодной международной конференции по исследованиям и разработкам в области информационного поиска. С. 233–244. CiteSeerX  10.1.1.16.9793. Дои:10.1145/133160.133205. ISBN  978-0897915236. S2CID  15038631.
  30. ^ Берри М. В., Браун М. Понимание поисковых систем: математическое моделирование и поиск текста, Общество промышленной и прикладной математики, Филадельфия, (2005).
  31. ^ Ландауэр Т. и др., Справочник по скрытому семантическому анализу, Lawrence Erlbaum Associates, 2007.
  32. ^ Берри, Майкл В., Дюмэ, Сьюзен Т., О'Брайен, Гэвин В., Использование линейной алгебры для интеллектуального поиска информации, Декабрь 1994 г., SIAM Review 37: 4 (1995), стр. 573–595.
  33. ^ Дюмэ, С., Скрытый семантический анализ, Обзор информационных наук и технологий ARIST, т. 38, 2004, Глава 4.
  34. ^ Комментарий передовой практики по использованию методов поиска и извлечения информации в E-Discovery, конференция в Седоне, 2007, стр. 189–223.
  35. ^ Фольц, П. В. и Дюмэ, С. Т. Персонализированная доставка информации: анализ методов фильтрации информации, Сообщения ACM, 1992, 34 (12), 51-60.
  36. ^ Гонг Ю. и Лю X., Создание общих текстовых резюме, Труды, Шестая международная конференция по анализу и распознаванию документов, 2001 г., стр. 903–907.
  37. ^ Брэдфорд, Р., Эффективное обнаружение новой информации в больших текстовых базах данных, Труды, Международная конференция IEEE по разведке и информатике безопасности, Атланта, Джорджия, LNCS Vol. 3495, Springer, 2005, стр. 374–380.
  38. ^ Брэдфорд, Р., Применение скрытой семантической индексации для построения графов террористических сетей, in: Proceedings, IEEE International Conference on Intelligence and Security Informatics, ISI 2006, Сан-Диего, Калифорния, США, 23–24 мая 2006 г., Springer, LNCS vol. 3975, стр. 674–675.
  39. ^ Яровский Д., Флориан Р., Снятие нагрузки с кресел для конференций: к помощнику по цифровой маршрутизации бумаги, Труды Совместной конференции SIGDAT 1999 г. по эмпирическим методам в НЛП и очень больших корпусах, 1999 г., стр. 220–230.
  40. ^ Карон, Дж., Применение LSA для онлайн-поддержки клиентов: пробное исследование, неопубликованная магистерская диссертация, май 2000 г.
  41. ^ Соборов И. и др., Визуализация авторства документа с помощью N-граммов и скрытого семантического индексирования, Семинар по новым парадигмам в визуализации и манипулировании информацией, 1997, стр. 43–48.
  42. ^ Монэ, Ф., и Гатика-Перес, Д., Об автоаннотации изображений с помощью скрытых пространственных моделей, Материалы 11-й международной конференции ACM по мультимедиа, Беркли, Калифорния, 2003 г., стр. 275–278.
  43. ^ Maletic, J .; Маркус, А. (13–15 ноября 2000 г.). Использование скрытого семантического анализа для выявления сходства в исходном коде для поддержки понимания программы. Материалы 12-й Международной конференции IEEE по инструментам с искусственным интеллектом. Ванкувер, Британская Колумбия. С. 46–53. CiteSeerX  10.1.1.36.6652. Дои:10.1109 / TAI.2000.889845. ISBN  978-0-7695-0909-9. S2CID  10354564.
  44. ^ Фанат., Использование скрытой семантической индексации для фильтрации спама, in: Proceedings, 2003 ACM Symposium on Applied Computing, Melbourne, Florida, pp. 460–464.
  45. ^ Ландауэр Т., Лахам Д. и Дерр М., От абзаца к графику: скрытый семантический анализ для визуализации информации, Proceedings of the National Academy of Sciences, 101, 2004, pp. 5214–5219.
  46. ^ Фольц, Питер В., Лахам, Даррелл и Ландауэр, Томас К., Автоматическая оценка эссе: приложения к образовательным технологиям, Труды EdMedia, 1999.
  47. ^ Гордон, М., Дюмэ, С., Использование скрытого семантического индексирования для обнаружения на основе литературы, Журнал Американского общества информационных наук, 49 (8), 1998, стр. 674–685.
  48. ^ Должен быть лучший способ поиска, 2008, Белая книга, Fios, Inc.
  49. ^ Карипис Г., Хан Э., Быстрый контролируемый алгоритм уменьшения размерности с приложениями для категоризации и поиска документов, Труды 9-й конференции ACM по управлению информацией и знаниями CIKM-00.
  50. ^ Радим Жегуржек (2011). «Отслеживание подпространства для скрытого семантического анализа». Достижения в области поиска информации. Достижения в области поиска информации - 33-я Европейская конференция по IR-исследованиям, ECIR 2011. Конспект лекций по информатике. 6611. С. 289–300. Дои:10.1007/978-3-642-20161-5_29. ISBN  978-3-642-20160-8.
  51. ^ Брэдфорд, Р., Эмпирическое исследование требуемой размерности для крупномасштабных приложений скрытого семантического индексирования, Материалы 17-й конференции ACM по управлению информацией и знаниями, Долина Напа, Калифорния, США, 2008 г., стр. 153–162.
  52. ^ Ландауэр, Томас К., и Дюмэ, Сьюзан Т., Скрытый семантический анализ, Scholarpedia, 3 (11): 4356, 2008.
  53. ^ Ландауэр Т.К., Фольц П.В. и Лахам Д. (1998). Введение в скрытый семантический анализ. Дискурсивные процессы, 25, 259-284

дальнейшее чтение

внешние ссылки

Статьи о LSA

Беседы и демонстрации

Реализации

Благодаря междоменным приложениям в Поиск информации, Обработка естественного языка (НЛП), Наука о мышлении и Компьютерная лингвистика, LSA была реализована для поддержки множества различных типов приложений.

  • Смысловые кластеры, ориентированная на поиск информации реализация LSA на Perl
  • Пакет S-Space, Java-реализация LSA, ориентированная на компьютерную лингвистику и когнитивную науку.
  • Семантические векторы применяет случайную проекцию, LSA и отражающую случайную индексацию к Lucene матрицы термодокументов
  • Инфокарта Проект, NLP-ориентированная реализация LSA на языке C (заменена проектом semanticvectors)
  • Текст в матричный генератор, MATLAB Toolbox для создания матриц терминов-документов из текстовых коллекций с поддержкой LSA.
  • Gensim содержит реализацию LSA на Python для матриц размером больше ОЗУ.