Неотрицательная матричная факторизация - Non-negative matrix factorization

Иллюстрация приближенной неотрицательной матричной факторизации: матрица V представлен двумя меньшими матрицами W и ЧАС, которые при умножении приближенно восстанавливают V.

Неотрицательная матричная факторизация (NMF или же NNMF), также неотрицательная матричная аппроксимация[1][2] это группа алгоритмы в многомерный анализ и линейная алгебра где матрица V является факторизованный в (обычно) две матрицы W и ЧАС, с тем свойством, что все три матрицы не имеют отрицательных элементов. Эта неотрицательность упрощает проверку полученных матриц. Кроме того, в таких приложениях, как обработка звуковых спектрограмм или мышечной активности, рассматриваемым данным присуща неотрицательность. Поскольку в целом проблема не является точно решаемой, ее обычно оценивают численно.

NMF находит применение в таких областях, как астрономия,[3][4] компьютерное зрение, документ кластеризация,[1] вменение отсутствующих данных,[5] хемометрия, обработка аудиосигнала, рекомендательные системы,[6][7] и биоинформатика.[8]

История

В хемометрия неотрицательная матричная факторизация имеет долгую историю под названием «разрешение самодельной кривой».[9]В этой структуре векторы в правой матрице представляют собой непрерывные кривые, а не дискретные векторы. Кроме того, ранние работы по факторизации неотрицательных матриц были выполнены финской группой исследователей в 1990-х годах под названием факторизация положительной матрицы.[10][11][12]Он стал более широко известен как неотрицательная матричная факторизация после Ли и Сеунг исследовал свойства алгоритма и опубликовал несколько простых и полезных алгоритмов для двух типов факторизации.[13][14]

Фон

Пусть матрица V быть произведением матриц W и ЧАС,

Умножение матриц может быть реализовано как вычисление векторов-столбцов V как линейные комбинации векторов-столбцов в W с использованием коэффициентов, предоставленных столбцами ЧАС. То есть каждый столбец V можно вычислить следующим образом:

куда vя это я-й вектор-столбец матрицы продукта V и чася это я-й вектор-столбец матрицы ЧАС.

При перемножении матриц размеры факторных матриц могут быть значительно ниже, чем размеры матрицы произведения, и именно это свойство составляет основу NMF. NMF генерирует факторы со значительно уменьшенными размерами по сравнению с исходной матрицей. Например, если V является м × п матрица W является м × п матрица и ЧАС это п × п матрица тогда п может быть значительно меньше, чем оба м и п.

Вот пример, основанный на приложении для интеллектуального анализа текста:

  • Пусть входная матрица (матрица для факторизации) будет V с 10000 строками и 500 столбцами, где слова находятся в строках, а документы - в столбцах. То есть у нас есть 500 документов, проиндексированных по 10 000 слов. Отсюда следует, что вектор-столбец v в V представляет собой документ.
  • Предположим, мы просим алгоритм найти 10 признаков, чтобы сгенерировать матрица функций W с 10000 строками и 10 столбцами и матрица коэффициентов ЧАС с 10 строками и 500 столбцами.
  • Продукт W и ЧАС это матрица с 10000 строками и 500 столбцами, такая же форма, как и входная матрица V и, если факторизация сработала, это разумное приближение к входной матрице V.
  • Из обработки матричного умножения выше следует, что каждый столбец в матрице произведения WH представляет собой линейную комбинацию 10 векторов-столбцов в матрице признаков W с коэффициентами, предоставленными матрицей коэффициентов ЧАС.

Этот последний пункт является основой NMF, потому что мы можем рассматривать каждый исходный документ в нашем примере как созданный из небольшого набора скрытых функций. NMF создает эти функции.

Полезно подумать о каждой функции (векторе-столбце) в матрице функций. W как архетип документа, состоящий из набора слов, где значение ячейки каждого слова определяет ранг слова в функции: чем выше значение ячейки слова, тем выше ранг слова в функции. Столбец в матрице коэффициентов ЧАС представляет собой исходный документ со значением ячейки, определяющим рейтинг документа для функции. Теперь мы можем восстановить документ (вектор-столбец) из нашей входной матрицы с помощью линейной комбинации наших функций (вектор-столбец в W), где каждая функция взвешивается значением ячейки функции из столбца документа в ЧАС.

Кластеризация собственности

NMF имеет свойство кластеризации,[15] т.е. он автоматически кластеризует столбцы входных данных .

В частности, приближение к достигается путем нахождения и которые минимизируют функцию ошибок

при условии

Если, кроме того, наложить ограничение на ортогональность , т.е. , то приведенная выше минимизация математически эквивалентна минимизации К-средство кластеризации [15].

Кроме того, вычисленное дает членство в кластере, т.е. если для всех i ≠ k это говорит о том, что входные данные принадлежит кластер. Вычисленный дает центроиды кластера, т.е. столбец дает центроид кластера кластер. Представление этого центроида может быть значительно улучшено выпуклым NMF.

Когда ограничение ортогональности не налагается явно, ортогональность сохраняется в значительной степени, и свойство кластеризации также сохраняется. Кластеризация - основная цель большинства сбор данных применения NMF.[нужна цитата ]

Когда используется функция ошибки Дивергенция Кульбака – Лейблера, NMF идентичен Вероятностный латентно-семантический анализ, популярный метод кластеризации документов.[16]

Типы

Примерная неотрицательная матричная факторизация

Обычно количество столбцов W и количество рядов ЧАС в NMF выбраны так, чтобы продукт WH станет приближением к V. Полное разложение V то составляет две неотрицательные матрицы W и ЧАС а также остаточный U, такое, что: V = WH + U. Элементы остаточной матрицы могут быть как отрицательными, так и положительными.

Когда W и ЧАС меньше чем V их становится легче хранить и манипулировать ими. Еще одна причина факторизации V на более мелкие матрицы W и ЧАС, заключается в том, что если можно приблизительно представить элементы V значительно меньшим количеством данных, то нужно вывести некоторую скрытую структуру в данных.

Факторизация выпуклой неотрицательной матрицы

В стандартном NMF матричный коэффициент W ∈ ℝ+м × k, Т.е. W может быть что угодно в этом пространстве. Выпуклый NMF[17] ограничивает столбцы W к выпуклые комбинации векторов входных данных . Это значительно улучшает качество представления данных W. Кроме того, полученный матричный множитель ЧАС становится более разреженным и ортогональным.

Факторизация неотрицательного ранга

В случае если неотрицательный ранг из V равен его фактическому рангу, V = WH называется факторизацией неотрицательного ранга.[18][19][20] Проблема поиска NRF V, если он существует, как известно, NP-трудный.[21]

Различные функции затрат и регуляризации

Существуют разные типы неотрицательной матричной факторизации, которые возникают в результате использования разных функции затрат для измерения расхождения между V и WH и, возможно, регуляризация из W и / или ЧАС матрицы.[1]

Две простые функции дивергенции, изученные Ли и Сыном, - это квадрат ошибки (или Норма Фробениуса ) и распространение дивергенции Кульбака – Лейблера на положительные матрицы (исходная Дивергенция Кульбака – Лейблера определяется на распределениях вероятностей). Каждое расхождение ведет к другому алгоритму NMF, обычно минимизирующему расхождение с помощью правил итеративного обновления.

Проблема факторизации в версии NMF с квадратом ошибок может быть сформулирована как: Дана матрица найти неотрицательные матрицы W и H, минимизирующие функцию

Другой тип NMF для изображений основан на общая норма вариации.[22]

Когда L1 регуляризация (сродни Лассо ) добавляется в NMF со среднеквадратичной функцией стоимости ошибки, получившуюся задачу можно назвать неотрицательное разреженное кодирование из-за сходства с разреженное кодирование проблема,[23][24]хотя он также может называться NMF.[25]

Онлайн NMF

Многие стандартные алгоритмы NMF анализируют все данные вместе; т.е. вся матрица доступна с самого начала. Это может быть неудовлетворительным в приложениях, где слишком много данных для размещения в памяти или где данные предоставляются в потоковая передача мода. Одно из таких применений - для совместная фильтрация в системы рекомендаций, где может быть много пользователей и много элементов, которые можно рекомендовать, и было бы неэффективно пересчитывать все, когда в систему добавляется один пользователь или один элемент. Функция стоимости для оптимизации в этих случаях может быть или не быть такой же, как для стандартного NMF, но алгоритмы должны быть довольно разными.[26][27][28]

Алгоритмы

Есть несколько способов, которыми W и ЧАС можно найти: Ли и Сын правило мультипликативного обновления[14] был популярным методом из-за простоты реализации. Этот алгоритм:

инициализировать: W и ЧАС неотрицательный.
Затем обновите значения в W и ЧАС вычисляя следующее, с как индекс итерации.
и
До того как W и ЧАС стабильны.

Обратите внимание, что обновления выполняются поэлементно, а не умножением матриц.

Отметим, что мультипликативные множители для W и ЧАС, т.е. и условия, являются матрицы единиц когда .

Совсем недавно были разработаны другие алгоритмы. Некоторые подходы основаны на чередовании неотрицательные наименьшие квадраты: на каждом шаге такого алгоритма сначала ЧАС фиксируется и W найденный неотрицательным решателем наименьших квадратов, то W фиксируется и ЧАС находится аналогично. Процедуры, используемые для решения W и ЧАС может быть таким же[29] или разные, поскольку некоторые варианты NMF упорядочивают один из W и ЧАС.[23] Конкретные подходы включают прогнозируемые градиентный спуск методы,[29][30] то активный набор метод[6][31] оптимальный градиентный метод,[32] и метод поворота основного блока[33] среди нескольких других.[34]

Текущие алгоритмы являются субоптимальными в том смысле, что они гарантируют только поиск локального минимума, а не глобального минимума функции стоимости. Доказуемо оптимальный алгоритм вряд ли в ближайшем будущем, поскольку было показано, что проблема обобщает проблему кластеризации k-средних, которая, как известно, НП-полный.[35] Однако, как и во многих других приложениях интеллектуального анализа данных, локальный минимум может оказаться полезным.

Графики фракционной остаточной дисперсии (FRV) для PCA и последовательных NMF;[4] для PCA теоретические значения являются вкладом остаточных собственных значений. Для сравнения, кривые FRV для PCA достигают плоского плато, на котором эффективно не фиксируется никакой сигнал; в то время как кривые NMF FRV непрерывно снижаются, что указывает на лучшую способность захвата сигнала. Кривые FRV для NMF также сходятся к более высоким уровням, чем PCA, что указывает на свойство NMF с меньшей переобученностью.

Последовательный NMF

Последовательное построение компонентов NMF (W и ЧАС) впервые использовался для связи NMF с Анализ главных компонентов (PCA) в астрономии.[36] Вклад компонентов PCA ранжируется по величине их соответствующих собственных значений; для NMF его компоненты могут быть ранжированы эмпирически, когда они построены один за другим (последовательно), т.е. -й компонент с первым компоненты построены.

Вклад последовательных компонент NMF можно сравнить с вкладом Теорема Карунена – Лоэва, приложение PCA, использующее график собственных значений. Типичный выбор количества компонентов с PCA основан на точке "изгиба", тогда наличие плоского плато указывает на то, что PCA не захватывает данные эффективно, и, наконец, существует внезапное падение, отражающее захват случайных шумит и попадает в режим переобучения.[37][38] Для последовательного NMF график собственных значений аппроксимируется графиком кривых дробной остаточной дисперсии, где кривые непрерывно убывают и сходятся к более высокому уровню, чем PCA,[4] что указывает на меньшее переоснащение последовательного NMF.

Точный NMF

Точных решений для вариантов NMF можно ожидать (за полиномиальное время) при выполнении дополнительных ограничений для матрицы V. Алгоритм с полиномиальным временем для решения факторизации неотрицательного ранга, если V содержит мономиальную подматрицу ранга, равного ее рангу, полученному Кэмпбеллом и Пулом в 1981 г.[39] Калофолиас и Галлопулос (2012)[40] решил симметричный аналог этой задачи, где V симметрична и содержит диагональную главную подматрицу ранга r. Их алгоритм работает в O (rm2) время в плотном корпусе. Arora, Ge, Halpern, Mimno, Moitra, Sontag, Wu, & Zhu (2013) дают алгоритм полиномиального времени для точного NMF, который работает для случая, когда один из факторов W удовлетворяет условию отделимости.[41]

Отношение к другим техникам

В Изучение частей объектов путем факторизации неотрицательной матрицы Ли и Сын[42] предложил NMF в основном для разложения изображений по частям. Он сравнивает NMF с векторное квантование и Анализ главных компонентов, и показывает, что, хотя эти три метода могут быть записаны как факторизации, они реализуют разные ограничения и поэтому дают разные результаты.

NMF как вероятностная графическая модель: видимые единицы (V) связаны со скрытыми блоками (ЧАС) через веса W, так что V является генерируется из распределения вероятностей со средним .[13]:5

Позже было показано, что некоторые типы NMF являются примером более общей вероятностной модели, называемой «полиномиальный PCA».[43]Когда NMF получается путем минимизации Дивергенция Кульбака – Лейблера, это фактически эквивалентно другому экземпляру полиномиального PCA, вероятностный латентно-семантический анализ,[44]обучен максимальная вероятность Этот метод обычно используется для анализа и кластеризации текстовых данных, а также связан с модель скрытого класса.

NMF с целью наименьших квадратов эквивалентен расслабленной форме К-средство кластеризации: матричный фактор W содержит центроиды кластера и ЧАС содержит индикаторы членства в кластере.[15][45] Это обеспечивает теоретическую основу для использования NMF для кластеризации данных. Однако k-means не обеспечивает неотрицательность его центроидов, поэтому наиболее близкая аналогия фактически с «полу-NMF».[17]

NMF можно рассматривать как двухслойную направленный графический модель с одним слоем наблюдаемых случайных величин и одним слоем скрытых случайных величин.[46]

NMF распространяется не только на матрицы, но и на тензоры произвольного порядка.[47][48][49] Это расширение можно рассматривать как неотрицательный аналог, например, ПАРАФАК модель.

Другие расширения NMF включают совместную факторизацию нескольких матриц данных и тензоров, где некоторые факторы являются общими. Такие модели полезны для слияния сенсоров и реляционного обучения.[50]

NMF - это пример неотрицательного квадратичное программирование (NQP ), как и Машина опорных векторов (SVM). Однако SVM и NMF связаны на более тесном уровне, чем NQP, что позволяет напрямую применять алгоритмы решения, разработанные для любого из двух методов, к проблемам в обеих областях.[51]

Уникальность

Факторизация не уникальна: матрица и ее обратный может использоваться для преобразования двух матриц факторизации, например,[52]

Если две новые матрицы и находятся неотрицательный они образуют еще одну параметризацию факторизации.

Неотрицательность и применяется, по крайней мере, если B неотрицательный мономиальная матрица В этом простом случае это будет просто масштабирование и перестановка.

Больше контроля над неуникальностью NMF достигается с помощью ограничений разреженности.[53]

Приложения

Астрономия

В астрономии NMF - многообещающий метод для уменьшение размеров в том смысле, что астрофизические сигналы неотрицательны. NMF был применен к спектроскопическим наблюдениям [3] и прямые визуальные наблюдения [4] как метод изучения общих свойств астрономических объектов и последующей обработки астрономических наблюдений. Достижения в спектроскопических наблюдениях Blanton & Roweis (2007) [3] учитывает неопределенности астрономических наблюдений, что позже улучшено Чжу (2016) [36] где также учитываются недостающие данные и параллельные вычисления включен. Затем их метод был принят Ren et al. (2018) [4] в поле прямого изображения как один из методы обнаружения экзопланет, особенно для прямой визуализации околозвездные диски.

Ren et al. (2018) [4] могут доказать стабильность компонентов NMF, когда они построены последовательно (т. е. один за другим), что позволяет линейность процесса моделирования NMF; то линейность свойство используется для разделения звездного света и света, рассеянного от экзопланеты и околозвездные диски.

При прямом отображении, чтобы выявить слабые экзопланеты и околозвездные диски из яркого окружающего звездного света, который имеет типичный контраст от 10⁵ до 10¹⁰, были приняты различные статистические методы.[54][55][37] однако свет от экзопланет или околозвездных дисков обычно переоценивается, поэтому для восстановления истинного потока необходимо применять прямое моделирование.[56][38] Прямое моделирование в настоящее время оптимизировано для точечных источников,[38] однако не для протяженных источников, особенно для структур неправильной формы, таких как околозвездные диски. В этой ситуации NMF оказался отличным методом, поскольку он не слишком подходит в смысле неотрицательности и неотрицательности. редкость коэффициентов моделирования NMF, поэтому прямое моделирование может быть выполнено с несколькими коэффициентами масштабирования,[4] вместо повторной обработки данных на сгенерированных моделях, требующей больших вычислительных ресурсов.

Вменение данных

Для вменения недостающих данных в статистику NMF может принимать недостающие данные, минимизируя при этом свою функцию затрат, вместо того, чтобы обрабатывать эти недостающие данные как нули.[5] Это делает его математически доказанным методом для вменение данных в статистике.[5] Сначала доказав, что отсутствующие данные игнорируются в функции стоимости, а затем доказав, что влияние отсутствующих данных может быть таким же небольшим, как эффект второго порядка, Ren et al. (2020)[5] изучил и применил такой подход в области астрономии. Их работа сосредоточена на двумерных матрицах, в частности, она включает математический вывод, моделирование данных и применение к данным, полученным с неба.

Процедура вменения данных с помощью NMF может состоять из двух этапов. Во-первых, когда компоненты NMF известны, Ren et al. (2020) доказали, что влияние отсутствующих данных во время вменения данных («целевое моделирование» в их исследовании) является эффектом второго порядка. Во-вторых, когда компоненты NMF неизвестны, авторы доказали, что влияние отсутствующих данных во время создания компонента является эффектом первого-второго порядка.

В зависимости от способа получения компонентов NMF, предыдущий этап может быть независимым или зависеть от последнего. Кроме того, качество вменения можно повысить, если использовать больше компонентов NMF, см. Рисунок 4 Рена и др. (2020) за их иллюстрацию.[5]

Текстовый анализ

NMF можно использовать для интеллектуальный анализ текста приложений. В этом процессе документ-срок матрица состоит из весов различных терминов (обычно взвешенной информации о частоте слов) из набора документов. термин-характеристика и художественный документ Матрица характеристик определяется содержанием документов, а матрица характеристик документа описывает кластеры данных сопутствующих документов.

Одно конкретное приложение использовало иерархический NMF на небольшом подмножестве научных рефератов из PubMed.[57]Другая исследовательская группа сгруппировала части Enron набор данных электронной почты[58]с 65 033 сообщениями и 91 133 терминами в 50 кластерах.[59]NMF также был применен к данным цитирования, с одним примером кластеризации Английская Википедия статьи и научные журналы на основе исходящих научных цитат в английской Википедии.[60]

Arora, Ge, Halpern, Mimno, Moitra, Sontag, Wu, & Zhu (2013) предложили алгоритмы с полиномиальным временем для изучения тематических моделей с использованием NMF. Алгоритм предполагает, что тематическая матрица удовлетворяет условию разделимости, которое часто встречается в этих параметрах.[41]

Хассани, Иранманеш и Мансури (2019) предложили метод агломерации признаков для матриц терминов и документов, который работает с использованием NMF. Алгоритм сокращает матрицу термин-документ до меньшей матрицы, более подходящей для кластеризации текста.[61]

Спектральный анализ данных

NMF также используется для анализа спектральных данных; одно из таких применений - классификация космических объектов и мусора.[62]

Масштабируемое прогнозирование расстояния в Интернете

NMF применяется для масштабируемого прогнозирования расстояния в Интернете (времени приема-передачи). Для сети с хостов, с помощью NMF, расстояния всех сквозные ссылки можно предсказать после проведения только измерения. Этот метод был впервые представлен в службе оценки расстояний в Интернете (IDES).[63] Впоследствии, как полностью децентрализованный подход, сетевая система координат Phoenix[64]предлагается. Он обеспечивает лучшую общую точность прогноза за счет введения концепции веса.

Нестационарное шумоподавление речи

Речевое шумоподавление было давней проблемой в обработка аудиосигнала. Существует множество алгоритмов шумоподавления, если шум является стационарным. Например, Винеровский фильтр подходит для добавки Гауссов шум. Однако, если шум нестационарный, классические алгоритмы шумоподавления обычно имеют низкую производительность, потому что статистическую информацию о нестационарном шуме трудно оценить. Schmidt et al.[65] используйте NMF для шумоподавления речи при нестационарном шуме, что полностью отличается от классических статистических подходов. Ключевая идея заключается в том, что чистый речевой сигнал может быть редко представлен речевым словарем, а нестационарный шум - нет. Точно так же нестационарный шум также может быть редко представлен с помощью словаря шума, но речь не может.

Алгоритм шумоподавления NMF выглядит следующим образом. Два словаря, один для речи и один для шума, необходимо обучать в автономном режиме. Как только звучит зашумленная речь, мы сначала вычисляем величину кратковременного преобразования Фурье. Во-вторых, разделите его на две части через NMF: одна часть может быть редко представлена ​​речевым словарем, а другая часть может быть редко представлена ​​словарем шума. В-третьих, часть, которая представлена ​​речевым словарем, будет оцененной чистой речью.

Популяционная генетика

Редкий NMF используется в Популяционная генетика для оценки индивидуальных коэффициентов примеси, обнаружения генетических кластеров особей в выборке населения или оценки генетическая примесь в отобранных геномах. В генетической кластеризации человека алгоритмы NMF обеспечивают оценки, аналогичные оценкам компьютерной программы STRUCTURE, но эти алгоритмы более эффективны с точки зрения вычислений и позволяют анализировать большие наборы геномных данных населения.[66]

Биоинформатика

NMF успешно применяется в биоинформатика для кластеризации экспрессия гена и Метилирование ДНК данные и поиск генов, наиболее репрезентативных для кластеров.[24][67][68][69] При анализе раковых мутаций он использовался для выявления общих паттернов мутаций, которые встречаются при многих видах рака и, вероятно, имеют различные причины.[70] Методы NMF могут идентифицировать источники вариаций, такие как типы клеток, подтипы заболеваний, стратификация населения, состав ткани и клональность опухоли.[71]

Ядерная визуализация

NMF, также называемый в этой области факторным анализом, используется с 1980-х годов.[72] анализировать последовательности изображений в ОФЭКТ и ДОМАШНИЙ ПИТОМЕЦ динамическая медицинская визуализация. Неуникальность NMF была устранена с помощью ограничений разреженности.[73][74][75]

Текущее исследование

Текущие исследования (с 2010 г.) в области факторизации неотрицательной матрицы включают, но не ограничиваются этим,

  1. Алгоритмический: поиск глобальных минимумов факторов и инициализация факторов.[76]
  2. Масштабируемость: как факторизовать матрицы миллион на миллиард, которые являются обычным явлением в интеллектуальном анализе данных в веб-масштабе, например, см. Распределенная неотрицательная матричная факторизация (DNMF)[77], Масштабируемая факторизация неотрицательной матрицы (ScalableNMF)[78], Распределенная стохастическая разложение по сингулярным значениям.[79]
  3. Онлайн: как обновить факторизацию при поступлении новых данных без пересчета с нуля, например, см. Онлайн CNSC[80]
  4. Коллективная (совместная) факторизация: факторизация нескольких взаимосвязанных матриц для обучения с несколькими представлениями, например многовидовая кластеризация, см. CoNMF[81] и MultiNMF[82]
  5. Проблема Коэна и Ротблюма 1993 года: всегда ли рациональная матрица имеет НМФ минимальной внутренней размерности, факторы которой также рациональны. В последнее время на этот вопрос ответили отрицательно.[83]

Смотрите также

Источники и внешние ссылки

Примечания

  1. ^ а б c Индержит С. Диллон; Суврит Сра (2005). Обобщенные неотрицательные матричные приближения с расходимостями Брегмана (PDF). НИПС.
  2. ^ Тандон, Рашиш; Суврит Сра (2010). «Аппроксимация разреженной неотрицательной матрицы: новые постановки и алгоритмы» (PDF). TR. Цитировать журнал требует | журнал = (помощь)
  3. ^ а б c Blanton, Michael R .; Роуис, Сэм (2007). «К-поправки и фильтры преобразования в ультрафиолетовом, оптическом и ближнем инфракрасном диапазонах». Астрономический журнал. 133 (2): 734–754. arXiv:Astro-ph / 0606170. Bibcode:2007AJ .... 133..734B. Дои:10.1086/510127. S2CID  18561804.
  4. ^ а б c d е ж грамм Рен, Бин; Пуэйо, Лоран; Zhu, Guangtun B .; Дюшен, Гаспар (2018). «Неотрицательная матричная факторизация: надежное извлечение расширенных структур». Астрофизический журнал. 852 (2): 104. arXiv:1712.10317. Bibcode:2018ApJ ... 852..104R. Дои:10.3847 / 1538-4357 / aaa1f2. S2CID  3966513.
  5. ^ а б c d е Рен, Бин; Пуэйо, Лоран; Чен, Кристина; Шоке, Элоди; Дебес, Джон Х; Дюшен, Гаспар; Менар, Франсуа; Перрин, Маршалл Д. (2020). «Использование данных для разделения сигналов в высококонтрастной визуализации». Астрофизический журнал. 892 (2): 74. arXiv:2001.00563. Bibcode:2020ApJ ... 892 ... 74R. Дои:10.3847 / 1538-4357 / ab7024. S2CID  209531731.
  6. ^ а б Райнер Гемулла; Эрик Найкамп; Питер Дж. Хаас; Яннис Сисманис (2011). Крупномасштабная матричная факторизация с распределенным стохастическим градиентным спуском. Proc. ACM SIGKDD Int'l Conf. по обнаружению знаний и интеллектуальному анализу данных. С. 69–77.
  7. ^ Ян Бао; и другие. (2014). TopicMF: одновременное использование рейтингов и обзоров для получения рекомендаций. AAAI.
  8. ^ Бен Мюррелл; и другие. (2011). "Неотрицательная матричная факторизация для изучения моделей эволюции белков, специфичных для выравнивания". PLOS ONE. 6 (12): e28898. Bibcode:2011PLoSO ... 628898M. Дои:10.1371 / journal.pone.0028898. ЧВК  3245233. PMID  22216138.
  9. ^ Уильям Х. Лоутон; Эдвард А. Сильвестр (1971). «Разрешение моделирующей кривой». Технометрика. 13 (3): 617–633. Дои:10.2307/1267173. JSTOR  1267173.
  10. ^ Пентти Паатеро; Unto Tapper; Паси Аалто; Маркку Кулмала (1991), "Методы матричной факторизации для анализа данных диффузионных батарей", Журнал аэрозольной науки, 22: S273 – S276, Дои:10.1016 / S0021-8502 (05) 80089-8, ISSN  0021-8502, Викиданные  Q58065673
  11. ^ П. Паатеро; У. Таппер (1994). «Положительная матричная факторизация: неотрицательная факторная модель с оптимальным использованием оценок ошибок значений данных». Окружающая среда. 5 (2): 111–126. Дои:10.1002 / env.3170050203.
  12. ^ Пиа Анттила; Пентти Паатеро; Unto Tapper; Олли Ярвинен (1995). «Идентификация источника объемных влажных отложений в Финляндии с помощью положительной матричной факторизации». Атмосферная среда. 29 (14): 1705–1718. Bibcode:1995Atmen..29.1705A. Дои:10.1016 / 1352-2310 (94) 00367-Т.
  13. ^ а б Дэниел Д. Ли и Х. Себастьян Сунг (1999). «Изучение частей объектов путем факторизации неотрицательной матрицы». Природа. 401 (6755): 788–791. Bibcode:1999Натура.401..788L. Дои:10.1038/44565. PMID  10548103. S2CID  4428232.
  14. ^ а б Дэниел Д. Ли и Х. Себастьян Сын (2001). Алгоритмы неотрицательной матричной факторизации (PDF). Достижения в системах обработки нейронной информации 13: Материалы конференции 2000 г. MIT Press. С. 556–562.
  15. ^ а б c Ч. Дин, X. Хе, H.D. Саймон (2005). «Об эквивалентности неотрицательной матричной факторизации и спектральной кластеризации». Proc. SIAM Int'l Conf. Data Mining, стр. 606-610. Май 2005 г.
  16. ^ Си Дин, Т. Ли, У. Пэн, «Об эквивалентности неотрицательной матричной факторизации и вероятностного скрытого семантического индексирования» В архиве 2016-03-04 в Wayback Machine Вычислительная статистика и анализ данных 52, 3913-3927
  17. ^ а б Ч Динг, Т. Ли, М. И. Джордан, Факторизации выпуклых и полуотрицательных матриц, IEEE Transactions on Pattern Analysis and Machine Intelligence, 32, 45-55, 2010
  18. ^ Берман, А .; Р.Дж. Племмонс (1974). «Обращения неотрицательных матриц». Линейная и полилинейная алгебра. 2 (2): 161–172. Дои:10.1080/03081087408817055.
  19. ^ А. Берман; Р.Дж. Племмонс (1994). Неотрицательные матрицы в математических науках. Филадельфия: СИАМ.
  20. ^ Томас, Л. (1974). «Задача 73-14. Ранговая факторизация неотрицательных матриц». SIAM Rev. 16 (3): 393–394. Дои:10.1137/1016064.
  21. ^ Вавасис, С.А. (2009). «О сложности факторизации неотрицательной матрицы». СИАМ Дж. Оптим. 20 (3): 1364–1377. arXiv:0708.4149. Дои:10.1137/070709967. S2CID  7150400.
  22. ^ Zhang, T .; Fang, B .; Liu, W .; Tang, Y. Y .; Он, G .; Вен, Дж. (2008). «Факторизация неотрицательной матрицы на основе нормы полной вариации для идентификации дискриминантного представления образов». Нейрокомпьютинг. 71 (10–12): 1824–1831. Дои:10.1016 / j.neucom.2008.01.022.
  23. ^ а б Хойер, Патрик О. (2002). Неотрицательное разреженное кодирование. Proc. Семинар IEEE по нейронным сетям для обработки сигналов. arXiv:cs / 0202009.
  24. ^ а б Лео Тасламан и Бьёрн Нильссон (2012). «Основа для регуляризованной неотрицательной матричной факторизации с приложением к анализу данных экспрессии генов». PLOS One. 7 (11): e46331. Bibcode:2012PLoSO ... 746331T. Дои:10.1371 / journal.pone.0046331. ЧВК  3487913. PMID  23133590.
  25. ^ Hsieh, C.J .; Диллон, И. С. (2011). Методы быстрого координатного спуска с выбором переменных для факторизации неотрицательной матрицы (PDF). Материалы 17-й международной конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных - KDD '11. п. 1064. Дои:10.1145/2020408.2020577. ISBN  9781450308137.
  26. ^ http://www.ijcai.org/papers07/Papers/IJCAI07-432.pdf
  27. ^ Фунг, Ик-Хинг; Ли, Чун-Хун; Чунг, Уильям К. (2 ноября 2007 г.). Прогнозирование участия в онлайн-обсуждениях с использованием неотрицательной матричной факторизации. Wi-Iatw '07. Компьютерное общество IEEE. С. 284–287. ISBN  9780769530284 - через dl.acm.org.
  28. ^ Найянг Гуань; Дачэн Тао; Чжиган Луо и Бо Юань (июль 2012 г.). «Онлайн-факторизация неотрицательной матрицы с устойчивой стохастической аппроксимацией». Транзакции IEEE в нейронных сетях и обучающих системах. 23 (7): 1087–1099. Дои:10.1109 / TNNLS.2012.2197827. PMID  24807135. S2CID  8755408.
  29. ^ а б Лин, Чи-Джен (2007). «Спроектированные градиентные методы для неотрицательной матричной факторизации» (PDF). Нейронные вычисления. 19 (10): 2756–2779. CiteSeerX  10.1.1.308.9135. Дои:10.1162 / neco.2007.19.10.2756. PMID  17716011. S2CID  2295736.
  30. ^ Лин, Чи-Джен (2007). «О сходимости алгоритмов мультипликативного обновления для неотрицательной матричной факторизации». IEEE-транзакции в нейронных сетях. 18 (6): 1589–1596. CiteSeerX  10.1.1.407.318. Дои:10.1109 / TNN.2007.895831. S2CID  2183630.
  31. ^ Хёнсу Ким и Парк Хэсун (2008). «Факторизация неотрицательной матрицы на основе чередования наименьших квадратов с ограничением неотрицательности и метода активного набора» (PDF). Журнал SIAM по матричному анализу и приложениям. 30 (2): 713–730. CiteSeerX  10.1.1.70.3485. Дои:10.1137 / 07069239x.
  32. ^ Найянг Гуань; Дачэн Тао; Чжиган Луо, Бо Юань (июнь 2012 г.). "NeNMF: Оптимальный градиентный метод для неотрицательной матричной факторизации". Транзакции IEEE при обработке сигналов. 60 (6): 2882–2898. Bibcode:2012ITSP ... 60.2882G. Дои:10.1109 / TSP.2012.2190406. S2CID  8143231.
  33. ^ Джингу Ким и Парк Хэсун (2011). «Быстрая неотрицательная матричная факторизация: метод активного набора и сравнения». Журнал SIAM по научным вычислениям. 58 (6): 3261–3281. CiteSeerX  10.1.1.419.798. Дои:10.1137/110821172.
  34. ^ Джингу Ким; Юньлун Хэ и Парк Хэсун (2013). «Алгоритмы неотрицательной матричной и тензорной факторизации: единое представление на основе блочного спуска координат» (PDF). Журнал глобальной оптимизации. 33 (2): 285–319. Дои:10.1007 / s10898-013-0035-4. S2CID  11197117.
  35. ^ Ding, C .; Он, X. и Саймон, H.D. (2005). Об эквивалентности неотрицательной матричной факторизации и спектральной кластеризации. Proc. SIAM Data Mining Conf. 4. С. 606–610. Дои:10.1137/1.9781611972757.70. ISBN  978-0-89871-593-4.
  36. ^ а б Чжу, Гуантун Б. (19 декабря 2016 г.). «Неотрицательная матричная факторизация (NMF) с гетероскедастическими неопределенностями и отсутствующими данными». arXiv:1612.06037 [Astro-ph.IM ].
  37. ^ а б Суммер, Реми; Пуэйо, Лоран; Ларкин, Джеймс (2012). «Обнаружение и характеризация экзопланет и дисков с использованием проекций на собственные изображения Карунена-Лоэва». Письма в астрофизический журнал. 755 (2): L28. arXiv:1207.4197. Bibcode:2012ApJ ... 755L..28S. Дои:10.1088 / 2041-8205 / 755/2 / L28. S2CID  51088743.
  38. ^ а б c Пуэйо, Лоран (2016). «Обнаружение и характеристика экзопланет с использованием проекций на собственные изображения Карунена Лоэва: прямое моделирование». Астрофизический журнал. 824 (2): 117. arXiv:1604.06097. Bibcode:2016ApJ ... 824..117P. Дои:10.3847 / 0004-637X / 824/2/117. S2CID  118349503.
  39. ^ Кэмпбелл, S.L .; Г.Д. Пул (1981). «Вычисление факторизации неотрицательного ранга». Приложение линейной алгебры. 35: 175–182. Дои:10.1016 / 0024-3795 (81) 90272-х.
  40. ^ Kalofolias, V .; Галлопулос, Э. (2012). «Вычисление симметричных факторизаций неотрицательного ранга» (PDF). Приложение линейной алгебры. 436 (2): 421–435. Дои:10.1016 / j.laa.2011.03.016.
  41. ^ а б Арора, Санджив; Ге, Ронг; Хальперн, Йони; Мимно, Дэвид; Мойтра, Анкур; Зонтаг, Дэвид; Ву, Ичэнь; Чжу, Майкл (2013). Практический алгоритм тематического моделирования с доказуемыми гарантиями. Материалы 30-й Международной конференции по машинному обучению. arXiv:1212.4777. Bibcode:2012arXiv1212.4777A.
  42. ^ Ли, Дэниел Д. и Сын, Х. Себастьян (1999). «Изучение частей предметов по неотрицательной матричной факторизации» (PDF). Природа. 401 (6755): 788–791. Bibcode:1999Натура.401..788L. Дои:10.1038/44565. PMID  10548103. S2CID  4428232.CS1 maint: несколько имен: список авторов (связь)
  43. ^ Рэй Бантин (2002). Вариационные расширения для EM и полиномиального PCA (PDF). Proc. Европейская конференция по машинному обучению (ECML-02). LNAI. 2430. С. 23–34.
  44. ^ Эрик Гауссье и Сирил Гутт (2005). Связь между PLSA и NMF и последствия (PDF). Proc. 28-я международная конференция ACM SIGIR по исследованиям и разработкам в области информационного поиска (SIGIR-05). С. 601–602. Архивировано из оригинал (PDF) на 2007-09-28. Получено 2007-01-29.
  45. ^ Рон Засс и Амнон Шашуа (2005). "Объединяющий подход к жесткой и вероятностной кластеризации ". Международная конференция по компьютерному зрению (ICCV) Пекин, Китай, октябрь 2005 г.
  46. ^ Макс Веллинг; и другие. (2004). Экспоненциальные семейные фисгармонии с приложением к информационному поиску. НИПС.
  47. ^ Пентти Паатеро (1999). «Мультилинейный движок: управляемая таблицами программа наименьших квадратов для решения полилинейных задач, включая n-стороннюю модель параллельного факторного анализа». Журнал вычислительной и графической статистики. 8 (4): 854–888. Дои:10.2307/1390831. JSTOR  1390831.
  48. ^ Макс Веллинг и Маркус Вебер (2001). «Положительная тензорная факторизация». Письма с распознаванием образов. 22 (12): 1255–1261. CiteSeerX  10.1.1.21.24. Дои:10.1016 / S0167-8655 (01) 00070-8.
  49. ^ Джингу Ким и Парк Хэсун (2012). Быстрая неотрицательная тензорная факторизация с помощью метода активного набора (PDF). Высокопроизводительные научные вычисления: алгоритмы и приложения. Springer. С. 311–326.
  50. ^ Кенан Йилмаз; А. Тайлан Джемгил и Умут Симсекли (2011). Обобщенная сопряженная тензорная факторизация (PDF). НИПС.
  51. ^ Вамси К. Потлуру; Сергей М. Плис; Мортен Моруп; Винс Д. Калхун и Терран Лейн (2009). Эффективные мультипликативные обновления для машин опорных векторов. Материалы конференции SIAM 2009 по интеллектуальному анализу данных (SDM). С. 1218–1229.
  52. ^ Вэй Сюй; Синь Лю и Ихонг Гонг (2003). Кластеризация документов на основе неотрицательной матричной факторизации. Материалы 26-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска. Нью-Йорк: Ассоциация вычислительной техники. С. 267–273.
  53. ^ Eggert, J .; Корнер, Э. (2004). «Разреженное кодирование и NMF». 2004 Совместная международная конференция IEEE по нейронным сетям (IEEE Cat. No. 04CH37541). 4. С. 2529–2533. Дои:10.1109 / IJCNN.2004.1381036. ISBN  978-0-7803-8359-3. S2CID  17923083.
  54. ^ Лафреньер, Давид; Маройд, Кристиан; Дойон, Рене; Бармен, Трэвис (2009). «Обнаружение HST / NICMOS HR 8799 b в 1998 году». Письма в астрофизический журнал. 694 (2): L148. arXiv:0902.3247. Bibcode:2009ApJ ... 694L.148L. Дои:10.1088 / 0004-637X / 694/2 / L148. S2CID  7332750.
  55. ^ Амара, Адам; Куанц, Саша П. (2012). «PYNPOINT: пакет обработки изображений для поиска экзопланет». Ежемесячные уведомления Королевского астрономического общества. 427 (2): 948. arXiv:1207.6637. Bibcode:2012МНРАС.427..948А. Дои:10.1111 / j.1365-2966.2012.21918.x. S2CID  119200505.
  56. ^ Ваххадж, Захед; Cieza, Lucas A .; Мавет, Дмитрий; Ян, Бин; Кановас, Гектор; де Бур, Джозуа; Касасс, Симон; Менар, Франсуа; Schreiber, Matthias R .; Лю, Майкл С .; Biller, Beth A .; Нильсен, Эрик Л .; Хейворд, Томас Л. (2015). «Улучшение отношения сигнал-шум при прямом отображении экзопланет и околозвездных дисков с помощью MLOCI». Астрономия и астрофизика. 581 (24): A24. arXiv:1502.03092. Bibcode:2015A & A ... 581A..24 Вт. Дои:10.1051/0004-6361/201525837. S2CID  20174209.
  57. ^ Нильсен, Финн Оруп; Балслев, Даниэла; Хансен, Ларс Кай (2005). «Изучение задней части поясной извилины: разделение компонентов памяти и боли» (PDF). NeuroImage. 27 (3): 520–522. Дои:10.1016 / j.neuroimage.2005.04.034. PMID  15946864. S2CID  18509039.
  58. ^ Коэн, Уильям (2005-04-04). «Набор данных электронной почты Enron». Получено 2008-08-26.
  59. ^ Берри, Майкл В .; Браун, Мюррей (2005). «Электронное наблюдение с использованием неотрицательной матричной факторизации». Вычислительная и математическая теория организации. 11 (3): 249–264. Дои:10.1007 / s10588-005-5380-5. S2CID  16249147.
  60. ^ Нильсен, Финн Оруп (2008). Кластеризация научных цитат в Википедии. Викимания. arXiv:0805.1154.
  61. ^ Хассани, Али; Иранманеш, Амир; Мансури, Наджме (12.11.2019). «Анализ текста с использованием неотрицательной матричной факторизации и скрытого семантического анализа». arXiv:1911.04705 [cs.LG ].
  62. ^ Майкл В. Берри; и другие. (2006). «Алгоритмы и приложения для приближенной неотрицательной матричной факторизации». Цитировать журнал требует | журнал = (помощь)
  63. ^ Юнь Мао; Лоуренс Саул и Джонатан М. Смит (2006). «IDES: служба оценки расстояния в Интернете для больших сетей». Журнал IEEE по избранным областям коммуникаций. 24 (12): 2273–2284. CiteSeerX  10.1.1.136.3837. Дои:10.1109 / JSAC.2006.884026. S2CID  12931155.
  64. ^ Ян Чен; Сяо Ван; Конг Ши; и другие. (2011). «Феникс: система координат сети на основе веса, использующая матричную факторизацию» (PDF). IEEE Transactions по управлению сетью и услугами. 8 (4): 334–347. CiteSeerX  10.1.1.300.2851. Дои:10.1109 / tnsm.2011.110911.100079. S2CID  8079061. Архивировано из оригинал (PDF) на 14.11.2011.
  65. ^ Шмидт, М.Н., Дж. Ларсен, Ф.Т. Сяо. (2007). "Снижение шума ветра с использованием неотрицательного разреженного кодирования ", Машинное обучение для обработки сигналов, семинар IEEE по, 431–436
  66. ^ Фришо, Э., Матье, Ф., Труйон, Т., Бушар, Г., Франсуа, О. (2014). «Быстрая и эффективная оценка индивидуальных коэффициентов происхождения». Генетика. 196 (4): 973–983. Дои:10.1534 / genetics.113.160572. ЧВК  3982712. PMID  24496008.CS1 maint: несколько имен: список авторов (связь)
  67. ^ Девараджан, К. (2008). «Неотрицательная матричная факторизация: аналитический и интерпретативный инструмент в вычислительной биологии». PLOS вычислительная биология. 4 (7): e1000029. Bibcode:2008PLSCB ... 4E0029D. Дои:10.1371 / journal.pcbi.1000029. ЧВК  2447881. PMID  18654623.
  68. ^ Хёнсу Ким и Хэсун Пак (2007). «Разреженные неотрицательные матричные факторизации с помощью чередующихся наименьших квадратов с ограничениями на неотрицательность для анализа данных микрочипа». Биоинформатика. 23 (12): 1495–1502. Дои:10.1093 / биоинформатика / btm134. PMID  17483501.
  69. ^ Швальбе, Э. (2013). «Профилирование метилирования ДНК медуллобластомы позволяет надежную подклассификацию и улучшенное прогнозирование результатов с использованием фиксированных формалином биопсий». Acta Neuropathologica. 125 (3): 359–371. Дои:10.1007 / s00401-012-1077-2. ЧВК  4313078. PMID  23291781.
  70. ^ Александров, Людмил Б .; Ник-Зайнал, Серена; Ведж, Дэвид С.; Кэмпбелл, Питер Дж .; Страттон, Майкл Р. (31 января 2013 г.). «Расшифровка сигнатур мутационных процессов, действующих при раке человека». Отчеты по ячейкам. 3 (1): 246–259. Дои:10.1016 / j.celrep.2012.12.008. ISSN  2211-1247. ЧВК  3588146. PMID  23318258.
  71. ^ Stein-O’Brien, Genevieve L .; Арора, Раман; Culhane, Aedin C .; Фаворов, Александр В .; Гармир, Лана Х .; Грин, Кейси С .; Гофф, Лояльный А .; Ли, Ифэн; Нгом, Алун; Охс, Майкл Ф .; Сюй Яньсюнь (01.10.2018). «Войдите в матрицу: факторизация открывает знания из омики». Тенденции в генетике. 34 (10): 790–805. Дои:10.1016 / j.tig.2018.07.003. ISSN  0168-9525. ЧВК  6309559. PMID  30143323.
  72. ^ ДиПаола; Базен; Обри; Ауренго; Cavailloles; Херри; Кан (1982). «Обработка динамических последовательностей в ядерной медицине». IEEE Trans Nucl Sci. НС-29 (4): 1310–21. Bibcode:1982ITNS ... 29.1310D. Дои:10.1109 / тнс.1982.4332188. S2CID  37186516.
  73. ^ Ситек; Гуллберг; Huesman (2002). «Исправление неоднозначных решений в факторном анализе с использованием штрафных наименьших квадратов». IEEE Trans Med Imaging. 21 (3): 216–25. Дои:10.1109/42.996340. PMID  11989846. S2CID  6553527.
  74. ^ Бутчко; Митра; Бейкер; Ягуст; Гуллберг (2015). «Приложение для кластеризации инициированного факторного анализа (CIFA) для классификации тканей в динамической ПЭТ головного мозга». Журнал церебрального кровотока и метаболизма. 35 (7): 1104–11. Дои:10.1038 / jcbfm.2015.69. ЧВК  4640278. PMID  25899294.
  75. ^ Абдала; Бутчко; Митра; Гуллберг (2015). «Реконструкция 4-D динамических изображений SPECT из несовместимых проекций с использованием алгоритма FADS, инициализированного сплайном (SIFADS)». IEEE Trans Med Imaging. 34 (1): 216–18. Дои:10.1109 / TMI.2014.2352033. PMID  25167546. S2CID  11060831.
  76. ^ К. Буцидис и Э. Галлопулос (2008). «Инициализация на основе SVD: начало факторизации неотрицательной матрицы». Распознавание образов. 41 (4): 1350–1362. CiteSeerX  10.1.1.137.8281. Дои:10.1016 / j.patcog.2007.09.010.
  77. ^ Чао Лю; Хун-чжи Ян; Цзиньлян Фань; Ли-Вэй Хе и И-Мин Ван (2010). «Распределенная неотрицательная матричная факторизация для анализа диадических данных в веб-масштабе на MapReduce» (PDF). Материалы 19-й Международной конференции в Интернете.
  78. ^ Цзянтао Инь; Лисинь Гао и Чжунфэй (Марк) Чжан (2014). «Масштабируемая неотрицательная матричная факторизация с блочными обновлениями» (PDF). Труды Европейской конференции по машинному обучению и принципам и практике обнаружения знаний в базах данных.
  79. ^ "Apache Mahout". mahout.apache.org. Получено 2019-12-14.
  80. ^ Донг Ван; Равичандер Випперла; Ник Эванс; Томас Фанг Чжэн (2013). «Онлайн-обучение неотрицательной сверточной последовательности речевых сигналов» (PDF). Транзакции IEEE при обработке сигналов. 61 (1): 44–56. Bibcode:2013ITSP ... 61 ... 44 Вт. CiteSeerX  10.1.1.707.7348. Дои:10.1109 / чайная ложка.2012.2222381. S2CID  12530378. Архивировано из оригинал (PDF) на 2015-04-19. Получено 2015-04-19.
  81. ^ Xiangnan He; Мин-Йен Кан; Пэйчу Се и Сяо Чен (2014). «Многовидовая кластеризация элементов Web 2.0 на основе комментариев» (PDF). Материалы 23-й Международной конференции в Интернете. Архивировано из оригинал (PDF) на 2015-04-02. Получено 2015-03-22.
  82. ^ Цзялу Лю; Чи Ван; Цзин Гао и Цзявэй Хан (2013). Многовидовая кластеризация посредством совместной неотрицательной матричной факторизации (PDF). Труды конференции SIAM Data Mining. С. 252–260. CiteSeerX  10.1.1.301.1771. Дои:10.1137/1.9781611972832.28. ISBN  978-1-61197-262-7.
  83. ^ Чистиков Дмитрий; Кифер, Стефан; Марушич, Инес; Ширмохаммади, Махса; Уоррелл, Джеймс (22 мая 2016 г.). «Неотрицательная матричная факторизация требует иррациональности». arXiv:1605.06848 [cs.CC ].

Другие