T-распределенное стохастическое вложение соседей - T-distributed stochastic neighbor embedding

t-распределенное стохастическое вложение соседей (t-SNE) это машинное обучение алгоритм для визуализация основан на стохастическом соседнем встраивании, первоначально разработанном Сэмом Роуисом и Джеффри Хинтон,[1] куда Лоренс ван дер Маатен предложил т-распределенный вариант.[2] Это уменьшение нелинейной размерности Техника хорошо подходит для встраивания данных большой размерности для визуализации в двух- или трехмерном пространстве низкой размерности. В частности, он моделирует каждый многомерный объект двух- или трехмерной точкой таким образом, что аналогичные объекты моделируются ближайшими точками, а разные объекты с высокой вероятностью моделируются удаленными точками.

Алгоритм t-SNE состоит из двух основных этапов. Сначала t-SNE конструирует распределение вероятностей над парами объектов большой размерности таким образом, что похожим объектам присваивается более высокая вероятность, а разным точкам - более низкая вероятность. Во-вторых, t-SNE определяет аналогичное распределение вероятностей по точкам на карте малой размерности и минимизирует Дивергенция Кульбака – Лейблера (Расхождение KL) между двумя распределениями относительно расположения точек на карте. В то время как исходный алгоритм использует Евклидово расстояние между объектами в качестве основы его метрики подобия, это можно изменить при необходимости.

t-SNE использовался для визуализации в широком спектре приложений, включая компьютерная безопасность исследование,[3] музыкальный анализ,[4] исследования рака,[5] биоинформатика,[6] и обработка биомедицинских сигналов.[7] Он часто используется для визуализации высокоуровневых представлений, изученных искусственная нейронная сеть.[8]

Хотя графики t-SNE часто кажутся кластеры, выбранная параметризация может сильно влиять на визуальные кластеры, поэтому необходимо хорошее понимание параметров t-SNE. Такие «кластеры» могут появляться даже в некластеризованных данных,[9] а значит, могут быть ложные выводы. Таким образом, для выбора параметров и проверки результатов может потребоваться интерактивное исследование.[10][11] Было продемонстрировано, что t-SNE часто может восстанавливать хорошо разделенные кластеры и при специальном выборе параметров приближается к простой форме спектральная кластеризация.[12]

Подробности

Учитывая набор многомерные объекты , t-SNE сначала вычисляет вероятности которые пропорциональны подобию предметов и , следующее.

За , определять

и установить . Обратите внимание, что для всех .

Как объяснили Ван дер Маатен и Хинтон: «Сходство точки данных датировать - условная вероятность, , который выбрал бы в качестве своего соседа, если бы соседи были выбраны пропорционально их плотности вероятности при гауссиане с центром в ."[2]

Теперь определим

и обратите внимание, что , , и .

Пропускная способность Гауссовы ядра устанавливается таким образом, что недоумение условного распределения равняется заранее заданной сложности с использованием метод деления пополам. В результате полоса пропускания адаптируется к плотность данных: меньшие значения используются в более плотных частях пространства данных.

Поскольку ядро ​​Гаусса использует евклидово расстояние , на него влияет проклятие размерности, а в данных большой размерности, когда расстояния теряют способность различать, становятся слишком похожими (асимптотически они сходятся к константе). Было предложено регулировать расстояния с помощью степенного преобразования на основе внутреннее измерение каждой точки, чтобы облегчить это.[13]

t-SNE стремится изучить -мерная карта ), что отражает сходство как можно лучше. С этой целью он измеряет сходство между двумя точками на карте и , используя очень похожий подход. В частности, для , определять в качестве

и установить . Здесь хвостатый Распределение Стьюдента (с одной степенью свободы, что аналогично Распределение Коши ) используется для измерения сходства между точками низкой размерности, чтобы можно было смоделировать разнородные объекты далеко друг от друга на карте.

Расположение точек на карте определяются путем минимизации (несимметричного) Дивергенция Кульбака – Лейблера распределения из раздачи , то есть:

Минимизация расходимости Кульбака – Лейблера по точкам выполняется с использованием градиентный спуск. Результатом этой оптимизации является карта, которая отражает сходство между многомерными входными данными.

Программного обеспечения

  • ELKI содержит tSNE, также с приближением Барнса-Хата
  • Scikit-Learn, популярный инструментарий машинного обучения на Python реализует t-SNE как с точными решениями, так и с приближением Барнса-Хата.

Рекомендации

  1. ^ Роуис, Сэм; Хинтон, Джеффри (январь 2002 г.). Стохастическое вложение соседа (PDF). Системы обработки нейронной информации.
  2. ^ а б van der Maaten, L.J.P .; Хинтон, Г. (Ноябрь 2008 г.). «Визуализация данных с помощью t-SNE» (PDF). Журнал исследований в области машинного обучения. 9: 2579–2605.
  3. ^ Гаши, I .; Станкович, В .; Leita, C .; Тоннард, О. (2009). «Экспериментальное исследование разнообразия с помощью готовых антивирусных механизмов». Материалы Международного симпозиума IEEE по сетевым вычислениям и приложениям: 4–11.
  4. ^ Hamel, P .; Экк, Д. (2010). «Возможности обучения из музыкального аудио в сетях глубокого убеждения». Материалы конференции Международного общества поиска информации о музыке: 339–344.
  5. ^ Jamieson, A.R .; Giger, M.L .; Drukker, K .; Луи, H .; Yuan, Y .; Бхошан, Н. (2010). «Изучение уменьшения размерности пространства нелинейных признаков и представления данных в CADx груди с помощью лапласовских собственных карт и t-SNE». Медицинская физика. 37 (1): 339–351. Дои:10.1118/1.3267037. ЧВК  2807447. PMID  20175497.
  6. ^ Wallach, I .; Лилиан, Р. (2009). «База данных« белок-малые молекулы », неизбыточный структурный ресурс для анализа связывания белок-лиганд». Биоинформатика. 25 (5): 615–620. Дои:10.1093 / биоинформатика / btp035. PMID  19153135.
  7. ^ Birjandtalab, J .; Pouyan, M. B .; Нурани, М. (01.02.2016). Нелинейное уменьшение размеров для обнаружения эпилептических припадков на основе ЭЭГ. Международная конференция IEEE-EMBS по биомедицинской и медицинской информатике (BHI), 2016 г.. С. 595–598. Дои:10.1109 / BHI.2016.7455968. ISBN  978-1-5090-2455-1. S2CID  8074617.
  8. ^ Визуализация репрезентаций: глубокое обучение и человеческие существа Блог Кристофера Олаха, 2015 г.
  9. ^ «К-означает кластеризацию на выходе t-SNE». Перекрестная проверка. Получено 2018-04-16.
  10. ^ Пеццотти, Никола; Lelieveldt, Boudewijn P. F .; Маатен, Лоуренс ван дер; Холлт, Томас; Эйсеманн, Эльмар; Виланова, Анна (01.07.2017). «Приблизительный и управляемый пользователем tSNE для прогрессивной визуальной аналитики». IEEE Transactions по визуализации и компьютерной графике. 23 (7): 1739–1752. arXiv:1512.01655. Дои:10.1109 / tvcg.2016.2570755. ISSN  1077-2626. PMID  28113434. S2CID  353336.
  11. ^ Ваттенберг, Мартин; Вьегас, Фернанда; Джонсон, Ян (2016-10-13). «Как эффективно использовать t-SNE». Дистиллировать. Получено 4 декабря 2017.
  12. ^ Линдерман, Джордж С .; Штайнербергер, Стефан (8 июня 2017 г.). «Кластеризация с t-SNE, доказуемо». arXiv:1706.02582 [cs.LG ].
  13. ^ Шуберт, Эрих; Герц, Майкл (2017-10-04). Внутреннее t-стохастическое вложение соседей для визуализации и обнаружения выбросов. SISAP 2017 - 10-я Международная конференция по поиску и применению подобия. С. 188–203. Дои:10.1007/978-3-319-68474-1_13.

внешняя ссылка