Частичная регрессия наименьших квадратов - Partial least squares regression

Частичная регрессия наименьших квадратов (Регрессия PLS) это статистический метод, который имеет некоторое отношение к регрессия главных компонентов; вместо того, чтобы найти гиперплоскости максимум отклонение между ответом и независимыми переменными он находит линейная регрессия модель путем проецирования предсказанные переменные и наблюдаемые переменные в новое пространство. Поскольку как Икс и Y данные проецируются в новые пространства, семейство методов PLS известно как билинейные факторные модели. Дискриминантный анализ методом частичных наименьших квадратов (PLS-DA) - это вариант, используемый, когда Y является категориальным.

PLS используется для нахождения фундаментальных отношений между двумя матрицы (Икс и Y), т.е. скрытая переменная подход к моделированию ковариация структуры в этих двух пространствах. Модель PLS попытается найти многомерное направление в Икс пространство, объясняющее направление максимальной многомерной дисперсии в Y Космос. Регрессия PLS особенно подходит, когда матрица предикторов имеет больше переменных, чем наблюдений, и когда есть мультиколлинеарность среди Икс значения. Напротив, стандартная регрессия в этих случаях потерпит неудачу (если только это не упорядоченный ).

Метод наименьших квадратов был введен шведским статистиком. Герман О. А. Вольд, который затем разработал его вместе со своим сыном Сванте Вольдом. Альтернативный термин для PLS (и более правильный по Svante Wold^[1]) является проекция на скрытые структуры, но термин частичные наименьшие квадраты по-прежнему доминирует во многих областях. Хотя первоначально приложения использовались в социальных науках, регрессия PLS сегодня наиболее широко используется в хемометрия и смежные области. Он также используется в биоинформатика, сенсометрия, нейробиология, и антропология.

Базовая модель

Общая базовая модель многомерного PLS такова:

{ Displaystyle X = TP ^ { mathrm {T}} + E}

{ Displaystyle Y = UQ ^ { mathrm {T}} + F}

где $Икс$ является ${ Displaystyle п раз м}$ матрица предикторов, $Y$ является ${ Displaystyle п раз р}$ матрица ответов; $Т$ и $U$ находятся ${ Displaystyle п раз л}$ матрицы, которые являются соответственно проекциями $Икс$ (в Оценка X, составная часть или фактор матрица) и проекции $Y$ (в Y баллов); $п$ и $Q$ являются, соответственно, ${ displaystyle m times l}$ и ${ displaystyle p times l}$ ортогональный загрузка матрицы; и матрицы $E$ и $F$ являются ошибочными членами, которые считаются независимыми и одинаково распределенными случайными нормальными величинами. Разложения $Икс$ и $Y$ сделаны так, чтобы максимизировать ковариация между $Т$ и $U$ .

Алгоритмы

Существует ряд вариантов PLS для оценки матриц коэффициентов и нагрузок. $Т, У, П$ и $Q$ . Большинство из них строят оценки линейной регрессии между $Икс$ и $Y$ так как ${ displaystyle Y = X { тильда {B}} + { tilde {B}} _ {0}}$ . Некоторые алгоритмы PLS подходят только для случая, когда $Y$ вектор-столбец, а другие имеют дело с общим случаем матрицы $Y$ . Алгоритмы также различаются по тому, оценивают ли они фактор-матрицу. $Т$ как ортогональный, ортонормированная матрица или нет.^[2]^[3]^[4]^[5]^[6]^[7] Окончательный прогноз будет одинаковым для всех этих разновидностей PLS, но компоненты будут отличаться.

PLS1

PLS1 - широко используемый алгоритм, подходящий для вектора $Y$ дело. Он оценивает $Т$ как ортонормированная матрица. В псевдокоде это выражается ниже (заглавные буквы - это матрицы, строчные буквы - это векторы, если они с надстрочными индексами, и скаляры, если они с индексами):

 1 функция PLS1 ( $Х, у, л$ ) 2      ${ displaystyle X ^ {(0)} получает X}$  3      ${ displaystyle w ^ {(0)} получает X ^ { mathrm {T}} y / || X ^ { mathrm {T}} y ||}$ , первоначальная оценка  $ш$ . 4     за  ${ displaystyle k = 0}$  к  ${ displaystyle l-1}$  5          ${ displaystyle t ^ {(k)} получает X ^ {(k)} w ^ {(k)}}$  6          ${ Displaystyle т_ {к} получает {т ^ {(к)}} ^ { mathrm {T}} т ^ {(к)}}$  (обратите внимание, что это скаляр) 7          ${ Displaystyle т ^ {(к)} получает т ^ {(к)} / т_ {к}}$  8          ${ displaystyle p ^ {(k)} получает {X ^ {(k)}} ^ { mathrm {T}} t ^ {(k)}}$  9          ${ displaystyle q_ {k} получает {y} ^ { mathrm {T}} t ^ {(k)}}$  (обратите внимание, что это скаляр)10         если  ${ displaystyle q_ {k} = 0}$ 11              ${ displaystyle l получает k}$ , перемена то для цикла12         если  ${ Displaystyle к <(l-1)}$ 13              ${ displaystyle X ^ {(k + 1)} получает X ^ {(k)} - t_ {k} t ^ {(k)} {p ^ {(k)}} ^ { mathrm {T}} }$ 14              ${ displaystyle w ^ {(k + 1)} получает {X ^ {(k + 1)}} ^ { mathrm {T}} y}$ 15     конец за16     определять  $W$  быть матрицей с колоннами  ${ displaystyle w ^ {(0)}, w ^ {(1)}, ..., w ^ {(l-1)}}$ .       Сделайте то же самое, чтобы сформировать  $п$  матрица и  $q$  вектор.17  ${ displaystyle B получает W {(P ^ { mathrm {T}} W)} ^ {- 1} q}$ 18      ${ displaystyle B_ {0} получает q_ {0} - {P ^ {(0)}} ^ { mathrm {T}} B}$ 19     вернуть  ${ displaystyle B, B_ {0}}$

Эта форма алгоритма не требует центрирования ввода. $Икс$ и $Y$ , так как это выполняется алгоритмом неявно. В этом алгоритме реализована дефляция матрицы $Икс$ (вычитание ${ Displaystyle т_ {к} т ^ {(к)} {р ^ {(к)}} ^ { mathrm {T}}}$ ), но дефляция вектора $у$ не выполняется, так как в этом нет необходимости (можно доказать, что спуск $у$ дает те же результаты, что и без дефляции^[8]). Пользовательская переменная $л$ - предел количества скрытых факторов в регрессии; если он равен рангу матрицы $Икс$ , алгоритм даст оценки регрессии наименьших квадратов для $B$ и ${ displaystyle B_ {0}}$

Расширения

В 2002 году был опубликован новый метод, названный ортогональными проекциями на скрытые структуры (OPLS). В OPLS непрерывные переменные данные разделяются на прогнозирующую и некоррелированную информацию. Это приводит к улучшенной диагностике, а также к более легко интерпретируемой визуализации. Однако эти изменения только улучшают интерпретируемость, но не предсказуемость моделей PLS.^[9] L-PLS расширяет регрессию PLS до 3 связанных блоков данных.^[10] Аналогичным образом OPLS-DA (Дискриминантный анализ) может применяться при работе с дискретными переменными, например, в исследованиях классификации и биомаркеров.

В 2015 году метод частичных наименьших квадратов был связан с процедурой, называемой трехпроходным регрессионным фильтром (3PRF).^[11] Предположим, что количество наблюдений и переменных велико, 3PRF (и, следовательно, PLS) асимптотически нормален для «наилучшего» прогноза, подразумеваемого линейной моделью латентных факторов. В данных о фондовых рынках было показано, что PLS дает точные прогнозы доходности и роста денежных потоков вне выборки.^[12]

Версия PLS на основе разложение по сингулярным числам (SVD) обеспечивает реализацию с эффективным использованием памяти, которую можно использовать для решения многомерных задач, таких как связывание миллионов генетических маркеров с тысячами функций визуализации в визуализации генетики на аппаратном обеспечении потребительского уровня.^[13]

Корреляция PLS (PLSC) - еще одна методология, связанная с регрессией PLS,^[14] который был использован в нейровизуализации ^[14]^[15]^[16] и совсем недавно в спортивной науке,^[17] для количественной оценки силы взаимосвязи между наборами данных. Как правило, PLSC делит данные на два блока (подгруппы), каждый из которых содержит одну или несколько переменных, а затем использует разложение по сингулярным числам (SVD) для определения прочности любых отношений (т.е. количества совместно используемой информации), которые могут существовать между двумя подгруппами компонентов.^[18] Это достигается с помощью SVD для определения инерции (т.е. суммы сингулярных значений) ковариационной матрицы рассматриваемых подгрупп.^[18]^[14]

Смотрите также

дальнейшее чтение

Крамер, Р. (1998). Хемометрические методы количественного анализа. Марсель-Деккер. ISBN 978-0-8247-0198-7.
Франк, Ильдико Э .; Фридман, Джером Х. (1993). «Статистический взгляд на некоторые инструменты регрессии хемометрики». Технометрика. 35 (2): 109–148. Дои:10.1080/00401706.1993.10485033.
Haenlein, Майкл; Каплан, Андреас М. (2004). «Руководство для начинающих по анализу методом частичных наименьших квадратов». Понимание статистики. 3 (4): 283–297. Дои:10.1207 / s15328031us0304_4.
Хенселер, Йорг; Фассотт, Георг (2005). «Тестирование смягчающих эффектов в моделях пути PLS. Иллюстрация доступных процедур». Цитировать журнал требует | журнал = (Помогите)
Лингьерде, Оле-Кристиан; Кристоферсен, Нильс (2000). «Структура усадки частичных наименьших квадратов». Скандинавский статистический журнал. 27 (3): 459–473. Дои:10.1111/1467-9469.00201.
Тененхаус, Мишель (1998). La Régression PLS: Теория и практика. Париж: Technip.
Росипал, Роман; Крамер, Николь (2006). «Обзор и недавние достижения в области частичных наименьших квадратов, в подпространстве, скрытой структуре и методах выбора признаков»: 34–51. Цитировать журнал требует | журнал = (Помогите)
Хелланд, Инге С. (1990). «Регрессионные и статистические модели PLS». Скандинавский статистический журнал. 17 (2): 97–114. JSTOR 4616159.
Уолд, Герман (1966). «Оценка главных компонентов и связанных моделей методом наименьших квадратов». В Krishnaiaah, P.R. (ред.). Многомерный анализ. Нью-Йорк: Academic Press. С. 391–420.
Уолд, Герман (1981). Подход фиксированной точки к взаимозависимым системам. Амстердам: Северная Голландия.
Уолд, Герман (1985). «Частичные наименьшие квадраты». В Коце, Самуэль; Джонсон, Норман Л. (ред.). Энциклопедия статистических наук. 6. Нью-Йорк: Вили. С. 581–591.
Волд, Сванте; Рухе, Аксель; Уолд, Герман; Данн, У.Дж. (1984). «Проблема коллинеарности в линейной регрессии. Подход частных наименьших квадратов (PLS) к обобщенным обратным». Журнал SIAM по научным и статистическим вычислениям. 5 (3): 735–743. Дои:10.1137/0905052.
Гартвейт, Пол Х. (1994). «Интерпретация частичных наименьших квадратов». Журнал Американской статистической ассоциации. 89 (425): 122–7. Дои:10.1080/01621459.1994.10476452. JSTOR 2291207.
Ван, Х., изд. (2010). Справочник по частичным наименьшим квадратам. ISBN 978-3-540-32825-4.
Stone, M .; Брукс, Р.Дж. (1990). «Континуальная регрессия: перекрестно подтвержденное предсказание с последовательным построением, охватывающее обычные наименьшие квадраты, частичные наименьшие квадраты и регрессию главных компонентов». Журнал Королевского статистического общества, серия B. 52 (2): 237–269. JSTOR 2345437.

внешняя ссылка

Краткое введение в регрессию PLS и ее историю

[wold_2001-1] Wold, S; Sjöström, M .; Эрикссон, Л. (2001). «PLS-регрессия: основной инструмент хемометрики». Хемометрия и интеллектуальные лабораторные системы. 58 (2): 109–130. Дои:10.1016 / S0169-7439 (01) 00155-1.

[2] Линдгрен, Ф; Гелади, П; Уолд, S (1993). «Алгоритм ядра для PLS». J. Chemometrics. 7: 45–59. Дои:10.1002 / cem.1180070104.

[3] де Йонг, S .; тер Браак, C.J.F. (1994). «Комментарии к алгоритму ядра PLS». J. Chemometrics. 8 (2): 169–174. Дои:10.1002 / cem.1180080208.

[4] Dayal, B.S .; МакГрегор, Дж. Ф. (1997). «Улучшенные алгоритмы PLS». J. Chemometrics. 11 (1): 73–85. Дои:10.1002 / (SICI) 1099-128X (199701) 11: 1 <73 :: AID-CEM435> 3.0.CO; 2- #.

[5] де Йонг, С. (1993). «SIMPLS: альтернативный подход к частичной регрессии наименьших квадратов». Хемометрия и интеллектуальные лабораторные системы. 18 (3): 251–263. Дои:10.1016 / 0169-7439 (93) 85002-Х.

[6] Rannar, S .; Lindgren, F .; Geladi, P .; Уолд, С. (1994). «Алгоритм ядра PLS для наборов данных с большим количеством переменных и меньшим количеством объектов. Часть 1: Теория и алгоритм». J. Chemometrics. 8 (2): 111–125. Дои:10.1002 / cem.1180080204.

[7] Абди, Х. (2010). «Частичная регрессия наименьших квадратов и проекция на регрессию скрытой структуры (PLS-регрессия)». Междисциплинарные обзоры Wiley: вычислительная статистика. 2: 97–106. Дои:10.1002 / wics.51.

[8] Хёскульдссон, Агнар (1988). «Методы регрессии PLS». Журнал хемометрики. 2 (3): 219. Дои:10.1002 / cem.1180020306.

[9] Трюгг, Дж; Уолд, S (2002). «Ортогональные проекции на скрытые структуры». Журнал хемометрики. 16 (3): 119–128. Дои:10.1002 / cem.695.

[10] Sæbøa, S .; Almøya, T .; Flatbergb, A .; Aastveita, A.H .; Мартенс, Х. (2008). «LPLS-регрессия: метод прогнозирования и классификации под влиянием исходной информации о переменных-предикторах». Хемометрия и интеллектуальные лабораторные системы. 91 (2): 121–132. Дои:10.1016 / j.chemolab.2007.10.006.

[11] Келли, Брайан; Прюитт, Сет (2015-06-01). «Трехходовой фильтр регрессии: новый подход к прогнозированию с использованием множества предикторов». Журнал эконометрики. Проблемы большой размерности в эконометрике. 186 (2): 294–316. Дои:10.1016 / j.jeconom.2015.02.011.

[12] Келли, Брайан; Прюитт, Сет (01.10.2013). «Ожидания рынка в разрезе текущих значений». Журнал финансов. 68 (5): 1721–1756. CiteSeerX 10.1.1.498.5973. Дои:10.1111 / jofi.12060. ISSN 1540-6261.

[13] Лоренци, Марко; Альтманн, Андре; Гутман, Борис; Рэй, Селина; Арбер, Чарльз; Hibar, Derrek P .; Джаханшад, Неда; Schott, Jonathan M .; Александр, Дэниел К. (20.03.2018). «Восприимчивость атрофии головного мозга к TRIB3 при болезни Альцгеймера, данные о функциональной приоритезации в визуальной генетике». Труды Национальной академии наук. 115 (12): 3162–3167. Дои:10.1073 / pnas.1706100115. ISSN 0027-8424. ЧВК 5866534. PMID 29511103.

[:0-14] а ^б ^c Кришнан, Анджали; Уильямс, Линн Дж .; Макинтош, Энтони Рэндал; Абди, Эрве (май 2011 г.). «Методы частичного наименьших квадратов (PLS) для нейровизуализации: учебное пособие и обзор». NeuroImage. 56 (2): 455–475. Дои:10.1016 / j.neuroimage.2010.07.034.

[15] Макинтош, Энтони Р .; Мишич, Братислав (03.01.2013). «Многомерный статистический анализ данных нейровизуализации». Ежегодный обзор психологии. 64 (1): 499–525. Дои:10.1146 / annurev-psycho-113011-143804. ISSN 0066-4308.

[16] Беггс, Клайв Б.; Маньяно, Кристофер; Белов, Павел; Кравецки, Жаклин; Ramasamy, Deepa P .; Хагемайер, Джеспер; Зивадинов, Роберт (2016-05-02). де Кастро, Фернандо (ред.). «Площадь поперечного сечения внутренней яремной вены и пульсация спинномозговой жидкости в акведуке Сильвия: сравнительное исследование между здоровыми людьми и пациентами с рассеянным склерозом». PLOS ONE. 11 (5): e0153960. Дои:10.1371 / journal.pone.0153960. ISSN 1932-6203. ЧВК 4852898. PMID 27135831.

[17] Ткачество, Дэн; Джонс, Бен; Иретон, Мэтт; Уайтхед, Сара; Тилль, Кевин; Беггс, Клайв Б. (14 февраля 2019 г.). Коннабой, Крис (ред.). «Преодоление проблемы мультиколлинеарности данных о спортивных результатах: новое приложение частичного корреляционного анализа методом наименьших квадратов». PLOS ONE. 14 (2): e0211776. Дои:10.1371 / journal.pone.0211776. ISSN 1932-6203. ЧВК 6375576.

[:1-18] а ^б Абди, Эрве; Уильямс, Линн Дж. (2013), Райсфельд, Брэд; Майено, Артур Н. (ред.), "Методы частичных наименьших квадратов: корреляция частичных наименьших квадратов и частичная регрессия наименьших квадратов", Вычислительная токсикология, Humana Press, 930, стр. 549–579, Дои:10.1007/978-1-62703-059-5_23, ISBN 9781627030588

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]