Прогресс в погоне за проекцией - Projection pursuit regression

В статистика, Прогрессивная регрессия преследования (PPR) это статистическая модель разработан Джером Х. Фридман и Вернер Штютцле который является продолжением аддитивные модели. Эта модель адаптирует аддитивные модели тем, что сначала проецирует матрица данных из объясняющие переменные в оптимальном направлении, прежде чем применять сглаживающие функции к этим независимым переменным.

Обзор модели

Модель состоит из линейные комбинации из гребневые функции: нелинейные преобразования линейных комбинаций независимых переменных. Базовая модель принимает вид

куда Икся является 1 × п ряд матрица дизайна содержащие независимые переменные, например я, уя предсказание 1 × 1, {βj} представляет собой набор р векторы (каждый единичный вектор длины п), которые содержат неизвестные параметры, {жj} представляет собой набор р первоначально неизвестные гладкие функции, которые отображаются из ℝ → ℝ, и р является гиперпараметром. Хорошие значения для р можно определить через перекрестная проверка или перспективная поэтапная стратегия, которая останавливается, когда соответствие модели не может быть значительно улучшено. В качестве р стремится к бесконечности и с соответствующим набором функций {жj} модель PPR представляет собой универсальный оценщик, поскольку он может аппроксимировать любую непрерывную функцию в ℝп.

Оценка модели

Для заданного набора данных , цель - минимизировать функцию ошибок

по функциям и векторы . Не существует метода для решения сразу по всем переменным, но его можно решить с помощью переменная оптимизация. Сначала рассмотрим каждый пара индивидуально: пусть все другие параметры будут фиксированными, и найдите «остаток», дисперсию вывода, не учитываемую этими другими параметрами, заданную формулой

Задача минимизации функции ошибок теперь сводится к решению

для каждого j в очереди. Обычно новые пары добавляются к модели поэтапно.

Кроме того: предварительно подогнанные пары могут быть скорректированы после определения новых подгоночных пар с помощью алгоритма, известного как переоборудование, что влечет за собой пересмотр предыдущей пары, повторный расчет остатка с учетом того, как изменились другие пары, переоснащение для учета этой новой информации, а затем циклический просмотр всех подходящих пар таким образом, пока параметры не сойдутся. Этот процесс обычно приводит к модели, которая работает лучше с меньшим количеством подгонок, хотя обучение занимает больше времени, и обычно можно достичь той же производительности, пропустив подгонку и просто добавив больше подгонок к модели (увеличивая р).

Решение упрощенной функции ошибок для определения пара может быть выполнена с попеременной оптимизацией, где сначала случайный используется для проецирования в одномерном пространстве, а затем оптимальное для описания связи между этой проекцией и остатками с помощью вашего любимого метода регрессии точечной диаграммы. Тогда если остается постоянным, предполагая когда-то дифференцируемый, оптимальные обновленные веса можно найти через Метод Гаусса-Ньютона - квазиньютоновский метод, в котором отбрасывается часть гессиана, содержащая вторую производную. Чтобы вывести это, сначала Тейлор раскрыть , затем снова подключите расширение к упрощенной функции ошибок и выполните некоторые алгебраические манипуляции, чтобы представить его в форме

Это взвешенный метод наименьших квадратов проблема. Если мы решим для всех весов и поместите их в диагональную матрицу , сложите все новые цели в вектор и использовать полную матрицу данных вместо одного примера , то оптимальный дается закрытой формой

Используйте это обновленное найти новую проекцию и переоборудовать на новую диаграмму рассеяния. Затем используйте этот новый обновлять разрешив вышеуказанное, и продолжайте этот чередующийся процесс, пока сходится.

Было показано, что на скорость сходимости, смещение и дисперсию влияет оценка и .

Обсуждение

Модель PPR принимает форму базовой аддитивной модели, но с дополнительными компонент, поэтому каждый соответствует диаграмме рассеяния против остаточный (необъяснимая дисперсия) во время обучения, а не с использованием самих исходных данных. Это ограничивает проблему поиска каждого к низкому размеру, что делает его решаемым с помощью обычных методов наименьших квадратов или сплайновой подгонки и обхода проклятие размерности во время тренировки. Потому что взят из проекции , результат выглядит как "гребень", ортогональный размеру проекции, поэтому часто называют «ридж-функциями». Направления выбраны для оптимизации соответствия их соответствующих функций гребня.

Обратите внимание: поскольку PPR пытается соответствовать проекциям данных, может быть трудно интерпретировать подобранную модель в целом, потому что каждая входная переменная учитывалась сложным и многогранным образом. Это может сделать модель более полезной для прогнозирования, чем для понимания данных, хотя визуализация отдельных гребневых функций и рассмотрение того, какие проекции обнаруживает модель, могут дать некоторое понимание.

Преимущества оценки PPR

  • Он использует одномерные функции регрессии вместо их многомерной формы, таким образом эффективно справляясь с проклятие размерности
  • Одномерная регрессия позволяет проводить простую и эффективную оценку
  • Относительно обобщенные аддитивные модели, PPR может оценить гораздо более богатый класс функций
  • В отличие от методов локального усреднения (таких как k-ближайшие соседи ), PPR может игнорировать переменные с низкой объяснительной силой.

Недостатки оценки PPR

  • PPR требует изучения M-мерного пространства параметров, чтобы оценить .
  • Необходимо выбрать параметр сглаживания для .
  • Модель часто трудно интерпретировать

Расширения PPR

  • Были предложены альтернативные средства сглаживания, такие как радиальная функция, гармоническая функция и аддитивная функция, и их характеристики варьируются в зависимости от используемых наборов данных.
  • Также использовались альтернативные критерии оптимизации, такие как стандартные абсолютные отклонения и средние абсолютные отклонения.
  • Обычный метод наименьших квадратов может использоваться для упрощения расчетов, поскольку часто данные не имеют сильной нелинейности.
  • Нарезанная обратная регрессия (SIR) использовалась для выбора векторов направления для PPR.
  • Обобщенный PPR сочетает в себе регулярный PPR с итеративно взвешенным методом наименьших квадратов (IRLS) и функция ссылки для оценки двоичных данных.

PPR против нейронных сетей (NN)

Оба прогноза преследуют регрессию и нейронные сети модели проецируют входной вектор на одномерную гиперплоскость, а затем применяют нелинейное преобразование входных переменных, которые затем добавляются линейным образом. Таким образом, оба следуют одним и тем же шагам, чтобы преодолеть проклятие размерности. Основное отличие состоит в том, что функции Подгонка в PPR может быть разной для каждой комбинации входных переменных и оценивается по одной, а затем обновляется весовыми коэффициентами, тогда как в NN все они указываются заранее и оцениваются одновременно.

Таким образом, оценка PPR более проста, чем NN, и преобразования переменных в PPR управляются данными, тогда как в NN эти преобразования фиксированы.

Смотрите также

Рекомендации

  • Фридман, Дж. и Stuetzle, W. (1981) Прогрессивная регрессия преследования. Журнал Американской статистической ассоциации, 76, 817–823.
  • Рука, Д., Маннила, Х. и Смит, П. (2001), Принципы интеллектуального анализа данных. MIT Press. ISBN  0-262-08290-X
  • Холл, П. (1988) Оценка направления, в котором набор данных является наиболее интересным, Probab. Области, связанные с теорией, 80, 51–77.
  • Хасти, Т. Дж., Тибширани, Р. Дж. И Фридман, Дж. Х. (2009). Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование. Springer. ISBN  978-0-387-84857-0
  • Клинке, С. и Грассманн, Дж. (2000) «Прогнозная регрессия преследования» в сглаживании и регрессии: подходы, вычисления и применение. Эд. Шимек, М.Г. Wiley Interscience.
  • Лингьярде, О. К., Лиестол, К. (1998) Обобщенная регрессия погони за проекцией. SIAM Journal of Scientific Computing, 20, 844-857.