Регрессия наименьшего угла - Least-angle regression - Wikipedia

Стандартизованные коэффициенты показаны как функция доли усадки.

В статистика, регрессия по наименьшему углу (LARS) алгоритм подбора линейная регрессия модели к многомерным данным, разработанные Брэдли Эфрон, Тревор Хасти, Иэн Джонстон и Роберт Тибширани.[1]

Предположим, мы ожидаем, что переменная отклика будет определяться линейной комбинацией подмножества потенциальных ковариат. Затем алгоритм LARS предоставляет средства для оценки того, какие переменные необходимо включить, а также их коэффициенты.

Вместо того, чтобы давать векторный результат, решение LARS состоит из кривой, обозначающей решение для каждого значения L1 норма вектора параметров. Алгоритм аналогичен форвардному пошаговая регрессия, но вместо того, чтобы включать переменные на каждом шаге, оцененные параметры увеличиваются в направлении, равносильном корреляциям каждого из них с остатком.

За и против

Преимущества метода LARS:

  1. В вычислительном отношении это так же быстро, как и выбор вперед.
  2. Он дает полный кусочно-линейный путь решения, который полезен в перекрестная проверка или аналогичные попытки тюнинга модели.
  3. Если две переменные почти одинаково коррелируют с ответом, то их коэффициенты должны увеличиваться примерно с одинаковой скоростью. Таким образом, алгоритм ведет себя так, как того и ожидает интуиция, а также является более стабильным.
  4. Его легко модифицировать для создания эффективных алгоритмов для других методов, дающих аналогичные результаты, например лассо и прямая поэтапная регрессия.
  5. Это эффективно в условиях, когда п >> п (т.е. когда количество измерений значительно превышает количество точек)[нужна цитата ].

К недостаткам метода LARS можно отнести:

  1. При любом количестве шума в зависимой переменной и большой размерности многоколлинеарный независимых переменных, нет никаких оснований полагать, что выбранные переменные с высокой вероятностью будут фактическими основными причинными переменными. Эта проблема не является уникальной для LARS, поскольку это общая проблема подходов к выбору переменных, которые стремятся найти лежащие в основе детерминированные компоненты. Тем не менее, поскольку LARS основан на итеративном уточнении остатков, он может оказаться особенно чувствительным к воздействию шума. Эта проблема подробно обсуждается Вайсбергом в разделе обсуждения Efron et al. (2004) Статья Annals of Statistics.[2] Вайсберг приводит эмпирический пример, основанный на повторном анализе данных, первоначально использовавшихся для проверки LARS, о ​​том, что при выборе переменных возникают проблемы с сильно коррелированными переменными.
  2. Поскольку почти все данные большого размера в реальном мире просто случайно обнаружит некоторую значительную степень коллинеарности по крайней мере по некоторым переменным, проблема, с которой сталкивается LARS с коррелированными переменными, может ограничить его применение к данным большой размерности.

Алгоритм

Основные шаги алгоритма регрессии наименьшего угла:

  • Начать со всеми коэффициентами равно нулю.
  • Найдите предсказателя наиболее коррелирует с
  • Увеличить коэффициент в сторону знака его соотношения с . Взять остатки по пути. Остановитесь, когда какой-нибудь другой предсказатель имеет столько же корреляции с в качестве имеет.
  • Увеличивать (, ) в их совместном направлении наименьших квадратов, пока какой-либо другой предсказатель имеет такую ​​же корреляцию с остаточным .
  • Увеличивать (, , ) в их совместном направлении наименьших квадратов, пока какой-либо другой предсказатель имеет такую ​​же корреляцию с остаточным .
  • Продолжайте до тех пор, пока: все предикторы не будут в модели[3]

Программная реализация

Регрессия наименьшего угла реализована в р через ларс пакет, в Python с scikit-learn пакет, а в SAS через GLMSELECT процедура.

Смотрите также

Рекомендации

  1. ^ Эфрон, Брэдли; Хасти, Тревор; Джонстон, Иэн; Тибширани, Роберт (2004). «Наименьшая угловая регрессия» (PDF). Анналы статистики. 32 (2): стр. 407–499. arXiv:математика / 0406456. Дои:10.1214/009053604000000067. МИСТЕР  2060166.
  2. ^ См. Обсуждение Вайсберга после Эфрон, Брэдли; Хасти, Тревор; Джонстон, Иэн; Тибширани, Роберт (2004). «Наименьшая угловая регрессия» (PDF). Анналы статистики. 32 (2): стр. 407–499. arXiv:математика / 0406456. Дои:10.1214/009053604000000067. МИСТЕР  2060166.
  3. ^ «Простое объяснение лассо и регрессии наименьшего угла».