Регрессия наименьшего угла - Least-angle regression - Wikipedia

Стандартизованные коэффициенты показаны как функция доли усадки.

В статистика, регрессия по наименьшему углу (LARS) алгоритм подбора линейная регрессия модели к многомерным данным, разработанные Брэдли Эфрон, Тревор Хасти, Иэн Джонстон и Роберт Тибширани.^[1]

Предположим, мы ожидаем, что переменная отклика будет определяться линейной комбинацией подмножества потенциальных ковариат. Затем алгоритм LARS предоставляет средства для оценки того, какие переменные необходимо включить, а также их коэффициенты.

Вместо того, чтобы давать векторный результат, решение LARS состоит из кривой, обозначающей решение для каждого значения L1 норма вектора параметров. Алгоритм аналогичен форвардному пошаговая регрессия, но вместо того, чтобы включать переменные на каждом шаге, оцененные параметры увеличиваются в направлении, равносильном корреляциям каждого из них с остатком.

За и против

Преимущества метода LARS:

В вычислительном отношении это так же быстро, как и выбор вперед.
Он дает полный кусочно-линейный путь решения, который полезен в перекрестная проверка или аналогичные попытки тюнинга модели.
Если две переменные почти одинаково коррелируют с ответом, то их коэффициенты должны увеличиваться примерно с одинаковой скоростью. Таким образом, алгоритм ведет себя так, как того и ожидает интуиция, а также является более стабильным.
Его легко модифицировать для создания эффективных алгоритмов для других методов, дающих аналогичные результаты, например лассо и прямая поэтапная регрессия.
Это эффективно в условиях, когда п >> п (т.е. когда количество измерений значительно превышает количество точек)^{[нужна цитата ]}.

К недостаткам метода LARS можно отнести:

При любом количестве шума в зависимой переменной и большой размерности многоколлинеарный независимых переменных, нет никаких оснований полагать, что выбранные переменные с высокой вероятностью будут фактическими основными причинными переменными. Эта проблема не является уникальной для LARS, поскольку это общая проблема подходов к выбору переменных, которые стремятся найти лежащие в основе детерминированные компоненты. Тем не менее, поскольку LARS основан на итеративном уточнении остатков, он может оказаться особенно чувствительным к воздействию шума. Эта проблема подробно обсуждается Вайсбергом в разделе обсуждения Efron et al. (2004) Статья Annals of Statistics.^[2] Вайсберг приводит эмпирический пример, основанный на повторном анализе данных, первоначально использовавшихся для проверки LARS, о том, что при выборе переменных возникают проблемы с сильно коррелированными переменными.
Поскольку почти все данные большого размера в реальном мире просто случайно обнаружит некоторую значительную степень коллинеарности по крайней мере по некоторым переменным, проблема, с которой сталкивается LARS с коррелированными переменными, может ограничить его применение к данным большой размерности.

Алгоритм

Основные шаги алгоритма регрессии наименьшего угла:

Начать со всеми коэффициентами ${ displaystyle beta}$ равно нулю.
Найдите предсказателя ${ displaystyle x_ {j}}$ наиболее коррелирует с ${ displaystyle y}$
Увеличить коэффициент ${ displaystyle beta _ {j}}$ в сторону знака его соотношения с ${ displaystyle y}$ . Взять остатки ${ Displaystyle г = у - { шляпа {у}}}$ по пути. Остановитесь, когда какой-нибудь другой предсказатель ${ displaystyle x_ {k}}$ имеет столько же корреляции с ${ displaystyle r}$ в качестве ${ displaystyle x_ {j}}$ имеет.
Увеличивать ( ${ displaystyle beta _ {j}}$ , ${ displaystyle beta _ {k}}$ ) в их совместном направлении наименьших квадратов, пока какой-либо другой предсказатель ${ displaystyle x_ {m}}$ имеет такую же корреляцию с остаточным ${ displaystyle r}$ .
Увеличивать ( ${ displaystyle beta _ {j}}$ , ${ displaystyle beta _ {k}}$ , ${ displaystyle beta _ {m}}$ ) в их совместном направлении наименьших квадратов, пока какой-либо другой предсказатель ${ displaystyle x_ {n}}$ имеет такую же корреляцию с остаточным ${ displaystyle r}$ .
Продолжайте до тех пор, пока: все предикторы не будут в модели^[3]

Программная реализация

Регрессия наименьшего угла реализована в р через ларс пакет, в Python с scikit-learn пакет, а в SAS через GLMSELECT процедура.

Регрессия наименьшего угла - Least-angle regression - Wikipedia

Содержание

За и против

Алгоритм

Программная реализация

Смотрите также

Рекомендации