Квантильная регрессия - Quantile regression

Квантильная регрессия это тип регрессивный анализ используется в статистике и эконометрике. В то время как метод наименьших квадратов оценивает условный значить переменной ответа по значениям переменных-предикторов, квантильная регрессия оценивает условную медиана (или другой квантили ) переменной ответа. Квантильная регрессия - это расширение линейной регрессии, используемое, когда не выполняются условия линейной регрессии.

Преимущества и применение

Одним из преимуществ квантильной регрессии по сравнению с обычной регрессией методом наименьших квадратов является то, что оценки квантильной регрессии более устойчивы к выбросам в измерениях отклика. Однако основная привлекательность квантильной регрессии выходит за рамки этого и полезна, когда интересны условные квантильные функции. Различные меры Главная тенденция и статистическая дисперсия может быть полезно для получения более полного анализа взаимосвязи между переменными.[1]

В экология квантильная регрессия была предложена и использовалась как способ обнаружения более полезных прогнозных взаимосвязей между переменными в тех случаях, когда нет взаимосвязи или есть только слабая взаимосвязь между средними значениями таких переменных. Необходимость и успех квантильной регрессии в экологии объясняется тем, что сложность взаимодействий между различными факторами, приводящими к данные с неравным изменением одной переменной для разных диапазонов другой переменной.[2]

Другое применение квантильной регрессии - области графиков роста, где процентильные кривые обычно используются для выявления аномального роста.[3][4]

Математика

Математические формы, возникающие из квантильной регрессии, отличаются от форм, возникающих в метод наименьших квадратов. Метод наименьших квадратов приводит к рассмотрению задач в внутреннее пространство продукта, с привлечением проекция на подпространства, и, таким образом, проблема минимизации квадратов ошибок может быть сведена к проблеме в числовая линейная алгебра. Квантильная регрессия не имеет такой структуры и вместо этого приводит к проблемам в линейное программирование это может быть решено симплексный метод.

История

Идея оценки медианного наклона регрессии, основная теорема о минимизации суммы абсолютных отклонений и геометрический алгоритм для построения медианной регрессии были предложены в 1760 г. Руджер Йосип Бошкович, а Католик-иезуит священник из Дубровника.[1]:4[5] Он интересовался эллиптичностью Земли, основываясь на предположении Исаака Ньютона о том, что ее вращение может вызвать ее выпуклость в экватор с соответствующим уплощением на полюсах.[6] Наконец, он произвел первую геометрическую процедуру для определения экватор вращающегося планета от трех наблюдения поверхностного элемента. Что еще более важно для квантильной регрессии, он смог разработать первое доказательство наименьшего абсолютного критерия и предшествовал наименьшим квадратам, введенным Legendre в 1805 году на пятьдесят лет.[7]

Другие мыслители начали развивать идею Бошковича, например: Пьер-Симон Лаплас, который разработал так называемый «метод ситуации». Это привело к Фрэнсис Эджворт медиана множественного числа[8] - геометрический подход к медианной регрессии - и признан предшественником симплексный метод.[7] Произведения Бошковича, Лапласа и Эджворта были признаны прелюдией к Роджер Кенкер вклад в квантильную регрессию.

Вычисления медианной регрессии для больших наборов данных довольно утомительны по сравнению с методом наименьших квадратов, по этой причине он исторически не пользовался популярностью среди статистиков до широкого распространения компьютеров во второй половине 20-го века.

Квантили

Позволять быть вещественной случайной величиной с кумулятивная функция распределения . В квантиль Y определяется как

где

Определить функция потерь так как , где является индикаторная функция.

Конкретный квантиль можно найти, минимизируя ожидаемую потерю относительно :[1](стр. 5–6)

Это можно показать, вычислив производную ожидаемого убытка с помощью приложения Интегральное правило Лейбница, установив его в 0 и позволив быть решением

Это уравнение сводится к

а затем в

Следовательно является квантиль случайной величины Y.

пример

Позволять - дискретная случайная величина, которая принимает значения 1,2, .., 9 с равными вероятностями. Задача состоит в том, чтобы найти медиану Y, а значит, и значение выбран. Ожидаемый убыток, L(ты), является

поскольку является константой, ее можно вычесть из функции ожидаемых потерь (это верно, только если ). Затем в ты=3,

Предположим, что ты увеличивается на 1 единицу. Тогда ожидаемый убыток изменится на при изменении ты до 4. Если, ты= 5, ожидаемый убыток

и любое изменение в ты увеличит ожидаемый убыток. Таким образом ты= 5 - медиана. В таблице ниже показан ожидаемый убыток (деленный на ) для разных значений ты.

ты123456789
Ожидаемая потеря362924212021242936

Интуиция

Рассматривать и разреши q быть первоначальным предположением для . Ожидаемый убыток оценивается в q является

Чтобы минимизировать ожидаемый убыток, мы перемещаем значение q немного, чтобы увидеть, увеличится или уменьшится ожидаемый убыток. q на 1 шт. Тогда изменение ожидаемого убытка будет

Первый член уравнения а второй член уравнения равен . Следовательно, изменение функции ожидаемых потерь отрицательно тогда и только тогда, когда , то есть тогда и только тогда, когда q меньше медианы. Аналогично, если уменьшить q на 1 единицу изменение функции ожидаемых потерь будет отрицательным тогда и только тогда, когда q больше медианы.

Чтобы минимизировать ожидаемую функцию потерь, мы бы увеличили (уменьшили) L(q) если q меньше (больше) медианы, пока q достигает медианы. Идея минимизации состоит в том, чтобы подсчитать количество точек (взвешенных по плотности), которые больше или меньше, чем q а затем двигаться q до точки, где q больше чем % баллов.

Квантиль выборки

В квантиль выборки может быть получен путем решения следующей задачи минимизации

, где функция наклонная функция абсолютного значения. Интуиция такая же, как и для квантиля населения.

Условная квантильная и квантильная регрессия

Предположим, что -я условная функция квантиля . Учитывая функцию распределения , можно получить, решив

Решение образца аналога дает оценку .

Вычисление

Задачу минимизации можно переформулировать как линейное программирование проблема

где

,   

Симплексные методы[1]:181 или методы внутренней точки[1]:190 может применяться для решения задачи линейного программирования.

Асимптотические свойства

Для , при некоторых условиях регулярности является асимптотически нормальный:

где

и

Прямая оценка матрицы асимптотической дисперсии-ковариации не всегда бывает удовлетворительной. Вывод о параметрах квантильной регрессии может быть сделан с помощью тестов ранговой оценки регрессии или с помощью методов начальной загрузки.[9]

Эквивалентность

Увидеть инвариантная оценка для получения информации об инвариантности или см. эквивалентность.

Эквивалентность шкалы

Для любого и

Эквивалентность сдвига

Для любого и

Эквивалентность параметризации дизайна

Позволять быть любым невырожденная матрица и

Инвариантность к монотонным преобразованиям

Если - неубывающая функция на 'р, следующее инвариантность свойство применяется:

Пример (1):

Если и , тогда . Средняя регрессия не имеет того же свойства, поскольку

Байесовские методы квантильной регрессии

Поскольку квантильная регрессия обычно не предполагает параметрического правдоподобия для условных распределений Y | X, байесовские методы работают с рабочим правдоподобием. Удобный выбор - асимметричное лапласовское правдоподобие,[10] потому что режим результирующего апостериорного при плоском априорном является обычными оценками квантильной регрессии. Однако апостериорный вывод следует интерпретировать с осторожностью. Ян, Ван и Хэ[11] предоставили корректировку апостериорной дисперсии для достоверного вывода. Кроме того, Ян и Хэ[12] показали, что можно иметь асимптотически верный апостериорный вывод, если рабочая вероятность выбрана как эмпирическая вероятность.

Методы машинного обучения для квантильной регрессии

Помимо простой линейной регрессии, существует несколько методов машинного обучения, которые можно расширить до квантильной регрессии. Переключение с квадрата ошибки на наклонную функцию потерь абсолютного значения позволяет алгоритмам обучения на основе градиентного спуска изучать указанный квантиль вместо среднего. Значит, мы можем применить все нейронная сеть и глубокое обучение алгоритмы квантильной регрессии.[13][14] Алгоритмы обучения на основе дерева также доступны для квантильной регрессии (см., Например, Quantile Regression Forests).[15], как простое обобщение Случайные леса ).

Цензурированная квантильная регрессия

Если переменная ответа подвергается цензуре, условное среднее не может быть идентифицировано без дополнительных предположений о распределении, но условный квантиль часто можно идентифицировать. О недавних работах по цензурированной квантильной регрессии см .: Portnoy[16]и Ван и Ван[17]

Пример (2):

Позволять и . потом . Это модель квантильной регрессии с цензурой: оценочные значения могут быть получены без каких-либо допущений о распределении, но за счет вычислительных трудностей,[18] некоторых из них можно избежать, используя простую трехэтапную процедуру цензурированной квантильной регрессии в качестве приближения.[19]

Для случайной цензуры переменных ответа цензурированная квантильная регрессия Portnoy (2003)[16] обеспечивает согласованные оценки всех идентифицируемых функций квантилей, основанные на соответствующем изменении веса каждой цензурированной точки.

Реализации

Многочисленные пакеты статистического программного обеспечения включают реализации квантильной регрессии:

использованная литература

  1. ^ а б c d е Кенкер, Роджер (2005). Квантильная регрессия. Издательство Кембриджского университета. стр.146 –7. ISBN  978-0-521-60827-5.CS1 maint: ref = harv (ссылка на сайт)
  2. ^ Кейд, Брайан С .; Полдень, Барри Р. (2003). «Мягкое введение в квантильную регрессию для экологов» (PDF). Границы экологии и окружающей среды. 1 (8): 412–420. Дои:10.2307/3868138. JSTOR  3868138.
  3. ^ Wei, Y .; Pere, A .; Koenker, R .; Он, X. (2006). «Методы квантильной регрессии для справочных графиков роста». Статистика в медицине. 25 (8): 1369–1382. Дои:10.1002 / sim.2271. PMID  16143984.CS1 maint: ref = harv (ссылка на сайт)
  4. ^ Wei, Y .; Он, X. (2006). «Графики условного роста (с обсуждениями)». Анналы статистики. 34 (5): 2069–2097 и 2126–2131. arXiv:математика / 0702634. Дои:10.1214/009053606000000623.CS1 maint: ref = harv (ссылка на сайт)
  5. ^ Стиглер, С. (1984). «Боскович, Симпсон и заметка в рукописи 1760 года об установлении линейной зависимости». Биометрика. 71 (3): 615–620. Дои:10.1093 / biomet / 71.3.615.
  6. ^ Кенкер, Роджер (2005). Квантильная регрессия. Кембридж: Издательство Кембриджского университета. стр.2. ISBN  9780521845731.
  7. ^ а б Фурно, Марилена; Вискоко, Доменико (2018). Квантильная регрессия: оценка и моделирование. Хобокен, Нью-Джерси: Джон Уайли и сыновья. стр. xv. ISBN  9781119975281.
  8. ^ Коенкер, Роджер (август 1998). «Гальтон, Эджворт, Фриш и перспективы квантильной регрессии в экономике» (PDF). UIUC.edu. Получено 22 августа, 2018.
  9. ^ Кочергинский, М .; Он, X .; Му, Ю. (2005). «Практические доверительные интервалы для квантилей регрессии». Журнал вычислительной и графической статистики. 14 (1): 41–55. Дои:10.1198 / 106186005X27563.
  10. ^ Кодзуми, H .; Кобаяши, Г. (2011). «Методы выборки Гиббса для байесовской квантильной регрессии» (PDF). Журнал статистических вычислений и моделирования. 81 (11): 1565–1578. Дои:10.1080/00949655.2010.496117.
  11. ^ Ян, Й .; Wang, H.X .; Он, X. (2016). «Апостериорный вывод в байесовской квантильной регрессии с асимметричным правдоподобием Лапласа». Международный статистический обзор. 84 (3): 327–344. Дои:10.1111 / insr.12114. HDL:2027.42/135059.
  12. ^ Ян, Й .; Он, X. (2010). «Байесовская эмпирическая вероятность квантильной регрессии». Анналы статистики. 40 (2): 1102–1131. arXiv:1207.5378. Дои:10.1214 / 12-AOS1005.
  13. ^ Петнехази, Габор (21.08.2019). «QCNN: квантильная сверточная нейронная сеть». arXiv:1908.07978 [cs.LG ].
  14. ^ Родригес, Филипе; Перейра, Франсиско К. (27.08.2018). «За гранью ожидания: глубокое совместное среднее и квантильная регрессия для пространственно-временных проблем». arXiv:1808.08798 [стат ].
  15. ^ Майнсхаузен, Николай (2006). «Леса квантильной регрессии» (PDF). Журнал исследований в области машинного обучения. 7 (6): 983–999.
  16. ^ а б Портной, С. Л. (2003). «Квантили регрессии с цензурой». Журнал Американской статистической ассоциации. 98 (464): 1001–1012. Дои:10.1198/016214503000000954.
  17. ^ Ван, Х.; Ван, Л. (2009). «Локально взвешенная цензурированная квантильная регрессия». Журнал Американской статистической ассоциации. 104 (487): 1117–1128. CiteSeerX  10.1.1.504.796. Дои:10.1198 / jasa.2009.tm08230.
  18. ^ Пауэлл, Джеймс Л. (1986). «Квантили регрессии с цензурой». Журнал эконометрики. 32 (1): 143–155. Дои:10.1016/0304-4076(86)90016-3.
  19. ^ Черножуков Виктор; Хун, Хан (2002). «Трехступенчатая цензурированная квантильная регрессия и внебрачные связи». J. Amer. Статист. Доц. 97 (459): 872–882. Дои:10.1198/016214502388618663.
  20. ^ "Quantreg (x, y, tau, order, Nboot) - Обмен файлами - MATLAB Central". www.mathworks.com. Получено 2016-02-01.
  21. ^ "Справочник команд Гретл" (PDF). Апрель 2017 г.
  22. ^ "Quantreg: квантильная регрессия". Проект R. 2018-12-18.
  23. ^ "gbm: Обобщенные модели ускоренной регрессии". R Project. 2019-01-14.
  24. ^ "QuantregForest: леса квантильной регрессии". R Project. 2017-12-19.
  25. ^ "qrnn: Нейронные сети с квантильной регрессией". Проект R. 2018-06-26.
  26. ^ «qgam: модели гладкой аддитивной квантильной регрессии». R Project. 2019-05-23.
  27. ^ «Леса квантильной регрессии». Scikit-Garden. Получено 3 января 2019.
  28. ^ «Статистические модели: квантильная регрессия». Статистические модели. Получено 15 ноября 2019.
  29. ^ «Введение в квантильную регрессию и процедуру QUANTREG» (PDF). Поддержка SAS.
  30. ^ «qreg - квантильная регрессия» (PDF). Руководство по Stata.
  31. ^ Кэмерон, А. Колин; Триведи, Правин К. (2010). «Квантильная регрессия». Микроэконометрика с использованием Stata (Пересмотренная ред.). Колледж-Стейшн: Stata Press. С. 211–234. ISBN  978-1-59718-073-3.
  32. ^ "Джон Лэнгфорд / vowpal_wabbit". GitHub. Получено 2016-07-09.
  33. ^ «Квантильная регрессия». statsmodels.org. Получено 3 января 2019.
  34. ^ "QuantileRegression.m". MathematicaForPrediction. Получено 3 января 2019.

дальнейшее чтение