Регрессия Пуассона - Poisson regression

В статистика, Регрессия Пуассона это обобщенная линейная модель форма регрессивный анализ используется для моделирования подсчитывать данные и таблицы непредвиденных обстоятельств. Регрессия Пуассона предполагает переменную ответа Y имеет распределение Пуассона, и предполагает логарифм своего ожидаемое значение может быть смоделирована линейной комбинацией неизвестных параметры. Модель регрессии Пуассона иногда называют лог-линейная модель, особенно при использовании для моделирования таблиц непредвиденных обстоятельств.

Отрицательная биномиальная регрессия является популярным обобщением регрессии Пуассона, поскольку оно ослабляет строго ограничительное предположение о том, что дисперсия равна среднему значению, сделанному моделью Пуассона. Традиционная модель отрицательной биномиальной регрессии, широко известная как NB2, основана на распределении смеси Пуассона и гамма-излучения. Эта модель популярна, потому что она моделирует неоднородность Пуассона с помощью гамма-распределения.

Модели регрессии Пуассона: обобщенные линейные модели с логарифмом как (канонический) функция ссылки, а распределение Пуассона функция как предполагаемое распределение вероятностей ответа.

Модели регрессии

Если вектор независимые переменные, то модель принимает вид

куда и . Иногда это записывается более компактно как

куда Икс теперь (п + 1) -мерный вектор, состоящий из п независимые переменные, связанные с номером один. Здесь θ просто α соединен с β.

Таким образом, если дана модель регрессии Пуассона θ и входной вектор Икс, прогнозируемое среднее ассоциированного распределения Пуассона дается выражением

Если Yя находятся независимый наблюдения с соответствующими значениями Икся переменных-предикторов, то θ можно оценить по максимальная вероятность. В оценках максимального правдоподобия отсутствует выражение в закрытой форме и должны быть найдены численными методами. Поверхность вероятности для регрессии Пуассона максимального правдоподобия всегда вогнута, что делает методы оценки Ньютона – Рафсона или другие методы на основе градиента подходящими.

Оценка параметров на основе максимального правдоподобия

Учитывая набор параметров θ и входной вектор Икс, среднее из предсказанных распределение Пуассона, как указано выше, определяется выражением

и, таким образом, распределение Пуассона функция массы вероятности дан кем-то

Теперь предположим, что нам дан набор данных, состоящий из м векторов вместе с набором м значения . Тогда для заданного набора параметров θ, вероятность получения этого конкретного набора данных определяется выражением

По методу максимальная вероятность, мы хотим найти набор параметров θ что делает эту вероятность как можно большей. Для этого уравнение сначала переписывается как функция правдоподобия с точки зрения θ:

Обратите внимание, что выражение на Правая сторона практически не изменилось. С формулой в такой форме обычно сложно работать; вместо этого используется логарифмическая вероятность:

Обратите внимание, что параметры θ появляются только в первых двух членах каждого члена в суммировании. Поэтому, учитывая, что мы заинтересованы только в поиске наилучшего значения для θ мы можем отказаться от уя! и просто напишите

Чтобы найти максимум, нам нужно решить уравнение который не имеет решения в закрытом виде. Однако отрицательная логарифмическая вероятность, , является выпуклой функцией, поэтому стандартная выпуклая оптимизация такие методы, как градиентный спуск может применяться для поиска оптимального значения θ.

Регрессия Пуассона на практике

Регрессия Пуассона может быть подходящей, когда зависимой переменной является счетчик, например События например, поступление телефонного звонка в колл-центр.[1] События должны быть независимыми в том смысле, что поступление одного вызова не сделает другой более или менее вероятным, но считается, что вероятность в единицу времени событий связана с ковариатами, такими как время суток.

«Экспозиция» и смещение

Регрессия Пуассона также может быть подходящей для данных по скорости, где скорость - это количество событий, деленное на некоторую меру этой единицы. контакт (конкретная единица наблюдения). Например, биологи могут подсчитать количество видов деревьев в лесу: событиями будут наблюдения за деревьями, экспозиция - единицей площади, а норма - числом видов на единицу площади. Демографы могут моделировать показатели смертности в географических регионах как количество смертей, разделенное на человеко-годы. В более общем смысле, частота событий может быть рассчитана как количество событий в единицу времени, что позволяет изменять окно наблюдения для каждой единицы. В этих примерах экспозиция представляет собой соответственно единицу площади, человеко-годы и единицу времени. В регрессии Пуассона это рассматривается как компенсировать, где переменная экспозиции входит в правую часть уравнения, но с оценкой параметра (для log (экспозиция)), ограниченной до 1.

что подразумевает

Смещение в случае GLM в р может быть достигнуто с помощью компенсировать() функция:

glm(у ~ компенсировать(бревно(контакт)) + Икс, семья=Пуассон(связь=бревно) )

Чрезмерная дисперсия и нулевая инфляция

Характеристика распределение Пуассона в том, что его среднее значение равно его дисперсии. При определенных обстоятельствах будет обнаружено, что наблюдаемое отклонение больше среднего; это известно как чрезмерная дисперсия и указывает, что модель не подходит. Распространенной причиной является отсутствие релевантных независимых переменных или зависимых наблюдений. В некоторых случаях проблему избыточного диспергирования можно решить, используя квази-правдоподобие оценка или отрицательное биномиальное распределение вместо.[2][3]

Вер Хеф и Бовенг описали разницу между квазипуассоновским (также называемым сверхдисперсией с квази-правдоподобием) и отрицательным биномом (эквивалентным гамма-Пуассону) следующим образом: Если E(Y) = μ, квазипуассоновская модель предполагает var (Y) = θμ в то время как гамма-Пуассон предполагает var (Y) = μ(1 + κμ), куда θ - параметр квазипуассоновской сверхдисперсии, а κ параметр формы отрицательное биномиальное распределение. Для обеих моделей параметры оцениваются с использованием Метод наименьших квадратов с итеративным перевесом. Для квазипуассона веса равны μ/θ. Для отрицательного бинома веса равны μ/(1 + κμ). С большим μ и существенная экстрапуассоновская вариация, отрицательные биномиальные веса ограничиваются 1 /κ. Вер Хеф и Бовенг обсудили пример, в котором они выбирали одно из двух, нанося на график среднеквадратичные остатки против среднего.[4]

Еще одна распространенная проблема с регрессией Пуассона - это избыточные нули: если работают два процесса, один из которых определяет, есть ли нулевые события или какие-либо события, а процесс Пуассона определяет, сколько событий существует, нулей будет больше, чем в регрессии Пуассона предсказывать. Примером может служить раздача сигарет, выкуриваемых за час, членами группы, в которой некоторые люди не курят.

Другой обобщенные линейные модели такой как отрицательный бином модель или модель без наддува может работать лучше в этих случаях.

Использование в анализе выживаемости

Регрессия Пуассона создает модели пропорциональных рисков, один класс анализ выживаемости: видеть модели пропорциональных опасностей для описания моделей Cox.

Расширения

Регуляризованная регрессия Пуассона

При оценке параметров регрессии Пуассона обычно пытаются найти значения для θ которые увеличивают вероятность выражения формы

куда м - количество примеров в наборе данных, и это функция массы вероятности из распределение Пуассона со средним значением, установленным на . К этой проблеме оптимизации можно добавить регуляризацию, вместо этого максимизируя[5]

для некоторой положительной постоянной . Эта техника, похожая на регресс гребня, может уменьшить переоснащение.

Смотрите также

Рекомендации

  1. ^ Грин, Уильям Х. (2003). Эконометрический анализ (Пятое изд.). Прентис-Холл. стр.740 –752. ISBN  978-0130661890.
  2. ^ Патерностер Р., Брэйм Р. (1997). «Множественные пути к правонарушению? Проверка теории развития и общей теории преступности». Криминология. 35: 45–84. Дои:10.1111 / j.1745-9125.1997.tb00870.x.
  3. ^ Берк Р., Макдональд Дж. (2008). «Чрезмерная дисперсия и регрессия Пуассона». Журнал количественной криминологии. 24 (3): 269–284. Дои:10.1007 / s10940-008-9048-4.
  4. ^ Ver Hoef, JAY M .; Бовенг, Питер Л. (2007-01-01). «Квазипуассоновская и отрицательная биномиальная регрессия: как мы должны моделировать сверхдисперсные данные подсчета?». Экология. 88 (11): 2766–2772. Дои:10.1890/07-0043.1. Получено 2016-09-01.
  5. ^ Перпероглу, Арис (08.09.2011). «Подгонка данных о выживаемости со штрафной регрессией Пуассона». Статистические методы и приложения. Springer Nature. 20 (4): 451–462. Дои:10.1007 / s10260-011-0172-1. ISSN  1618-2510.

дальнейшее чтение