Функция дисперсии - Variance function

В статистика, то функция дисперсии - гладкая функция, изображающая отклонение случайной величины как функции ее иметь в виду. Функция дисперсии играет большую роль во многих параметрах статистического моделирования. Это главный ингредиент в обобщенная линейная модель фреймворк и инструмент, используемый в непараметрическая регрессия,[1] полупараметрическая регрессия[1] и функциональный анализ данных.[2] В параметрическом моделировании функции дисперсии принимают параметрическую форму и явно описывают взаимосвязь между дисперсией и средним значением случайной величины. В непараметрической настройке предполагается, что функция дисперсии гладкая функция.

Интуиция

В настройке регрессионной модели цель состоит в том, чтобы установить, существует ли связь между переменной ответа и набором переменных-предикторов. Кроме того, если связь действительно существует, цель состоит в том, чтобы как можно лучше описать эту связь. Основное предположение в линейная регрессия - постоянная дисперсия или (гомоскедастичность), что означает, что разные переменные отклика имеют одинаковую дисперсию своих ошибок на каждом уровне предикторов. Это предположение хорошо работает, когда переменная ответа и переменная предиктора вместе являются нормальными, см. Нормальное распределение. Как мы увидим позже, функция дисперсии в настройке «Нормальный» является постоянной, однако мы должны найти способ количественной оценки гетероскедастичности (непостоянной дисперсии) при отсутствии совместной нормальности.

Когда вероятно, что ответ следует за распределением, которое является членом экспоненциального семейства, обобщенная линейная модель может быть более подходящим для использования, и, более того, когда мы не хотим навязывать параметрическую модель нашим данным, непараметрическая регрессия подход может быть полезным. Важность возможности моделировать дисперсию как функцию среднего значения заключается в улучшенном выводе (в параметрической настройке) и оценке функции регрессии в целом для любой настройки.

Функции дисперсии играют очень важную роль в оценке и выводе параметров. Как правило, оценка максимального правдоподобия требует определения функции правдоподобия. Затем это требование подразумевает, что сначала необходимо указать распределение наблюдаемых переменных отклика. Однако, чтобы определить квази-правдоподобие, нужно только указать взаимосвязь между средним значением и дисперсией наблюдений, чтобы затем можно было использовать функцию квазивероятности для оценки.[3] Квази-правдоподобие оценка особенно полезна, когда есть чрезмерная дисперсия. Чрезмерная дисперсия возникает, когда данные более изменчивы, чем следовало бы ожидать в противном случае в соответствии с предполагаемым распределением данных.

Таким образом, чтобы обеспечить эффективный вывод параметров регрессии и функции регрессии, необходимо учитывать гетероскедастичность. Функции дисперсии количественно определяют взаимосвязь между дисперсией и средним значением наблюдаемых данных и, следовательно, играют важную роль в оценке и выводе регрессии.

Типы

Функция дисперсии и ее приложения используются во многих областях статистического анализа. Очень важно использовать эту функцию в рамках обобщенные линейные модели и непараметрическая регрессия.

Обобщенная линейная модель

Когда член экспоненциальная семья была определена, функция дисперсии может быть легко выведена.[4]:29 Общая форма функции дисперсии представлена ​​в контексте экспоненциального семейства, а также конкретные формы для нормального, Бернулли, Пуассона и гаммы. Кроме того, мы описываем приложения и использование функций дисперсии в оценке максимального правдоподобия и оценки квази правдоподобия.

Вывод

В обобщенная линейная модель (GLM), является обобщением обычного регрессионного анализа, который распространяется на любой член экспоненциальная семья. Это особенно полезно, когда переменная ответа является категориальной, двоичной или подвержена ограничению (например, только положительные ответы имеют смысл). Краткое описание компонентов GLM приведено на этой странице, но для получения более подробной информации см. Страницу обобщенные линейные модели.

А GLM состоит из трех основных ингредиентов:

1. Случайная составляющая: распределение у из экспоненциальной семьи,
2. Линейный предсказатель:
3. Функция ссылки:

Во-первых, важно вывести пару ключевых свойств экспоненциального семейства.

Любая случайная величина в экспоненциальном семействе имеет функцию плотности вероятности вида

с логической вероятностью,

Здесь, - канонический параметр и интересующий параметр, а является мешающим параметром, который играет роль в дисперсии. Личности Бартлетта получить общее выражение для функция дисперсииПервый и второй результаты Бартлетта гарантируют, что при подходящих условиях (см. Интегральное правило Лейбница ), для функции плотности, зависящей от ,

Эти тождества приводят к простым вычислениям ожидаемого значения и дисперсии любой случайной величины. в экспоненциальной семье .

Ожидаемая стоимость Y:Взяв первую производную по логарифма плотности в форме экспоненциального семейства, описанной выше, имеем

Затем, взяв ожидаемое значение и установив его равным нулю, мы получим:

Дисперсия Y:Для вычисления дисперсии мы используем второе тождество Бартлетта,

Теперь у нас есть отношения между и , а именно

и , что позволяет установить связь между и дисперсия,

Обратите внимание, потому что , тогда обратима.Мы выводим дисперсионную функцию для нескольких распространенных распределений.

Пример - нормальный

В Нормальное распределение является частным случаем, когда функция дисперсии является постоянной. Позволять то положим функцию плотности у в виде экспоненциального семейства, описанного выше:

куда

Чтобы вычислить функцию дисперсии , мы сначала выражаем как функция . Затем преобразуем в функцию

Следовательно, функция дисперсии постоянна.

Пример - Бернулли

Позволять , то выразим плотность Распределение Бернулли в экспоненциальной форме семьи,

логит (p), что дает нам истекать
и
истекать

Это дает нам

Пример - Пуассон

Позволять , то выразим плотность распределение Пуассона в экспоненциальной форме семьи,

что дает нам
и

Это дает нам

Здесь мы видим центральное свойство пуассоновских данных, что дисперсия равна среднему.

Пример - Гамма

В Гамма-распределение и функция плотности может быть выражена при различных параметризациях. Воспользуемся формой гаммы с параметрами

Тогда в форме экспоненциальной семьи имеем

И у нас есть

Применение - взвешенный метод наименьших квадратов

Очень важным применением функции дисперсии является ее использование для оценки параметров и вывода, когда переменная отклика имеет требуемую форму экспоненциального семейства, а также в некоторых случаях, когда это не так (что мы обсудим в квази-правдоподобие ). Взвешенный наименьших квадратов (WLS) - это частный случай обобщенных наименьших квадратов. Каждый член в критерии WLS включает вес, который определяет, какое влияние оказывает каждое наблюдение на окончательные оценки параметров. Как и в обычном методе наименьших квадратов, цель состоит в том, чтобы оценить неизвестные параметры в функции регрессии путем нахождения значений для оценок параметров, которые минимизируют сумму квадратов отклонений между наблюдаемыми ответами и функциональной частью модели.

Хотя WLS предполагает независимость наблюдений, он не предполагает равной дисперсии и, следовательно, является решением для оценки параметров при наличии гетероскедастичности. В Теорема Гаусса – Маркова и Aitken продемонстрировать, что лучшая линейная несмещенная оценка (СИНИЙ), несмещенный оценщик с минимальной дисперсией, имеет каждый вес, равный обратной величине дисперсии измерения.

В рамках GLM наша цель - оценить параметры , куда . Поэтому мы хотели бы минимизировать и если мы определим весовую матрицу W в качестве

куда определены в предыдущем разделе, это позволяет методом наименьших квадратов с повторным взвешиванием (IRLS) оценка параметров. См. Раздел о методом наименьших квадратов с повторным взвешиванием для получения дополнительной информации.

Также важно отметить, что когда весовая матрица имеет форму, описанную здесь, минимизируя выражение также минимизирует расстояние Пирсона. Видеть Корреляция расстояний для большего.

Матрица W выпадает сразу из оценочных уравнений для оценки . Оценка максимального правдоподобия для каждого параметра , требует

, куда логарифмическая вероятность.

Глядя на одно наблюдение, мы имеем

Это дает нам

и отмечая, что
у нас есть это

Матрица Гессе определяется аналогичным образом и может быть показана как

Обратите внимание на то, что Fisher Information (FI),

, позволяет асимптотически аппроксимировать
, и, следовательно, можно сделать вывод.

Применение - квазивероятность

Поскольку большинство функций GLM зависит только от первых двух моментов распределения, а не от всего распределения, квази-правдоподобие можно получить, просто указав функцию связи и функцию дисперсии. То есть нам нужно указать

- Функция ссылки:
- Функция отклонения:

С указанной функцией дисперсии и функцией связи мы можем разработать в качестве альтернативы логарифмическойфункция правдоподобия, то функция оценки, а Информация Fisher, а квази-правдоподобие, а квази-оценка, а квазиинформация. Это позволяет сделать полный вывод о .

Квази-правдоподобие (QL)

Хотя называется квази-правдоподобие, это фактически квази-бревно-вероятность. QL для одного наблюдения составляет

И поэтому КЖ для всех п наблюдения

От QL у нас есть квази-оценка

Квази-оценка (QS)

Напомним функция оценки, U, для данных с логарифмической вероятностью является

Точно так же мы получаем квази-оценку,

Отметив, что для одного наблюдения оценка

Первые два уравнения Бартлетта удовлетворяются для квази-оценки, а именно

и

Кроме того, квази-оценка линейна по у.

В конечном итоге цель - найти информацию об интересующих параметрах. . И QS, и QL фактически являются функциями . Отзывать, , и , следовательно,

Квазиинформация (QI)

В квазиинформация, похож на Информация Fisher,

QL, QS, QI как функции

QL, QS и QI - все представляют собой строительные блоки для вывода об интересующих параметрах, поэтому важно выразить QL, QS и QI как функции .

Снова напоминая, что , выведем выражения для QL, QS и QI, параметризованные при .

Квази-правдоподобие в ,

QS как функция следовательно является

Где,

Квазиинформационная матрица в является,

Получение функции оценки и информации о позволяет оценивать параметры и делать выводы аналогично тому, как описано в Применение - взвешенный метод наименьших квадратов.

Непараметрический регрессионный анализ

График разброса лет в высшей лиге против зарплаты (x 1000 долларов). Линия - это тренд в среднем. График демонстрирует, что дисперсия непостоянна.
Сглаженная условная дисперсия против сглаженного условного среднего. Квадратичная форма указывает на гамма-распределение. Функция дисперсии гаммы равна V () =

Непараметрическая оценка функции дисперсии и ее важность широко обсуждалась в литературе.[5][6][7]В непараметрическая регрессия анализа, цель состоит в том, чтобы выразить ожидаемое значение вашей переменной ответа (у) в зависимости от ваших предикторов (Икс). То есть мы хотим оценить иметь в виду функция без принятия параметрической формы. Есть много форм непараметрических сглаживание методы, помогающие оценить функцию . Интересный подход - также посмотреть на непараметрические функция дисперсии, . Непараметрическая функция дисперсии позволяет взглянуть на функцию среднего значения, поскольку она связана с функцией дисперсии, и замечать закономерности в данных.

Пример подробно описан на рисунках справа. Целью проекта было определить (среди прочего), действительно ли предсказатель количество лет в высшей лиге (бейсбол,) повлиял на реакцию, зарплата, плеер сделал. Начальная диаграмма разброса данных указывает на гетероскедастичность данных, поскольку дисперсия не является постоянной на каждом уровне прогнозирующего фактора. Поскольку мы можем визуально обнаружить непостоянную дисперсию, теперь полезно построить график и посмотрите, указывает ли форма на какое-либо известное распределение. Можно оценить и используя общий сглаживание метод. График непараметрической сглаженной функции дисперсии может дать исследователю представление о взаимосвязи между дисперсией и средним значением. Картинка справа показывает квадратичную зависимость между средним значением и дисперсией. Как мы видели выше, функция гамма-дисперсии квадратична в среднем.

Примечания

  1. ^ а б Мюллер и Чжао (1995). «О модели полупараметрической функции дисперсии и тесте на гетероскедастичность». Анналы статистики. 23 (3): 946–967. Дои:10.1214 / aos / 1176324630. JSTOR  2242430.
  2. ^ Мюллер, Штадтмюллер и Яо (2006). «Функциональные вариативные процессы». Журнал Американской статистической ассоциации. 101 (475): 1007. Дои:10.1198/016214506000000186. JSTOR  27590778.
  3. ^ Веддерберн, Р.У.М. (1974). «Функции квази-правдоподобия, обобщенные линейные модели и метод Гаусса – Ньютона». Биометрика. 61 (3): 439. Дои:10.1093 / biomet / 61.3.439. JSTOR  2334725.
  4. ^ Маккаллах, Питер; Нелдер, Джон (1989). Обобщенные линейные модели (второе изд.). Лондон: Чепмен и Холл. ISBN  0-412-31760-5.
  5. ^ Мюллер и Штадт-Мюллер (1987). «Оценка гетероскедастичности в регрессионном анализе». Анналы статистики. 15 (2): 610–625. Дои:10.1214 / aos / 1176350364. JSTOR  2241329.
  6. ^ Cai and Wang, T .; Ван, Ли (2008). «Адаптивная оценка функции дисперсии в гетероскедастической непараметрической регрессии». Анналы статистики. 36 (5): 2025–2054. arXiv:0810.4780. Bibcode:2008arXiv0810.4780C. Дои:10.1214 / 07-AOS509. JSTOR  2546470.
  7. ^ Райс и Сильверман (1991). «Непараметрическая оценка структуры среднего значения и ковариации, когда данные являются кривыми». Журнал Королевского статистического общества. 53 (1): 233–243. JSTOR  2345738.

Рекомендации

внешняя ссылка