Функция дисперсии - Variance function
Эта статья нужны дополнительные цитаты для проверка.Март 2014 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
Часть серии по |
Регрессивный анализ |
---|
Модели |
Оценка |
Фон |
|
В статистика, то функция дисперсии - гладкая функция, изображающая отклонение случайной величины как функции ее иметь в виду. Функция дисперсии играет большую роль во многих параметрах статистического моделирования. Это главный ингредиент в обобщенная линейная модель фреймворк и инструмент, используемый в непараметрическая регрессия,[1] полупараметрическая регрессия[1] и функциональный анализ данных.[2] В параметрическом моделировании функции дисперсии принимают параметрическую форму и явно описывают взаимосвязь между дисперсией и средним значением случайной величины. В непараметрической настройке предполагается, что функция дисперсии гладкая функция.
Интуиция
В настройке регрессионной модели цель состоит в том, чтобы установить, существует ли связь между переменной ответа и набором переменных-предикторов. Кроме того, если связь действительно существует, цель состоит в том, чтобы как можно лучше описать эту связь. Основное предположение в линейная регрессия - постоянная дисперсия или (гомоскедастичность), что означает, что разные переменные отклика имеют одинаковую дисперсию своих ошибок на каждом уровне предикторов. Это предположение хорошо работает, когда переменная ответа и переменная предиктора вместе являются нормальными, см. Нормальное распределение. Как мы увидим позже, функция дисперсии в настройке «Нормальный» является постоянной, однако мы должны найти способ количественной оценки гетероскедастичности (непостоянной дисперсии) при отсутствии совместной нормальности.
Когда вероятно, что ответ следует за распределением, которое является членом экспоненциального семейства, обобщенная линейная модель может быть более подходящим для использования, и, более того, когда мы не хотим навязывать параметрическую модель нашим данным, непараметрическая регрессия подход может быть полезным. Важность возможности моделировать дисперсию как функцию среднего значения заключается в улучшенном выводе (в параметрической настройке) и оценке функции регрессии в целом для любой настройки.
Функции дисперсии играют очень важную роль в оценке и выводе параметров. Как правило, оценка максимального правдоподобия требует определения функции правдоподобия. Затем это требование подразумевает, что сначала необходимо указать распределение наблюдаемых переменных отклика. Однако, чтобы определить квази-правдоподобие, нужно только указать взаимосвязь между средним значением и дисперсией наблюдений, чтобы затем можно было использовать функцию квазивероятности для оценки.[3] Квази-правдоподобие оценка особенно полезна, когда есть чрезмерная дисперсия. Чрезмерная дисперсия возникает, когда данные более изменчивы, чем следовало бы ожидать в противном случае в соответствии с предполагаемым распределением данных.
Таким образом, чтобы обеспечить эффективный вывод параметров регрессии и функции регрессии, необходимо учитывать гетероскедастичность. Функции дисперсии количественно определяют взаимосвязь между дисперсией и средним значением наблюдаемых данных и, следовательно, играют важную роль в оценке и выводе регрессии.
Типы
Функция дисперсии и ее приложения используются во многих областях статистического анализа. Очень важно использовать эту функцию в рамках обобщенные линейные модели и непараметрическая регрессия.
Обобщенная линейная модель
Когда член экспоненциальная семья была определена, функция дисперсии может быть легко выведена.[4]:29 Общая форма функции дисперсии представлена в контексте экспоненциального семейства, а также конкретные формы для нормального, Бернулли, Пуассона и гаммы. Кроме того, мы описываем приложения и использование функций дисперсии в оценке максимального правдоподобия и оценки квази правдоподобия.
Вывод
В обобщенная линейная модель (GLM), является обобщением обычного регрессионного анализа, который распространяется на любой член экспоненциальная семья. Это особенно полезно, когда переменная ответа является категориальной, двоичной или подвержена ограничению (например, только положительные ответы имеют смысл). Краткое описание компонентов GLM приведено на этой странице, но для получения более подробной информации см. Страницу обобщенные линейные модели.
А GLM состоит из трех основных ингредиентов:
- 1. Случайная составляющая: распределение у из экспоненциальной семьи,
- 2. Линейный предсказатель:
- 3. Функция ссылки:
Во-первых, важно вывести пару ключевых свойств экспоненциального семейства.
Любая случайная величина в экспоненциальном семействе имеет функцию плотности вероятности вида
с логической вероятностью,
Здесь, - канонический параметр и интересующий параметр, а является мешающим параметром, который играет роль в дисперсии. Личности Бартлетта получить общее выражение для функция дисперсииПервый и второй результаты Бартлетта гарантируют, что при подходящих условиях (см. Интегральное правило Лейбница ), для функции плотности, зависящей от ,
Эти тождества приводят к простым вычислениям ожидаемого значения и дисперсии любой случайной величины. в экспоненциальной семье .
Ожидаемая стоимость Y:Взяв первую производную по логарифма плотности в форме экспоненциального семейства, описанной выше, имеем
Затем, взяв ожидаемое значение и установив его равным нулю, мы получим:
Дисперсия Y:Для вычисления дисперсии мы используем второе тождество Бартлетта,
Теперь у нас есть отношения между и , а именно
- и , что позволяет установить связь между и дисперсия,
Обратите внимание, потому что , тогда обратима.Мы выводим дисперсионную функцию для нескольких распространенных распределений.
Пример - нормальный
В Нормальное распределение является частным случаем, когда функция дисперсии является постоянной. Позволять то положим функцию плотности у в виде экспоненциального семейства, описанного выше:
куда
Чтобы вычислить функцию дисперсии , мы сначала выражаем как функция . Затем преобразуем в функцию
Следовательно, функция дисперсии постоянна.
Пример - Бернулли
Позволять , то выразим плотность Распределение Бернулли в экспоненциальной форме семьи,
Это дает нам
Пример - Пуассон
Позволять , то выразим плотность распределение Пуассона в экспоненциальной форме семьи,
- что дает нам
- и
Это дает нам
Здесь мы видим центральное свойство пуассоновских данных, что дисперсия равна среднему.
Пример - Гамма
В Гамма-распределение и функция плотности может быть выражена при различных параметризациях. Воспользуемся формой гаммы с параметрами
Тогда в форме экспоненциальной семьи имеем
И у нас есть
Применение - взвешенный метод наименьших квадратов
Очень важным применением функции дисперсии является ее использование для оценки параметров и вывода, когда переменная отклика имеет требуемую форму экспоненциального семейства, а также в некоторых случаях, когда это не так (что мы обсудим в квази-правдоподобие ). Взвешенный наименьших квадратов (WLS) - это частный случай обобщенных наименьших квадратов. Каждый член в критерии WLS включает вес, который определяет, какое влияние оказывает каждое наблюдение на окончательные оценки параметров. Как и в обычном методе наименьших квадратов, цель состоит в том, чтобы оценить неизвестные параметры в функции регрессии путем нахождения значений для оценок параметров, которые минимизируют сумму квадратов отклонений между наблюдаемыми ответами и функциональной частью модели.
Хотя WLS предполагает независимость наблюдений, он не предполагает равной дисперсии и, следовательно, является решением для оценки параметров при наличии гетероскедастичности. В Теорема Гаусса – Маркова и Aitken продемонстрировать, что лучшая линейная несмещенная оценка (СИНИЙ), несмещенный оценщик с минимальной дисперсией, имеет каждый вес, равный обратной величине дисперсии измерения.
В рамках GLM наша цель - оценить параметры , куда . Поэтому мы хотели бы минимизировать и если мы определим весовую матрицу W в качестве