М-оценка - M-estimator

В статистика, М-оценки широкие учебный класс из экстремальные оценки для чего целевая функция является выборочным средним.^[1] Обе нелинейный метод наименьших квадратов и оценка максимального правдоподобия являются частными случаями M-оценок. Определение M-оценок было мотивировано надежная статистика, которые внесли новые типы М-оценок. Статистическая процедура оценки M-оценки на наборе данных называется М-оценка.

В более общем смысле, M-оценка может быть определена как нуль из оценочная функция.^[2]^[3]^[4]^[5]^[6]^[7] Эта оценочная функция часто является производной другой статистической функции. Например, оценка максимального правдоподобия - точка, в которой производная функции правдоподобия по параметру равна нулю; таким образом, оценка максимального правдоподобия является критическая точка из счет функция.^[8] Во многих приложениях такие M-оценки можно рассматривать как оценивающие характеристики популяции.

Историческая мотивация

Методика наименьших квадратов является прототипом M-оценки, поскольку оценка определяется как минимум суммы квадратов остатков.

Еще одна популярная M-оценка - это оценка максимального правдоподобия. Для семьи функции плотности вероятности ж параметризованный θ, а максимальная вероятность оценщик θ вычисляется для каждого набора данных путем максимизации функция правдоподобия по пространству параметров {θ }. Когда наблюдения независимы и одинаково распределены, ML-оценка ${displaystyle {hat {heta}}}$ удовлетворяет

{displaystyle {widehat {heta}} = arg max _ {displaystyle heta} {left (prod _ {i = 1} ^ {n} f (x_ {i}, heta) ight)} ,!}

или, что то же самое,

{displaystyle {widehat {heta}} = arg min _ {displaystyle heta} {left (sum _ {i = 1} ^ {n} -log {(f (x_ {i}, heta))} ight)}., !}

Оценки максимального правдоподобия обладают оптимальными свойствами в пределе бесконечного числа наблюдений при довольно общих условиях, но могут быть смещенными и не самыми эффективными оценками для конечных выборок.

Определение

В 1964 г. Питер Дж. Хубер предложили обобщение оценки максимального правдоподобия до минимизации

{displaystyle sum _ {i = 1} ^ {n} ho (x_ {i}, heta) ,,!}

где ρ - функция с определенными свойствами (см. ниже). Решения

{displaystyle {hat {heta}} = arg min _ {displaystyle heta} left (sum _ {i = 1} ^ {n} ho (x_ {i}, heta) ight) ,!}

называются М-оценки («M» означает «тип максимального правдоподобия» (Huber, 1981, стр. 43)); другие типы робастных оценок включают L-оценки, R-оценки и S-оценки. Таким образом, оценки максимального правдоподобия (MLE) являются частным случаем M-оценок. При соответствующем изменении масштаба M-оценки являются частными случаями экстремальные оценки (в котором могут использоваться более общие функции наблюдений).

Функцию ρ или ее производную ψ можно выбрать таким образом, чтобы обеспечить желаемые свойства оценщика (с точки зрения смещения и эффективности), когда данные действительно взяты из предполагаемого распределения, и `` неплохое '' поведение, когда данные генерируются из модели, которая в некотором смысле Закрыть к предполагаемому распределению.

Типы

М-оценки - это решения, θ, которые минимизируют

{displaystyle sum _ {i = 1} ^ {n} ho (x_ {i}, heta).,!}

Эту минимизацию всегда можно выполнить напрямую. Часто бывает проще дифференцировать по θ и найдите корень производной. Когда такое дифференцирование возможно, M-оценка называется ψ-тип. В противном случае говорят, что M-оценка имеет ρ-тип.

В большинстве практических случаев M-оценки относятся к ψ-типу.

ρ-тип

Для положительного целого числа р, позволять ${displaystyle ({mathcal {X}}, Sigma)}$ и ${displaystyle (Theta subset mathbb {R} ^ {r}, S)}$ быть мерными пространствами. ${displaystyle heta in Theta}$ - вектор параметров. M-оценка ρ-типа ${displaystyle T}$ определяется через измеримая функция ${displaystyle ho: {mathcal {X}} imes Theta ightarrow mathbb {R}}$ . Он отображает распределение вероятностей ${displaystyle F}$ на ${displaystyle {mathcal {X}}}$ к значению ${displaystyle T (F) в тета}$ (если он существует), который минимизирует ${displaystyle int _ {mathcal {X}} ho (x, heta) dF (x)}$ :

{displaystyle T (F): = arg min _ {heta in Theta} int _ {mathcal {X}} ho (x, heta) dF (x)}

Например, для максимальная вероятность оценщик ${displaystyle ho (x, heta) = - log (f (x, heta))}$ , куда ${displaystyle f (x, heta) = {frac {partial F (x, heta)} {partial x}}}$ .

ψ-тип

Если ${displaystyle ho}$ дифференцируема по ${displaystyle heta}$ , вычисление ${displaystyle {widehat {heta}}}$ обычно намного проще. M-оценка ψ-типа Т определяется через измеримую функцию ${displaystyle psi: {mathcal {X}} imes Theta ightarrow mathbb {R} ^ {r}}$ . Он отображает распределение вероятностей F на ${displaystyle {mathcal {X}}}$ к значению ${displaystyle T (F) в тета}$ (если он существует), решающий векторное уравнение:

{displaystyle int _ {mathcal {X}} psi (x, heta), dF (x) = 0}

{displaystyle int _ {mathcal {X}} psi (x, T (F)), dF (x) = 0}

Например, для максимальная вероятность оценщик ${displaystyle psi (x, heta) = left ({frac {partial log (f (x, heta)))} {partial heta ^ {1}}}, точки, {frac {partial log (f (x, heta)) } {частичная гетта ^ {p}}} свет) ^ {mathrm {T}}}$ , куда ${displaystyle u ^ {mathrm {T}}}$ обозначает транспонирование вектора ты и ${displaystyle f (x, heta) = {frac {partial F (x, heta)} {partial x}}}$ .

Такая оценка не обязательно является M-оценкой ρ-типа, но если ρ имеет непрерывную первую производную по ${displaystyle heta}$ , то необходимым условием того, чтобы M-оценка ψ-типа была M-оценкой ρ-типа, является ${displaystyle psi (x, heta) = abla _ {heta} ho (x, heta)}$ . Предыдущие определения легко распространяются на конечные выборки.

Если функция ψ убывает до нуля при ${displaystyle xightarrow pm infty}$ , оценка называется нисходящий. Такие оценщики обладают некоторыми дополнительными желательными свойствами, такими как полное отклонение грубых выбросов.

Вычисление

Для многих вариантов ρ или ψ не существует решения в закрытой форме, и требуется итерационный подход к вычислениям. Можно использовать стандартные алгоритмы оптимизации функций, такие как Ньютон – Рафсон. Однако в большинстве случаев итеративно повторно взвешенные методы наименьших квадратов алгоритм подгонки может быть выполнен; обычно это предпочтительный метод.

Для некоторых вариантов ψ, в частности, нисходящий функции, решение не может быть уникальным. Этот вопрос особенно актуален в многомерных задачах и задачах регрессии. Таким образом, необходимо соблюдать осторожность, чтобы выбрать хорошие отправные точки. Крепкий отправные точки, такие как медиана как оценка местоположения и среднее абсолютное отклонение как одномерная оценка масштаба, являются обычными.

Параметры концентрирования

При вычислении M-оценок иногда полезно переписать целевая функция так что размерность параметров уменьшается. Процедура называется «концентрированием» или «профилированием». Примеры, в которых концентрация параметров увеличивает скорость вычислений, включают: кажущиеся несвязанными регрессии (SUR) модели.^[9]Рассмотрим следующую задачу M-оценки:

{displaystyle ({hat {eta}} _ {n}, {hat {gamma}} _ {n}): = arg max _ {eta, gamma} extstyle sum _ {i = 1} ^ {N} displaystyle q ( w_ {i}, eta, gamma)}

Предполагая дифференцируемость функции q, M-оценка решает условия первого порядка:

{displaystyle sum _ {i = 1} ^ {N} riangledown _ {eta}, q (w_ {i}, eta, gamma) = 0}

{displaystyle sum _ {i = 1} ^ {N} riangledown _ {gamma}, q (w_ {i}, eta, gamma) = 0}

Теперь, если мы можем решить второе уравнение относительно γ через ${displaystyle W: = (w_ {1}, w_ {2}, .., w_ {N})}$ и ${displaystyle eta}$ , второе уравнение принимает вид:

{displaystyle sum _ {i = 1} ^ {N} riangledown _ {gamma}, q (w_ {i}, eta, g (W, eta)) = 0}

где g есть функция, которую нужно найти. Теперь мы можем переписать исходную целевую функцию только в терминах β, вставив функцию g вместо ${displaystyle gamma}$ . В результате происходит уменьшение количества параметров.

Можно ли выполнить эту процедуру, зависит от конкретной проблемы. Однако, когда это возможно, концентрация параметров может в значительной степени облегчить вычисления. Например, при оценке Модель SUR Из 6 уравнений с 5 объясняющими переменными в каждом уравнении по методу максимального правдоподобия количество параметров уменьшается с 51 до 30.^[9]

Несмотря на свою привлекательность в вычислениях, концентрация параметров имеет ограниченное применение при выводе асимптотических свойств M-оценки.^[10] Наличие W в каждом слагаемом целевой функции затрудняет применение закон больших чисел и Центральная предельная теорема.

Характеристики

Распределение

Можно показать, что M-оценки асимптотически нормально распределены. В качестве таких, Подходы типа Вальда для построения доверительных интервалов и проверки гипотез. Однако, поскольку теория асимптотична, часто имеет смысл проверить распределение, возможно, исследуя перестановку или бутстрап распределение.

Функция влияния

Функция влияния М-оценки ${displaystyle psi}$ -тип пропорционален его определяющему ${displaystyle psi}$ функция.

Позволять Т - M-оценка ψ-типа, и грамм - распределение вероятностей, для которого ${displaystyle T (G)}$ определено. Его функция влияния ЕСЛИ равна

{displaystyle operatorname {IF} (x; T, G) = - {frac {psi (x, T (G))} {int left [{frac {partial psi (y, heta)} {partial heta}} ight] f (y) mathrm {d} y}}}

предполагая функцию плотности ${displaystyle f (y)}$ существуют. Доказательство этого свойства M-оценок можно найти в Huber (1981, раздел 3.2).

Приложения

M-оценки могут быть построены для параметров местоположения и параметров масштаба в одномерном и многомерном параметрах настройки, а также использоваться в робастной регрессии.

Примеры

Иметь в виду

Позволять (Икс₁, ..., Икс_п) быть набором независимые, одинаково распределенные случайные величины, с распределением F.

Если мы определим

{displaystyle ho (x, heta) = {frac {(x- heta) ^ {2}} {2}} ,,!}

отметим, что это минимизируется, когда θ это иметь в виду из Иксс. Таким образом, среднее - это M-оценка ρ-типа с этой функцией ρ.

Поскольку эта функция ρ непрерывно дифференцируема в θ, среднее значение, таким образом, также является M-оценкой ψ-типа для ψ (Икс, θ) = θ − Икс.

Медиана

Для средней оценки (Икс₁, ..., Икс_п), вместо этого мы можем определить функцию ρ как

{displaystyle ho (x, heta) = | x- heta |}

и аналогично, функция ρ минимизируется, когда θ это медиана из Иксс.

Хотя эта функция ρ не дифференцируема в θ, M-оценка ψ-типа, которая является субградиентом функции ρ, может быть выражена как

{displaystyle psi (x, heta) = имя оператора {sgn} (x- heta)}

и

{displaystyle psi (x, heta) = {egin {case} {- 1}, & {mbox {if}} x- heta <0 {1}, & {mbox {if}} x- heta> 0 left [-1,1ight], & {mbox {if}} x-heta = 0end {case}}}

^{[требуется разъяснение ]}

Смотрите также

дальнейшее чтение

Андерсен, Роберт (2008). Современные методы робастной регрессии. Количественные приложения в социальных науках. 152. Лос-Анджелес, Калифорния: Sage Publications. ISBN 978-1-4129-4072-6.
Годамб, В. П. (1991). Оценочные функции. Оксфордская серия статистических наук. 7. Нью-Йорк: Clarendon Press. ISBN 978-0-19-852228-7.
Хейде, Кристофер С. (1997). Квази-правдоподобие и его применение: общий подход к оценке оптимальных параметров. Серии Спрингера в статистике. Нью-Йорк: Спрингер. Дои:10.1007 / b98823. ISBN 978-0-387-98225-0.
Хубер, Питер Дж. (2009). Надежная статистика (2-е изд.). Хобокен, Нью-Джерси: John Wiley & Sons Inc. ISBN 978-0-470-12990-6.
Хоглин, Дэвид С .; Фредерик Мостеллер; Джон В. Тьюки (1983). Понимание надежного и исследовательского анализа данных. Хобокен, Нью-Джерси: John Wiley & Sons Inc. ISBN 0-471-09777-2.
McLeish, D.L .; Кристофер Г. Смолл (1989). Теория и приложения функций статистического вывода. Конспект лекций по статистике. 44. Нью-Йорк: Спрингер. ISBN 978-0-387-96720-2.
Мухопадхьяй, Паримал (2004). Введение в оценивающие функции. Харроу, Великобритания: Alpha Science International, Ltd. ISBN 978-1-84265-163-6.
Нажмите, WH; Теукольский С.А.; Феттерлинг, штат Вашингтон; Фланнери, BP (2007), «Раздел 15.7. Надежная оценка», Числовые рецепты: искусство научных вычислений (3-е изд.), Нью-Йорк: Издательство Кембриджского университета, ISBN 978-0-521-88068-8
Серфлинг, Роберт Дж. (2002). Аппроксимационные теоремы математической статистики. Ряд Уайли по вероятности и математической статистике. Хобокен, Нью-Джерси: John Wiley & Sons Inc. ISBN 978-0-471-21927-9.
Шапиро, Александр (2000). "Об асимптотике ограниченного локального M-стиматоры ». Анналы статистики. 28 (3): 948–960. CiteSeerX 10.1.1.69.2288. Дои:10.1214 / aos / 1015952006. JSTOR 2674061. МИСТЕР 1792795.
Смолл, Кристофер Дж .; Цзиньфан Ван (2003). Численные методы решения нелинейных оценочных уравнений. Оксфордская серия статистических наук. 29. Нью-Йорк: Издательство Оксфордского университета. ISBN 978-0-19-850688-1.
ван де Гир, Сара А. (2000). Эмпирические процессы в M-оценке: приложения теории эмпирических процессов. Кембриджская серия по статистической и вероятностной математике. 6. Кембридж, Великобритания: Издательство Кембриджского университета. Дои:10.2277 / 052165002X. ISBN 978-0-521-65002-1.
Уилкокс, Р. Р. (2003). Применение современных статистических методов. Сан-Диего, Калифорния: Academic Press. С. 55–79.
Уилкокс, Р. Р. (2012). Введение в робастную оценку и проверку гипотез, 3-е изд.. Сан-Диего, Калифорния: Academic Press.

внешняя ссылка

М-оценки - введение в тему Чжэнъю Чжан

[1] Хаяси, Фумио (2000). «Экстремальные оценщики». Эконометрика. Издательство Принстонского университета. ISBN 0-691-01018-8.

[2] Видьядхар П. Годамбэ, редактор. Оценочные функции, том 7 Oxford Statistical Science Series. Clarendon Press Oxford University Press, Нью-Йорк, 1991.

[3] Кристофер К. Хейде. Квази-правдоподобие и его применение: общий подход к оценке оптимальных параметров. Серии Спрингера в статистике. Спрингер-Верлаг, Нью-Йорк, 1997.

[4] Д. Л. Маклиш и Кристофер Г. Смолл. Теория и приложения функций статистического вывода, том 44 конспектов по статистике. Спрингер-Верлаг, Нью-Йорк, 1988.

[5] Паримал Мухопадхьяй. Введение в оценивающие функции. Alpha Science International, Ltd, 2004 г.

[6] Кристофер Г. Смолл и Цзиньфанг Ван. Численные методы решения нелинейных оценочных уравнений, том 29 Oxford Statistical Science Series. Clarendon Press Oxford University Press, Нью-Йорк, 2003.

[7] Сара А. ван де Гир. Эмпирические процессы в M-оценке: приложения теории эмпирических процессов, том 6 Кембриджской серии по статистической и вероятностной математике. Издательство Кембриджского университета, Кембридж, 2000.

[8] Фергюсон, Томас С. (1982). «Непоследовательная оценка максимального правдоподобия». Журнал Американской статистической ассоциации. 77 (380): 831–834. Дои:10.1080/01621459.1982.10477894. JSTOR 2287314.

[Giles2012-9] а ^б Джайлз, Д. Э. (10 июля 2012 г.). «Концентрация или профилирование функции правдоподобия».

[10] Вулдридж, Дж. М. (2001). Эконометрический анализ поперечных и панельных данных. Кембридж, Массачусетс: MIT Press. ISBN 0-262-23219-7.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]