Пример Штейна важный результат в теория принятия решений что можно сформулировать как
- Обычное решающее правило для оценки среднего многомерного распределения Гаусса недопустимо при среднеквадратическом риске ошибки в размерности не менее 3.
Ниже приводится схема его доказательства.[1] Читателя отсылаем к основная статья для дополнительной информации.
Набросал доказательство
В функция риска правила принятия решения
является
![{ Displaystyle R ( theta, d) = operatorname {E} _ { theta} [| mathbf { theta -X} | ^ {2}]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e0eacb869ae5613edd603aea8a9035c70cca91f6)
![= int ({ mathbf { theta -x}}) ^ {T} ({ mathbf { theta -x}}) left ({ frac {1} {2 pi}} right) ^ {{n / 2}} e ^ {{(- 1/2) ({ mathbf { theta -x}}) ^ {T} ({ mathbf { theta -x}})}} m (dx )](https://wikimedia.org/api/rest_v1/media/math/render/svg/2591373a048d25f452fa8437307cbb0c4060bdc4)
![{ Displaystyle = п.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/5ab109a6d7399b91da7c630deab21349e715a3f6)
Теперь рассмотрим правило принятия решения
![d '({ mathbf {x}}) = { mathbf {x}} - { frac { alpha} {| { mathbf {x}} | ^ {2}}} { mathbf {x}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f9d50e363bc62277a0abc2c06eb2afdfffe96092)
куда
. Мы покажем, что
это лучшее решение, чем
. Функция риска
![{ Displaystyle R ( theta, d ') = operatorname {E} _ { theta} left [ left | mathbf { theta -X} + { frac { alpha} {| mathbf {X } | ^ {2}}} mathbf {X} right | ^ {2} right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/53af2890b7cd27b63bffa5f567c3e16c7debcedc)
![{ displaystyle = operatorname {E} _ { theta} left [| mathbf { theta -X} | ^ {2} +2 ( mathbf { theta -X}) ^ {T} { frac { alpha} {| mathbf {X} | ^ {2}}} mathbf {X} + { frac { alpha ^ {2}} {| mathbf {X} | ^ {4}}} | mathbf {X} | ^ {2} right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d0d6bd94fd2a04861cc3855cc30155458f20913a)
![{ displaystyle = operatorname {E} _ { theta} left [| mathbf { theta -X} | ^ {2} right] +2 alpha operatorname {E} _ { theta} left [{ frac { mathbf {( theta -X) ^ {T} X}} {| mathbf {X} | ^ {2}}} right] + alpha ^ {2} operatorname {E} _ { theta} left [{ frac {1} {| mathbf {X} | ^ {2}}} right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b3c2b23e5eec4f665d7b3988b45f4851203ccce5)
- квадратичный по
. Мы можем упростить средний термин, рассмотрев общую функцию "хорошего поведения"
и используя интеграция по частям. За
, для любого непрерывно дифференцируемого
растет достаточно медленно для больших
у нас есть:
![{ displaystyle operatorname {E} _ { theta} [( theta _ {i} -X_ {i}) h ( mathbf {X}) | X_ {j} = x_ {j} (j neq i )] = int ( theta _ {i} -x_ {i}) h ( mathbf {x}) left ({ frac {1} {2 pi}} right) ^ {n / 2} e ^ {- (1/2) mathbf {(x- theta)} ^ {T} mathbf {(x- theta)}} m (dx_ {i})}](https://wikimedia.org/api/rest_v1/media/math/render/svg/abf79080d2c2797d6eb3a2cd63bca3836a690c31)
![= left [h ({ mathbf {x}}) left ({ frac {1} {2 pi}} right) ^ {{n / 2}} e ^ {{- (1/2) { mathbf {(x- theta)}} ^ {T} { mathbf {(x- theta)}}}} right] _ {{x_ {i} = - infty}} ^ { infty } - int { frac { partial h} { partial x_ {i}}} ({ mathbf {x}}) left ({ frac {1} {2 pi}} right) ^ { {n / 2}} e ^ {{- (1/2) { mathbf {(x- theta)}} ^ {T} { mathbf {(x- theta)}}}} m (dx_ { я})](https://wikimedia.org/api/rest_v1/media/math/render/svg/1290a9810a80bc9ed39483971d798fbdbc0bf94b)
![{ displaystyle = - operatorname {E} _ { theta} left [{ frac { partial h} { partial x_ {i}}} ( mathbf {X}) | X_ {j} = x_ { j} (j neq i) right].}](https://wikimedia.org/api/rest_v1/media/math/render/svg/805aad9850010a67778135aed1a70395f316d20d)
Следовательно,
![{ displaystyle operatorname {E} _ { theta} [( theta _ {i} -X_ {i}) h ( mathbf {X})] = - operatorname {E} _ { theta} left [{ frac { partial h} { partial x_ {i}}} ( mathbf {X}) right].}](https://wikimedia.org/api/rest_v1/media/math/render/svg/cb61a83c56c891d9e294b55bea3335aeb8367e08)
(Этот результат известен как Лемма Штейна.)
Теперь выбираем
![h ({ mathbf {x}}) = { frac {x_ {i}} {| { mathbf {x}} | ^ {2}}}.](https://wikimedia.org/api/rest_v1/media/math/render/svg/0f35dfd58111d51d8c4746b7e29ee64837197ed8)
Если
соответствует условию "хорошего поведения" (это не так, но это можно исправить - см. ниже), мы бы
![{ frac { partial h} { partial x_ {i}}} = { frac {1} {| { mathbf {x}} | ^ {2}}} - { frac {2x_ {i} ^ {2}} {| { mathbf {x}} | ^ {4}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a32703cb74e64f848f44e43a2a28e68dc027b94d)
и так
![{ displaystyle operatorname {E} _ { theta} left [{ frac { mathbf {( theta -X) ^ {T} X}} {| mathbf {X} | ^ {2}}} right] = sum _ {i = 1} ^ {n} operatorname {E} _ { theta} left [( theta _ {i} -X_ {i}) { frac {X_ {i} } {| mathbf {X} | ^ {2}}} right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/02e2ec1d5947960d3006c776b41ed078a119d78a)
![{ displaystyle = - sum _ {i = 1} ^ {n} operatorname {E} _ { theta} left [{ frac {1} {| mathbf {X} | ^ {2}}} - { frac {2X_ {i} ^ {2}} {| mathbf {X} | ^ {4}}} right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c03a081bb181a5391ce9f473d3bc091e3ca1fc24)
![{ displaystyle = - (n-2) operatorname {E} _ { theta} left [{ frac {1} {| mathbf {X} | ^ {2}}} right].}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e4d9f21e647c8da339e4f087293ffd9ac32e6b12)
Затем возвращаясь к функции риска
:
![{ Displaystyle R ( theta, d ') = п-2 альфа (п-2) operatorname {E} _ { theta} left [{ frac {1} {| mathbf {X} | ^ {2}}} right] + alpha ^ {2} operatorname {E} _ { theta} left [{ frac {1} {| mathbf {X} | ^ {2}}} right ].}](https://wikimedia.org/api/rest_v1/media/math/render/svg/3a406c5b50929abb1cffbf67a86c448e2340c5a5)
Эта квадратичная по
сводится к минимуму
![{ Displaystyle альфа = п-2,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8842ca002772e9a12e0f9e158b26f235709f6c6c)
давая
![{ Displaystyle R ( theta, d ') = R ( theta, d) - (n-2) ^ {2} operatorname {E} _ { theta} left [{ frac {1} {| mathbf {X} | ^ {2}}} right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/36aef6769e6264751d25a514511de5c4d6de1b77)
что, конечно, удовлетворяет
![R ( theta, d ') <R ( theta, d).](https://wikimedia.org/api/rest_v1/media/math/render/svg/3f908674b8ebaa1f03cc7db5deff53ee3ab7b436)
изготовление
недопустимое решение.
Осталось обосновать использование
![h ({ mathbf {X}}) = { frac {{ mathbf {X}}} {| { mathbf {X}} | ^ {2}}}.](https://wikimedia.org/api/rest_v1/media/math/render/svg/b8378d7f3d0e3622919247244e41c6652aea0207)
Эта функция не является непрерывно дифференцируемой, так как она сингулярна на
. Однако функция
![{ displaystyle h ( mathbf {X}) = { frac { mathbf {X}} { varepsilon + | mathbf {X} | ^ {2}}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/9ebc5e40a3ae8fd9e08ea598a79ddcd9a6e6c486)
непрерывно дифференцируема, и, проследив алгебру и допуская
, получаем тот же результат.
Рекомендации