В статистика, Байесовская многомерная линейная регрессия этоБайесовский подход к многомерная линейная регрессия, т.е. линейная регрессия где прогнозируемый результат - это вектор коррелированных случайные переменные а не одну скалярную случайную величину. Более общую трактовку этого подхода можно найти в статье Оценщик MMSE.
Подробности
Рассмотрим проблему регрессии, в которой зависимая переменная быть предсказанным не единственное ценный скаляр, но м-длина вектор коррелированных действительных чисел. Как и в стандартной настройке регрессии, есть п наблюдения, где каждое наблюдение я состоит из k-1объясняющие переменные, сгруппированные в вектор
длины k (где фиктивная переменная со значением 1 было добавлено, чтобы учесть коэффициент пересечения). Это можно рассматривать как набор м связанные задачи регрессии для каждого наблюдения я:
![y _ {{i, 1}} = { mathbf {x}} _ {i} ^ {{{ rm {T}}}} { boldsymbol beta} _ {{1}} + epsilon _ {{ я, 1}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f500daff01860d346c51c9238feeaff7d81a19f6)
![cdots](https://wikimedia.org/api/rest_v1/media/math/render/svg/e1d67495288eac0fa90d5bbcad7d9a343c15ad56)
![y _ {{i, m}} = { mathbf {x}} _ {i} ^ {{{ rm {T}}}} { boldsymbol beta} _ {{m}} + epsilon _ {{ я}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/9d87623c9ffeb6b2cb470547773ba12812e5281f)
где множество ошибок
все коррелированы. Точно так же ее можно рассматривать как задачу единственной регрессии, в которой результатом является вектор строки
а векторы коэффициентов регрессии располагаются рядом друг с другом следующим образом:
![{ mathbf {y}} _ {i} ^ {{{ rm {T}}}} = { mathbf {x}} _ {i} ^ {{{ rm {T}}}} { mathbf {B}} + { boldsymbol epsilon} _ {{i}} ^ {{{ rm {T}}}}.](https://wikimedia.org/api/rest_v1/media/math/render/svg/1a1a9b3fe6378f3163b3e54056d68b5aba89d5a3)
Матрица коэффициентов B это
матрица, где векторы коэффициентов
для каждой задачи регрессии расположены горизонтально:
![{ mathbf {B}} = { begin {bmatrix} { begin {pmatrix} { boldsymbol beta} _ {1} \ end {pmatrix}} cdots { begin {pmatrix} { boldsymbol beta} _ {m} \ end {pmatrix}} end {bmatrix}} = { begin {bmatrix} { begin {pmatrix} beta _ {{1,1} } vdots beta _ {{k, 1}} end {pmatrix}} cdots { begin {pmatrix} beta _ {{1, m}} vdots бета _ {{k, m}} end {pmatrix}} end {bmatrix}}.](https://wikimedia.org/api/rest_v1/media/math/render/svg/78f780422e71f6aa1a46e34bd533d98fb0c787a9)
Вектор шума
за каждое наблюдение яв совокупности является нормальным явлением, поэтому результаты данного наблюдения коррелируют:
![{ displaystyle { boldsymbol { epsilon}} _ {i} sim N (0, { boldsymbol { Sigma}} _ { epsilon}).}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7733945e6ff71e778cf40355fa53429479524ea7)
Мы можем записать всю проблему регрессии в матричной форме как:
![{ mathbf {Y}} = { mathbf {X}} { mathbf {B}} + { mathbf {E}},](https://wikimedia.org/api/rest_v1/media/math/render/svg/34052fd46e495403cbd7811d9fabf969bfba13f2)
куда Y и E находятся
матрицы. В матрица дизайна Икс является
матрица с наблюдениями, сложенными вертикально, как в стандартной линейная регрессия настраивать:
![{ mathbf {X}} = { begin {bmatrix} { mathbf {x}} _ {1} ^ {{{ rm {T}}}} { mathbf {x}} _ {2} ^ {{{ rm {T}}}} vdots { mathbf {x}} _ {n} ^ {{{ rm {T}}}} end {bmatrix}} = { begin {bmatrix} x _ {{1,1}} & cdots & x _ {{1, k}} x _ {{2,1}} & cdots & x _ {{2, k}} vdots & ddots & vdots x _ {{n, 1}} & cdots & x _ {{n, k}} end {bmatrix}}.](https://wikimedia.org/api/rest_v1/media/math/render/svg/2291c47973b76ef50e7c6b28c8aebf907410d6be)
Классики, частотники линейный метод наименьших квадратов решение состоит в том, чтобы просто оценить матрицу коэффициентов регрессии
с использованием Мур-Пенроуз псевдообратный:
.
Чтобы получить байесовское решение, нам нужно указать условное правдоподобие, а затем найти подходящее сопряженное априорное значение. Как и в одномерном случае линейная байесовская регрессия, мы обнаружим, что можем указать естественный условно-сопряженный априор (который зависит от масштаба).
Запишем нашу условную вероятность в виде[1]
![{ displaystyle rho ( mathbf {E} | { boldsymbol { Sigma}} _ { epsilon}) propto | { boldsymbol { Sigma}} _ { epsilon} | ^ {- n / 2} exp (- { frac {1} {2}} { rm {tr}} ( mathbf {E} ^ { rm {T}} mathbf {E} { boldsymbol { Sigma}} _ { epsilon} ^ {- 1})),}](https://wikimedia.org/api/rest_v1/media/math/render/svg/85c1d26464165208d9e890e9078d40e9a7e2aca1)
запись ошибки
с точки зрения
и
дает
![{ displaystyle rho ( mathbf {Y} | mathbf {X}, mathbf {B}, { boldsymbol { Sigma}} _ { epsilon}) propto | { boldsymbol { Sigma}} _ { epsilon} | ^ {- n / 2} exp (- { frac {1} {2}} { rm {tr}} (( mathbf {Y} - mathbf {X} mathbf { mathbf {B}}) ^ { rm {T}} ( mathbf {Y} - mathbf {X} mathbf { mathbf {B}}) { boldsymbol { Sigma}} _ { epsilon} ^ {-1})),}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7469d9008c0130aef52fa395e13b0124867df51e)
Мы ищем естественный сопряженный априор - совместную плотность
который имеет ту же функциональную форму, что и вероятность. Поскольку вероятность квадратична по
, мы перепишем вероятность, чтобы она была нормальной в
(отклонение от классической выборочной оценки).
Используя ту же технику, что и с Байесовская линейная регрессия, мы разлагаем экспоненциальный член, используя матричную форму метода суммы квадратов. Однако здесь нам также потребуется использовать матричное дифференциальное исчисление (Кронекер продукт и векторизация преобразования).
Во-первых, давайте применим сумму квадратов, чтобы получить новое выражение для вероятности:
![{ displaystyle rho ( mathbf {Y} | mathbf {X}, mathbf {B}, { boldsymbol { Sigma}} _ { epsilon}) propto | { boldsymbol { Sigma}} _ { epsilon} | ^ {- (nk) / 2} exp (- { rm {tr}} ({ frac {1} {2}} mathbf {S} ^ { rm {T}} mathbf {S} { boldsymbol { Sigma}} _ { epsilon} ^ {- 1})) | { boldsymbol { Sigma}} _ { epsilon} | ^ {- k / 2} exp (- { frac {1} {2}} { rm {tr}} (( mathbf {B} - { hat { mathbf {B}}}) ^ { rm {T}} mathbf {X} ^ { rm {T}} mathbf {X} ( mathbf {B} - { hat { mathbf {B}}}) { boldsymbol { Sigma}} _ { epsilon} ^ {- 1} )),}](https://wikimedia.org/api/rest_v1/media/math/render/svg/efe04746a324a41dd3b1e018c33133b7aec9fe29)
![{ displaystyle mathbf {S} = mathbf {Y} - mathbf {X} { hat { mathbf {B}}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c4cd7ad610f0ecddad9857550ddeb456d000d41e)
Мы хотели бы разработать условную форму для априорных точек:
![rho ({ mathbf {B}}, { boldsymbol Sigma} _ {{ epsilon}}) = rho ({ boldsymbol Sigma} _ {{ epsilon}}) rho ({ mathbf { B}} | { boldsymbol Sigma} _ {{ epsilon}}),](https://wikimedia.org/api/rest_v1/media/math/render/svg/7afdabc491c360d9d5b0a90001cdee15068f49cb)
куда
является обратное распределение Вишарта и
это какая-то форма нормальное распределение в матрице
. Это достигается с помощью векторизация преобразование, которое преобразует вероятность из функции матриц
к функции векторов
.
Написать
![{{ rm {tr}}} (({ mathbf {B}} - { hat {{ mathbf {B}}}}) ^ {{{ rm {T}}}} { mathbf {X }} ^ {{{ rm {T}}}} { mathbf {X}} ({ mathbf {B}} - { hat {{ mathbf {B}}}}) { boldsymbol Sigma} _ {{ epsilon}} ^ {{- 1}}) = {{ rm {vec}}} ({ mathbf {B}} - { hat {{ mathbf {B}}}}) ^ { {{ rm {T}}}} {{ rm {vec}}} ({ mathbf {X}} ^ {{{ rm {T}}}}} { mathbf {X}} ({ mathbf {B}} - { hat {{ mathbf {B}}}}) { boldsymbol Sigma} _ {{ epsilon}} ^ {{- 1}})](https://wikimedia.org/api/rest_v1/media/math/render/svg/d645deefff7b0d470837048c42fcb19868de7621)
Позволять
![{{ rm {vec}}} ({ mathbf {X}} ^ {{{ rm {T}}}} { mathbf {X}} ({ mathbf {B}} - { hat {{ mathbf {B}}}}) { boldsymbol Sigma} _ {{ epsilon}} ^ {{- 1}}) = ({ boldsymbol Sigma} _ {{ epsilon}} ^ {{- 1 }} otimes { mathbf {X}} ^ {{{ rm {T}}}} { mathbf {X}}) {{ rm {vec}}} ({ mathbf {B}} - { hat {{ mathbf {B}}}}),](https://wikimedia.org/api/rest_v1/media/math/render/svg/87f60d55fb00413b64dbdcff7bc5e2f4982a78a3)
куда
обозначает Кронекер продукт матриц А и B, обобщение внешний продукт который умножает
матрица
матрица для создания
матрица, состоящая из каждой комбинации произведений элементов из двух матриц.
потом
![{{ rm {vec}}} ({ mathbf {B}} - { hat {{ mathbf {B}}}}) ^ {{{ rm {T}}}} ({ boldsymbol Sigma } _ {{ epsilon}} ^ {{- 1}} otimes { mathbf {X}} ^ {{{ rm {T}}}} { mathbf {X}}) {{ rm {vec }}} ({ mathbf {B}} - { hat {{ mathbf {B}}}})](https://wikimedia.org/api/rest_v1/media/math/render/svg/f402116b2765280d8607b185f4e6902b934ccd18)
![= ({ boldsymbol beta} - { hat {{ boldsymbol beta}}}) ^ {{{ rm {T}}}} ({ boldsymbol Sigma} _ {{ epsilon}} ^ { {-1}} otimes { mathbf {X}} ^ {{{ rm {T}}}} { mathbf {X}}) ({ boldsymbol beta} - { hat {{ boldsymbol бета}}})](https://wikimedia.org/api/rest_v1/media/math/render/svg/e0e6e7f324209e813eb9e9edda61b85634a82f4d)
что приведет к вероятности, которая нормальна для
.
С вероятностью в более понятной форме, теперь мы можем найти естественное (условное) сопряжение априорной точки.
Сопряженное предварительное распределение
Натуральный конъюгат до использования векторизованной переменной
имеет вид:[1]
,
куда
![{ displaystyle rho ({ boldsymbol { Sigma}} _ { epsilon}) sim { mathcal {W}} ^ {- 1} ( mathbf {V_ {0}}, { boldsymbol { nu }} _ {0})}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8aead2f8d5473fe09212f267d4216387254c5725)
и
![{ displaystyle rho ({ boldsymbol { beta}} | { boldsymbol { Sigma}} _ { epsilon}) sim N ({ boldsymbol { beta}} _ {0}, { boldsymbol { Sigma}} _ { epsilon} otimes { boldsymbol { Lambda}} _ {0} ^ {- 1}).}](https://wikimedia.org/api/rest_v1/media/math/render/svg/88f95d21953a0e24ef28883495480678130be5dd)
Заднее распространение
Используя вышеупомянутые априорность и вероятность, апостериорное распределение можно выразить как:[1]
![{ displaystyle rho ({ boldsymbol { beta}}, { boldsymbol { Sigma}} _ { epsilon} | mathbf {Y}, mathbf {X}) propto | { boldsymbol { Sigma }} _ { epsilon} | ^ {- ({ boldsymbol { nu}} _ {0} + m + 1) / 2} exp {(- { frac {1} {2}} { rm {tr}} ( mathbf {V_ {0}} { boldsymbol { Sigma}} _ { epsilon} ^ {- 1}))}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/64b4a31499d21d7db3165cf62862c73baacecef0)
![{ displaystyle times | { boldsymbol { Sigma}} _ { epsilon} | ^ {- k / 2} exp {(- { frac {1} {2}} { rm {tr}} ( ( mathbf {B} - mathbf {B_ {0}}) ^ { rm {T}} { boldsymbol { Lambda}} _ {0} ( mathbf {B} - mathbf {B_ {0} }) { boldsymbol { Sigma}} _ { epsilon} ^ {- 1}))}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b3d84be42058fbe6e980243e24a8abff0c09a48b)
![{ displaystyle times | { boldsymbol { Sigma}} _ { epsilon} | ^ {- n / 2} exp {(- { frac {1} {2}} { rm {tr}} ( ( mathbf {Y} - mathbf {XB}) ^ { rm {T}} ( mathbf {Y} - mathbf {XB}) { boldsymbol { Sigma}} _ { epsilon} ^ {- 1}))},}](https://wikimedia.org/api/rest_v1/media/math/render/svg/9fbec84720242d177e8be83d443d07fb47dce6de)
куда
.Условия, касающиеся
могут быть сгруппированы (с
) с помощью:
![{ displaystyle ( mathbf {B} - mathbf {B_ {0}}) ^ { rm {T}} { boldsymbol { Lambda}} _ {0} ( mathbf {B} - mathbf {B_ {0}}) + ( mathbf {Y} - mathbf {XB}) ^ { rm {T}} ( mathbf {Y} - mathbf {XB})}](https://wikimedia.org/api/rest_v1/media/math/render/svg/45e4c83e696aa71888d7091845eb879cfd0ac279)
![{ displaystyle = left ({ begin {bmatrix} mathbf {Y} mathbf {UB_ {0}} end {bmatrix}} - { begin {bmatrix} mathbf {X} mathbf {U} end {bmatrix}} mathbf {B} right) ^ { rm {T}} left ({ begin {bmatrix} mathbf {Y} mathbf {UB_ {0}} конец {bmatrix}} - { begin {bmatrix} mathbf {X} mathbf {U} end {bmatrix}} mathbf {B} right)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/cea1e20831a959c4dc6d2482639306ef4d403d43)
![{ displaystyle = left ({ begin {bmatrix} mathbf {Y} mathbf {UB_ {0}} end {bmatrix}} - { begin {bmatrix} mathbf {X} mathbf {U} end {bmatrix}} mathbf {B_ {n}} right) ^ { rm {T}} left ({ begin {bmatrix} mathbf {Y} mathbf {UB_ {0 }} end {bmatrix}} - { begin {bmatrix} mathbf {X} mathbf {U} end {bmatrix}} mathbf {B_ {n}} right) + ( mathbf {B } - mathbf {B_ {n}}) ^ { rm {T}} ( mathbf {X} ^ { rm {T}} mathbf {X} + { boldsymbol { Lambda}} _ {0 }) ( mathbf {B} - mathbf {B_ {n}})}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b6f86c5e8b8791e2519c00bae631b6c066887da4)
,
с
.
Теперь это позволяет нам записать апостериор в более удобной форме:
![{ displaystyle rho ({ boldsymbol { beta}}, { boldsymbol { Sigma}} _ { epsilon} | mathbf {Y}, mathbf {X}) propto | { boldsymbol { Sigma }} _ { epsilon} | ^ {- ({ boldsymbol { nu}} _ {0} + m + n + 1) / 2} exp {(- { frac {1} {2}} { rm {tr}} (( mathbf {V_ {0}} + ( mathbf {Y} - mathbf {XB_ {n}}) ^ { rm {T}} ( mathbf {Y} - mathbf {XB_ {n}}) + ( mathbf {B_ {n}} - mathbf {B_ {0}}) ^ { rm {T}} { boldsymbol { Lambda}} _ {0} ( mathbf {B_ {n}} - mathbf {B_ {0}})) { boldsymbol { Sigma}} _ { epsilon} ^ {- 1}))}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e29d7618fb2b6edb507e1eb700a0359444c45810)
.
Это принимает форму обратное распределение Вишарта раз а Матричное нормальное распределение:
![{ displaystyle rho ({ boldsymbol { Sigma}} _ { epsilon} | mathbf {Y}, mathbf {X}) sim { mathcal {W}} ^ {- 1} ( mathbf { V_ {n}}, { boldsymbol { nu}} _ {n})}](https://wikimedia.org/api/rest_v1/media/math/render/svg/2de140adfeef301278f72a4f35881283d7fc20ac)
и
.
Параметры этого апостериорного отдела определяются как:
![{ displaystyle mathbf {V_ {n}} = mathbf {V_ {0}} + ( mathbf {Y} - mathbf {XB_ {n}}) ^ { rm {T}} ( mathbf {Y } - mathbf {XB_ {n}}) + ( mathbf {B_ {n}} - mathbf {B_ {0}}) ^ { rm {T}} { boldsymbol { Lambda}} _ {0 } ( mathbf {B_ {n}} - mathbf {B_ {0}})}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f006a241aefeb0df200f8b6c536ac0f3112958e0)
![{ displaystyle { boldsymbol { nu}} _ {n} = { boldsymbol { nu}} _ {0} + n}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7f81bb9f083f2e2cd84b08af6c8121e9dbf24c28)
![{ displaystyle mathbf {B_ {n}} = ( mathbf {X} ^ { rm {T}} mathbf {X} + { boldsymbol { Lambda}} _ {0}) ^ {- 1} ( mathbf {X} ^ { rm {T}} mathbf {Y} + { boldsymbol { Lambda}} _ {0} mathbf {B_ {0}})}](https://wikimedia.org/api/rest_v1/media/math/render/svg/90f21f74fb0f49cba87dad3cffc574e35fdf52ae)
![{ displaystyle { boldsymbol { Lambda}} _ {n} = mathbf {X} ^ { rm {T}} mathbf {X} + { boldsymbol { Lambda}} _ {0}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/970b7d220f6e141cfe4d9255ff716e599f2414cc)
Смотрите также
Рекомендации
- ^ а б c Питер Э. Росси, Грег М. Алленби, Роб Маккалок. Байесовская статистика и маркетинг. John Wiley & Sons, 2012, стр. 32.