Байесовская многомерная линейная регрессия - Bayesian multivariate linear regression - Wikipedia

В статистика, Байесовская многомерная линейная регрессия этоБайесовский подход к многомерная линейная регрессия, т.е. линейная регрессия где прогнозируемый результат - это вектор коррелированных случайные переменные а не одну скалярную случайную величину. Более общую трактовку этого подхода можно найти в статье Оценщик MMSE.

Подробности

Рассмотрим проблему регрессии, в которой зависимая переменная быть предсказанным не единственное ценный скаляр, но м-длина вектор коррелированных действительных чисел. Как и в стандартной настройке регрессии, есть п наблюдения, где каждое наблюдение я состоит из k-1объясняющие переменные, сгруппированные в вектор ${ Displaystyle mathbf {х} _ {я}}$ длины k (где фиктивная переменная со значением 1 было добавлено, чтобы учесть коэффициент пересечения). Это можно рассматривать как набор м связанные задачи регрессии для каждого наблюдения я:

{ displaystyle y_ {i, 1} = mathbf {x} _ {i} ^ { rm {T}} { boldsymbol { beta}} _ {1} + epsilon _ {i, 1}}

{ displaystyle cdots}

{ displaystyle y_ {i, m} = mathbf {x} _ {i} ^ { rm {T}} { boldsymbol { beta}} _ {m} + epsilon _ {i, m}}

где множество ошибок ${ Displaystyle { epsilon _ {я, 1}, ldots, epsilon _ {я, м} }}$ все коррелированы. Точно так же ее можно рассматривать как задачу единственной регрессии, в которой результатом является вектор строки ${ displaystyle mathbf {y} _ {i} ^ { rm {T}}}$ а векторы коэффициентов регрессии располагаются рядом друг с другом следующим образом:

{ displaystyle mathbf {y} _ {i} ^ { rm {T}} = mathbf {x} _ {i} ^ { rm {T}} mathbf {B} + { boldsymbol { epsilon }} _ {i} ^ { rm {T}}.}

Матрица коэффициентов B это ${ Displaystyle к раз м}$ матрица, где векторы коэффициентов ${ displaystyle { boldsymbol { beta}} _ {1}, ldots, { boldsymbol { beta}} _ {m}}$ для каждой задачи регрессии расположены горизонтально:

{ displaystyle mathbf {B} = { begin {bmatrix} { begin {pmatrix} { boldsymbol { beta}} _ {1} \ end {pmatrix}} cdots { begin {pmatrix} { boldsymbol { beta}} _ {m} \ end {pmatrix}} end {bmatrix}} = { begin {bmatrix} { begin {pmatrix} beta _ { 1,1} vdots beta _ {k, 1} end {pmatrix}} cdots { begin {pmatrix} beta _ {1, m} vdots beta _ {k, m} end {pmatrix}} end {bmatrix}}.}

Вектор шума ${ displaystyle { boldsymbol { epsilon}} _ {я}}$ за каждое наблюдение яв совокупности является нормальным явлением, поэтому результаты данного наблюдения коррелируют:

{ displaystyle { boldsymbol { epsilon}} _ {i} sim N (0, { boldsymbol { Sigma}} _ { epsilon}).}

Мы можем записать всю проблему регрессии в матричной форме как:

{ Displaystyle mathbf {Y} = mathbf {X} mathbf {B} + mathbf {E},}

куда Y и E находятся ${ Displaystyle п раз м}$ матрицы. В матрица дизайна Икс является ${ Displaystyle п раз к}$ матрица с наблюдениями, сложенными вертикально, как в стандартной линейная регрессия настраивать:

{ displaystyle mathbf {X} = { begin {bmatrix} mathbf {x} _ {1} ^ { rm {T}} mathbf {x} _ {2} ^ { rm {T} } vdots mathbf {x} _ {n} ^ { rm {T}} end {bmatrix}} = { begin {bmatrix} x_ {1,1} & cdots & x_ {1, k} x_ {2,1} & cdots & x_ {2, k} vdots & ddots & vdots x_ {n, 1} & cdots & x_ {n, k} end {bmatrix }}.}

Классики, частотники линейный метод наименьших квадратов решение состоит в том, чтобы просто оценить матрицу коэффициентов регрессии ${ displaystyle { hat { mathbf {B}}}}$ с использованием Мур-Пенроуз псевдообратный:

{ displaystyle { hat { mathbf {B}}} = ( mathbf {X} ^ { rm {T}} mathbf {X}) ^ {- 1} mathbf {X} ^ { rm { T}} mathbf {Y}}

.

Чтобы получить байесовское решение, нам нужно указать условное правдоподобие, а затем найти подходящее сопряженное априорное значение. Как и в одномерном случае линейная байесовская регрессия, мы обнаружим, что можем указать естественный условно-сопряженный априор (который зависит от масштаба).

Запишем нашу условную вероятность в виде^[1]

{ displaystyle rho ( mathbf {E} | { boldsymbol { Sigma}} _ { epsilon}) propto | { boldsymbol { Sigma}} _ { epsilon} | ^ {- n / 2} exp (- { frac {1} {2}} { rm {tr}} ( mathbf {E} ^ { rm {T}} mathbf {E} { boldsymbol { Sigma}} _ { epsilon} ^ {- 1})),}

запись ошибки ${ displaystyle mathbf {E}}$ с точки зрения ${ displaystyle mathbf {Y}, mathbf {X},}$ и ${ displaystyle mathbf {B}}$ дает

{ displaystyle rho ( mathbf {Y} | mathbf {X}, mathbf {B}, { boldsymbol { Sigma}} _ { epsilon}) propto | { boldsymbol { Sigma}} _ { epsilon} | ^ {- n / 2} exp (- { frac {1} {2}} { rm {tr}} (( mathbf {Y} - mathbf {X} mathbf { mathbf {B}}) ^ { rm {T}} ( mathbf {Y} - mathbf {X} mathbf { mathbf {B}}) { boldsymbol { Sigma}} _ { epsilon} ^ {-1})),}

Мы ищем естественный сопряженный априор - совместную плотность ${ Displaystyle rho ( mathbf {B}, Sigma _ { epsilon})}$ который имеет ту же функциональную форму, что и вероятность. Поскольку вероятность квадратична по ${ displaystyle mathbf {B}}$ , мы перепишем вероятность, чтобы она была нормальной в ${ displaystyle ( mathbf {B} - { hat { mathbf {B}}})}$ (отклонение от классической выборочной оценки).

Используя ту же технику, что и с Байесовская линейная регрессия, мы разлагаем экспоненциальный член, используя матричную форму метода суммы квадратов. Однако здесь нам также потребуется использовать матричное дифференциальное исчисление (Кронекер продукт и векторизация преобразования).

Во-первых, давайте применим сумму квадратов, чтобы получить новое выражение для вероятности:

{ displaystyle rho ( mathbf {Y} | mathbf {X}, mathbf {B}, { boldsymbol { Sigma}} _ { epsilon}) propto | { boldsymbol { Sigma}} _ { epsilon} | ^ {- (nk) / 2} exp (- { rm {tr}} ({ frac {1} {2}} mathbf {S} ^ { rm {T}} mathbf {S} { boldsymbol { Sigma}} _ { epsilon} ^ {- 1})) | { boldsymbol { Sigma}} _ { epsilon} | ^ {- k / 2} exp (- { frac {1} {2}} { rm {tr}} (( mathbf {B} - { hat { mathbf {B}}}) ^ { rm {T}} mathbf {X} ^ { rm {T}} mathbf {X} ( mathbf {B} - { hat { mathbf {B}}}) { boldsymbol { Sigma}} _ { epsilon} ^ {- 1} )),}

{ displaystyle mathbf {S} = mathbf {Y} - mathbf {X} { hat { mathbf {B}}}}

Мы хотели бы разработать условную форму для априорных точек:

{ displaystyle rho ( mathbf {B}, { boldsymbol { Sigma}} _ { epsilon}) = rho ({ boldsymbol { Sigma}} _ { epsilon}) rho ( mathbf { B} | { boldsymbol { Sigma}} _ { epsilon}),}

куда ${ displaystyle rho ({ boldsymbol { Sigma}} _ { epsilon})}$ является обратное распределение Вишарта и ${ displaystyle rho ( mathbf {B} | { boldsymbol { Sigma}} _ { epsilon})}$ это какая-то форма нормальное распределение в матрице ${ displaystyle mathbf {B}}$ . Это достигается с помощью векторизация преобразование, которое преобразует вероятность из функции матриц ${ displaystyle mathbf {B}, { hat { mathbf {B}}}}$ к функции векторов ${ displaystyle { boldsymbol { beta}} = { rm {vec}} ( mathbf {B}), { hat { boldsymbol { beta}}} = { rm {vec}} ({ шляпа { mathbf {B}}})}$ .

Написать

{ displaystyle { rm {tr}} (( mathbf {B} - { hat { mathbf {B}}}) ^ { rm {T}} mathbf {X} ^ { rm {T} } mathbf {X} ( mathbf {B} - { hat { mathbf {B}}}) { boldsymbol { Sigma}} _ { epsilon} ^ {- 1}) = { rm {vec }} ( mathbf {B} - { hat { mathbf {B}}}) ^ { rm {T}} { rm {vec}} ( mathbf {X} ^ { rm {T}} mathbf {X} ( mathbf {B} - { hat { mathbf {B}}}) { boldsymbol { Sigma}} _ { epsilon} ^ {- 1})}

Позволять

{ displaystyle { rm {vec}} ( mathbf {X} ^ { rm {T}} mathbf {X} ( mathbf {B} - { hat { mathbf {B}}}) { boldsymbol { Sigma}} _ { epsilon} ^ {- 1}) = ({ boldsymbol { Sigma}} _ { epsilon} ^ {- 1} otimes mathbf {X} ^ { rm {T }} mathbf {X}) { rm {vec}} ( mathbf {B} - { hat { mathbf {B}}}),}

куда ${ displaystyle mathbf {A} otimes mathbf {B}}$ обозначает Кронекер продукт матриц А и B, обобщение внешний продукт который умножает ${ Displaystyle м раз п}$ матрица ${ displaystyle p times q}$ матрица для создания ${ displaystyle mp times nq}$ матрица, состоящая из каждой комбинации произведений элементов из двух матриц.

потом

{ displaystyle { rm {vec}} ( mathbf {B} - { hat { mathbf {B}}}) ^ { rm {T}} ({ boldsymbol { Sigma}} _ { epsilon } ^ {- 1} otimes mathbf {X} ^ { rm {T}} mathbf {X}) { rm {vec}} ( mathbf {B} - { hat { mathbf {B}) }})}

{ displaystyle = ({ boldsymbol { beta}} - { hat { boldsymbol { beta}}}) ^ { rm {T}} ({ boldsymbol { Sigma}} _ { epsilon} ^ {-1} otimes mathbf {X} ^ { rm {T}} mathbf {X}) ({ boldsymbol { beta}} - { hat { boldsymbol { beta}}})}

что приведет к вероятности, которая нормальна для ${ displaystyle ({ boldsymbol { beta}} - { hat { boldsymbol { beta}}})}$ .

С вероятностью в более понятной форме, теперь мы можем найти естественное (условное) сопряжение априорной точки.

Сопряженное предварительное распределение

Натуральный конъюгат до использования векторизованной переменной ${ displaystyle { boldsymbol { beta}}}$ имеет вид:^[1]

{ displaystyle rho ({ boldsymbol { beta}}, { boldsymbol { Sigma}} _ { epsilon}) = rho ({ boldsymbol { Sigma}} _ { epsilon}) rho ( { boldsymbol { beta}} | { boldsymbol { Sigma}} _ { epsilon})}

,

куда

{ displaystyle rho ({ boldsymbol { Sigma}} _ { epsilon}) sim { mathcal {W}} ^ {- 1} ( mathbf {V_ {0}}, { boldsymbol { nu }} _ {0})}

и

{ displaystyle rho ({ boldsymbol { beta}} | { boldsymbol { Sigma}} _ { epsilon}) sim N ({ boldsymbol { beta}} _ {0}, { boldsymbol { Sigma}} _ { epsilon} otimes { boldsymbol { Lambda}} _ {0} ^ {- 1}).}

Заднее распространение

Используя вышеупомянутые априорность и вероятность, апостериорное распределение можно выразить как:^[1]

{ displaystyle rho ({ boldsymbol { beta}}, { boldsymbol { Sigma}} _ { epsilon} | mathbf {Y}, mathbf {X}) propto | { boldsymbol { Sigma }} _ { epsilon} | ^ {- ({ boldsymbol { nu}} _ {0} + m + 1) / 2} exp {(- { frac {1} {2}} { rm {tr}} ( mathbf {V_ {0}} { boldsymbol { Sigma}} _ { epsilon} ^ {- 1}))}}

{ displaystyle times | { boldsymbol { Sigma}} _ { epsilon} | ^ {- k / 2} exp {(- { frac {1} {2}} { rm {tr}} ( ( mathbf {B} - mathbf {B_ {0}}) ^ { rm {T}} { boldsymbol { Lambda}} _ {0} ( mathbf {B} - mathbf {B_ {0} }) { boldsymbol { Sigma}} _ { epsilon} ^ {- 1}))}}

{ displaystyle times | { boldsymbol { Sigma}} _ { epsilon} | ^ {- n / 2} exp {(- { frac {1} {2}} { rm {tr}} ( ( mathbf {Y} - mathbf {XB}) ^ { rm {T}} ( mathbf {Y} - mathbf {XB}) { boldsymbol { Sigma}} _ { epsilon} ^ {- 1}))},}

куда ${ displaystyle { rm {vec}} ( mathbf {B_ {0}}) = { boldsymbol { beta}} _ {0}}$ .Условия, касающиеся ${ displaystyle mathbf {B}}$ могут быть сгруппированы (с ${ displaystyle { boldsymbol { Lambda}} _ {0} = mathbf {U} ^ { rm {T}} mathbf {U}}$ ) с помощью: