Полиномиальная логистическая регрессия - Multinomial logistic regression

В статистика, полиномиальная логистическая регрессия это классификация метод, который обобщает логистическая регрессия к мультиклассовые задачи, то есть с более чем двумя возможными дискретными исходами.^[1] То есть это модель, которая используется для прогнозирования вероятностей различных возможных результатов категорически распространенный зависимая переменная, учитывая набор независимые переменные (которые могут быть действительными, двоичными, категориальными и т. д.).

Полиномиальная логистическая регрессия известна под множеством других названий, в том числе политомный LR,^[2]^[3] мультикласс LR, softmax регресс, полиномиальный логит (mlogit), максимальная энтропия (MaxEnt) классификатор, а модель условной максимальной энтропии.^[4]

Фон

Полиномиальная логистическая регрессия используется, когда зависимая переменная под вопросом номинальный (эквивалентно категоричный, что означает, что он попадает в любую из набора категорий, которые не могут быть упорядочены каким-либо значимым образом) и для которых существует более двух категорий. Вот несколько примеров:

Какую специальность выберет студент колледжа, учитывая его оценки, заявленные симпатии и антипатии и т. Д.?
Какая группа крови у человека по результатам различных диагностических тестов?
Какое имя человека произносится с учетом различных свойств речевого сигнала в приложении для набора номера с мобильного телефона без помощи рук?
За какого кандидата проголосует человек с учетом конкретных демографических характеристик?
В какой стране компания разместит офис с учетом характеристик фирмы и различных стран-кандидатов?

Это все статистическая классификация проблемы. Их всех объединяет зависимая переменная быть предсказанным, который исходит от одного из ограниченного набора элементов, которые не могут быть осмысленно упорядочены, а также набора независимые переменные (также называемые функциями, пояснителями и т. д.), которые используются для прогнозирования зависимой переменной. Полиномиальная логистическая регрессия - это частное решение проблем классификации, которое использует линейную комбинацию наблюдаемых характеристик и некоторых параметров, специфичных для задачи, для оценки вероятности каждого конкретного значения зависимой переменной. Наилучшие значения параметров для данной задачи обычно определяются на основе некоторых обучающих данных (например, некоторых людей, для которых известны как результаты диагностических тестов, так и группы крови, или некоторые примеры произнесения известных слов).

Предположения

Полиномиальная логистическая модель предполагает, что данные зависят от конкретного случая; то есть каждая независимая переменная имеет одно значение для каждого случая. Полиномиальная логистическая модель также предполагает, что зависимая переменная не может быть точно предсказана на основе независимых переменных ни в каком случае. Как и в случае с другими типами регрессии, независимые переменные не должны быть статистически независимый друг от друга (в отличие, например, от наивный байесовский классификатор ); тем не мение, коллинеарность считается относительно низким, так как становится трудно различить влияние нескольких переменных, если это не так.^[5]

Если полиномиальный логит используется для моделирования выбора, он полагается на предположение независимость от нерелевантных альтернатив (IIA), что не всегда желательно. Это предположение утверждает, что шансы предпочтения одного класса над другим не зависят от наличия или отсутствия других «нерелевантных» альтернатив. Например, относительная вероятность поехать на работу на машине или автобусе не изменится, если велосипед добавлен в качестве дополнительной возможности. Это позволяет выбрать K альтернативы, которые можно смоделировать как набор K-1 независимый бинарный вариант, в котором одна альтернатива выбирается в качестве "стержня", а другая K-1 по сравнению с ним, по одному. Гипотеза IIA - ключевая гипотеза теории рационального выбора; однако многочисленные исследования в области психологии показывают, что люди часто нарушают это предположение, делая выбор. Пример проблемного случая возникает, если выбор включает автомобиль и синий автобус. Предположим, что отношение шансов между ними составляет 1: 1. Теперь, если предлагается вариант с красным автобусом, человек может быть безразличен между красным и синим автобусом, и, следовательно, может иметь отношение шансов автомобиль: синий автобус: красный автобус. 1: 0,5: 0,5, таким образом сохраняя соотношение автомобиль: любой автобус 1: 1, при этом измененное соотношение автомобиль: синий автобус составляет 1: 0,5. Здесь вариант красного автобуса не был лишним, потому что красный автобус был идеальный заменитель для синего автобуса.

Если для моделирования выбора используется полиномиальный логит, он может в некоторых ситуациях наложить слишком много ограничений на относительные предпочтения между различными альтернативами. Этот момент особенно важно принимать во внимание, если анализ направлен на предсказание того, как изменится выбор, если одна альтернатива исчезнет (например, если один политический кандидат откажется от гонки из трех кандидатов). Другие модели, такие как вложенный логит или полиномиальный пробит могут быть использованы в тех случаях, когда допускают нарушение IIA.^[6]

Модель

Вступление

Существует несколько эквивалентных способов описания математической модели, лежащей в основе полиномиальной логистической регрессии. Это может затруднить сравнение различных трактовок предмета в разных текстах. Статья о логистическая регрессия представляет ряд эквивалентных формулировок простой логистической регрессии, и многие из них имеют аналоги в полиномиальной логит-модели.

Идея, лежащая в основе всех них, как и многих других статистическая классификация техники, состоит в том, чтобы построить функция линейного предиктора который строит счет из набора весов, которые линейно комбинированный с объясняющими переменными (характеристиками) данного наблюдения с использованием скалярное произведение:

{ displaystyle operatorname {score} ( mathbf {X} _ {i}, k) = { boldsymbol { beta}} _ {k} cdot mathbf {X} _ {i},}

куда Икс_я вектор независимых переменных, описывающих наблюдение я, β_k вектор весов (или коэффициенты регрессии ) соответствующий результат k, и оценка (Икс_я, k) - оценка, связанная с назначением наблюдения я в категорию k. В дискретный выбор теории, где наблюдения представляют людей, а результаты представляют собой выбор, оценка считается полезность связанный с человеком я выбор результата k. Прогнозируемый результат - результат с наивысшей оценкой.

Разница между полиномиальной логит-моделью и множеством других методов, моделей, алгоритмов и т. Д. С той же базовой настройкой ( перцептрон алгоритм, опорные векторные машины, линейный дискриминантный анализ и т. д.) - это процедура определения (обучения) оптимальных весов / коэффициентов и способа интерпретации оценки. В частности, в модели полиномиального логита результат можно напрямую преобразовать в значение вероятности, указывающее вероятность наблюдения я выбор результата k учитывая измеренные характеристики наблюдения. Это обеспечивает принципиальный способ включения предсказания конкретной полиномиальной логит-модели в более крупную процедуру, которая может включать несколько таких предсказаний, каждое из которых имеет вероятность ошибки. Без таких средств комбинирования прогнозов ошибки имеют тенденцию умножаться. Например, представьте себе большой прогнозная модель который разбит на серию подмоделей, в которых предсказание данной подмодели используется в качестве входных данных для другой подмодели, и это предсказание, в свою очередь, используется как входные данные для третьей подмодели и т. д. Если каждая подмодель имеет точность 90% в его прогнозы, и есть пять подмоделей в серии, то общая модель имеет только 0,9⁵ = 59% точности. Если каждая подмодель имеет точность 80%, то общая точность падает до 0,8.⁵ = 33% точности. Эта проблема известна как распространение ошибки и представляет собой серьезную проблему в реальных прогностических моделях, которые обычно состоят из множества частей. Прогнозирование вероятностей каждого возможного исхода, а не просто одно-единственное оптимальное прогнозирование, является одним из средств решения этой проблемы.^{[нужна цитата ]}

Настраивать

Базовая настройка такая же, как в логистическая регрессия, с той лишь разницей, что зависимые переменные находятся категоричный скорее, чем двоичный, т.е. есть K возможных исходов, а не только два. Следующее описание несколько сокращено; для получения более подробной информации обратитесь к логистическая регрессия статья.

Точки данных

В частности, предполагается, что у нас есть ряд N наблюдаемые точки данных. Каждая точка данных я (начиная с 1 к N) состоит из набора M объясняющие переменные Икс_{1, я} ... Икс_{М, я} (он же независимые переменные, предикторные переменные, функции и т. д.), а также связанный категоричный исход Y_я (он же зависимая переменная, переменная ответа), который может принимать одно из K возможные значения. Эти возможные значения представляют собой логически отдельные категории (например, разные политические партии, группы крови и т. Д.) И часто описываются математически путем произвольного присвоения каждой из них числа от 1 до K. Объясняющие переменные и результат представляют наблюдаемые свойства точек данных и часто считаются происходящими из наблюдений N «эксперименты» - хотя «эксперимент» может состоять не более чем в сборе данных. Целью полиномиальной логистической регрессии является построение модели, которая объясняет взаимосвязь между независимыми переменными и результатом, чтобы результат нового «эксперимента» можно было правильно спрогнозировать для новой точки данных, для которой независимые переменные, но не результат доступны. В процессе модель пытается объяснить относительное влияние различных объясняющих переменных на результат.

Некоторые примеры:

Наблюдаемые исходы представляют собой различные варианты заболевания, например: гепатит (возможно, включая «отсутствие болезни» и / или другие связанные заболевания) для группы пациентов, а объясняющие переменные могут быть характеристиками пациентов, которые считаются подходящими (пол, раса, возраст, артериальное давление, результаты различных функциональных тестов печени и др.). Затем цель состоит в том, чтобы предсказать, какое заболевание вызывает наблюдаемые симптомы, связанные с печенью, у нового пациента.
Наблюдаемые результаты - это партия, выбранная группой людей на выборах, а объясняющие переменные - демографические характеристики каждого человека (например, пол, раса, возраст, доход и т. Д.). Затем цель состоит в том, чтобы предсказать вероятный голос нового избирателя с заданными характеристиками.

Линейный предсказатель

Как и в других формах линейной регрессии, в полиномиальной логистической регрессии используется функция линейного предиктора ${ Displaystyle f (к, я)}$ предсказать вероятность того, что наблюдение я имеет результат k, следующего вида:

{ displaystyle f (k, i) = beta _ {0, k} + beta _ {1, k} x_ {1, i} + beta _ {2, k} x_ {2, i} + cdots + beta _ {M, k} x_ {M, i},}

куда ${ displaystyle beta _ {м, к}}$ это коэффициент регрессии связанный с мобъясняющая переменная и k-й исход. Как объяснено в логистическая регрессия в статье коэффициенты регрессии и независимые переменные обычно группируются в векторы размера M + 1, так что предикторную функцию можно записать более компактно:

{ displaystyle f (k, i) = { boldsymbol { beta}} _ {k} cdot mathbf {x} _ {i},}

куда ${ displaystyle { boldsymbol { beta}} _ {k}}$ - это набор коэффициентов регрессии, связанных с исходом k, и ${ Displaystyle mathbf {х} _ {я}}$ (вектор-строка) - это набор независимых переменных, связанных с наблюдением. я.

Как набор независимых бинарных регрессий

Чтобы прийти к полиномиальной логит-модели, можно представить, что для K возможные исходы, бег K-1 независимая бинарная модель логистической регрессии, в которой один результат выбирается в качестве «точки поворота», а затем другой K-1 результат отдельно регрессирует по отношению к исходному результату. Это будет происходить следующим образом, если исход K (Последний результат) выбран в качестве оси поворота:

{ displaystyle { begin {align} ln { frac { Pr (Y_ {i} = 1)} { Pr (Y_ {i} = K)}} & = { boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i} ln { frac { Pr (Y_ {i} = 2)} { Pr (Y_ {i} = K)}} & = { boldsymbol { beta}} _ {2} cdot mathbf {X} _ {i} cdots & cdots ln { frac { Pr (Y_ {i} = K-1)} { Pr (Y_ {i} = K)}} & = { boldsymbol { beta}} _ {K-1} cdot mathbf {X} _ {i} конец {выровнено}}}

Обратите внимание, что мы ввели отдельные наборы коэффициентов регрессии, по одному для каждого возможного результата.

Если мы возведем в степень обе стороны и решим вероятности, мы получим:

{ Displaystyle { begin {align} Pr (Y_ {i} = 1) & = { Pr (Y_ {i} = K)} e ^ {{ boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i}} Pr (Y_ {i} = 2) & = { Pr (Y_ {i} = K)} e ^ {{ boldsymbol { beta}} _ {2 } cdot mathbf {X} _ {i}} cdots & cdots Pr (Y_ {i} = K-1) & = { Pr (Y_ {i} = K)} e ^ {{ boldsymbol { beta}} _ {K-1} cdot mathbf {X} _ {i}} конец {выровнено}}}

Используя тот факт, что все K из вероятностей должны быть в сумме равны единице, мы находим:

{ Displaystyle Pr (Y_ {я} = К) = 1- сумма _ {к = 1} ^ {K-1} Pr (Y_ {я} = к) = 1- сумма _ {к = 1 } ^ {K-1} { Pr (Y_ {i} = K)} e ^ {{ boldsymbol { beta}} _ {k} cdot mathbf {X} _ {i}} Rightarrow Pr (Y_ {i} = K) = { frac {1} {1+ sum _ {k = 1} ^ {K-1} e ^ {{ boldsymbol { beta}} _ {k} cdot mathbf {X} _ {i}}}}}

Мы можем использовать это, чтобы найти другие вероятности:

{ displaystyle { begin {align} Pr (Y_ {i} = 1) & = { frac {e ^ {{ boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i }}} {1+ sum _ {k = 1} ^ {K-1} e ^ {{ boldsymbol { beta}} _ {k} cdot mathbf {X} _ {i}}}} Pr (Y_ {i} = 2) & = { frac {e ^ {{ boldsymbol { beta}} _ {2} cdot mathbf {X} _ {i}}} {1+ sum _ {k = 1} ^ {K-1} e ^ {{ boldsymbol { beta}} _ {k} cdot mathbf {X} _ {i}}}} cdots & cdots Pr (Y_ {i} = K-1) & = { frac {e ^ {{ boldsymbol { beta}} _ {K-1} cdot mathbf {X} _ {i}}} {1+ sum _ {k = 1} ^ {K-1} e ^ {{ boldsymbol { beta}} _ {k} cdot mathbf {X} _ {i}}}} конец {выровнено}}}

Тот факт, что мы запускаем множественные регрессии, показывает, почему модель основана на предположении независимость от нерелевантных альтернатив описано выше.

Оценка коэффициентов

Неизвестные параметры в каждом векторе β_k обычно оцениваются совместно максимум апостериори (MAP) оценка, которая является расширением максимальная вероятность с помощью регуляризация весов для предотвращения патологических решений (обычно квадрат регуляризующей функции, что эквивалентно помещению нулевого среднего Гауссовский предварительное распространение от весов, но возможны и другие распределения). Решение обычно находится с использованием итерационной процедуры, такой как обобщенное итеративное масштабирование,^[7] методом наименьших квадратов с повторным взвешиванием (IRLS),^[8] посредством оптимизация на основе градиента такие алгоритмы как L-BFGS,^[4] или специализированными координатный спуск алгоритмы.^[9]

Как лог-линейная модель

Формулировка бинарной логистической регрессии как лог-линейная модель может быть непосредственно расширен до многофакторной регрессии. То есть мы моделируем логарифм вероятности увидеть заданный результат с использованием линейного предиктора, а также дополнительного коэффициент нормализации, логарифм функция распределения:

{ displaystyle { begin {align} ln Pr (Y_ {i} = 1) & = { boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i} - ln Z , ln Pr (Y_ {i} = 2) & = { boldsymbol { beta}} _ {2} cdot mathbf {X} _ {i} - ln Z , cdots & cdots ln Pr (Y_ {i} = K) & = { boldsymbol { beta}} _ {K} cdot mathbf {X} _ {i} - ln Z , конец {выровнено}}}

Как и в двоичном случае, нам нужен дополнительный член ${ displaystyle - ln Z}$ чтобы гарантировать, что весь набор вероятностей образует распределение вероятностей, т.е. так, чтобы все они были в сумме:

{ Displaystyle сумма _ {к = 1} ^ {K} Pr (Y_ {i} = k) = 1}

Причина, по которой нам нужно добавить член для обеспечения нормализации, а не умножать, как обычно, заключается в том, что мы взяли логарифм вероятностей. Возведение в степень обе стороны превращает аддитивный член в мультипликативный множитель, так что вероятность равна Мера Гиббса:

{ Displaystyle { begin {align} Pr (Y_ {i} = 1) & = { frac {1} {Z}} e ^ {{ boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i}} , Pr (Y_ {i} = 2) & = { frac {1} {Z}} e ^ {{ boldsymbol { beta}} _ {2} cdot mathbf {X} _ {i}} , cdots & cdots Pr (Y_ {i} = K) & = { frac {1} {Z}} e ^ {{ boldsymbol { beta}} _ {K} cdot mathbf {X} _ {i}} , конец {выровнено}}}

Количество Z называется функция распределения для раздачи. Мы можем вычислить значение статистической суммы, применив указанное выше ограничение, которое требует суммирования всех вероятностей до 1:

{ Displaystyle { begin {align} 1 = sum _ {k = 1} ^ {K} Pr (Y_ {i} = k) & = sum _ {k = 1} ^ {K} { frac {1} {Z}} e ^ {{ boldsymbol { beta}} _ {k} cdot mathbf {X} _ {i}} & = { frac {1} {Z}} sum _ {k = 1} ^ {K} e ^ {{ boldsymbol { beta}} _ {k} cdot mathbf {X} _ {i}} конец {выровнено}}}

Следовательно:

{ displaystyle Z = sum _ {k = 1} ^ {K} e ^ {{ boldsymbol { beta}} _ {k} cdot mathbf {X} _ {i}}}

Обратите внимание, что этот коэффициент является «постоянным» в том смысле, что он не является функцией Y_я, которая является переменной, по которой определяется распределение вероятностей. Однако он определенно не является постоянным по отношению к объясняющим переменным или, что особенно важно, по отношению к неизвестным коэффициентам регрессии. β_k, который нам нужно будет определить с помощью какого-то оптимизация процедура.

Полученные уравнения для вероятностей:

{ displaystyle { begin {align} Pr (Y_ {i} = 1) & = { frac {e ^ {{ boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i }}} { sum _ {k = 1} ^ {K} e ^ {{ boldsymbol { beta}} _ {k} cdot mathbf {X} _ {i}}}} , Pr (Y_ {i} = 2) & = { frac {e ^ {{ boldsymbol { beta}} _ {2} cdot mathbf {X} _ {i}}} { sum _ {k = 1} ^ {K} e ^ {{ boldsymbol { beta}} _ {k} cdot mathbf {X} _ {i}}}} , cdots & cdots Pr (Y_ {i} = K) & = { frac {e ^ {{ boldsymbol { beta}} _ {K} cdot mathbf {X} _ {i}}} { sum _ {k = 1} ^ {K} e ^ {{ boldsymbol { beta}} _ {k} cdot mathbf {X} _ {i}}}} , конец {выровнено}}}

Или вообще:

{ displaystyle Pr (Y_ {i} = c) = { frac {e ^ {{ boldsymbol { beta}} _ {c} cdot mathbf {X} _ {i}}} { sum _ {k = 1} ^ {K} e ^ {{ boldsymbol { beta}} _ {k} cdot mathbf {X} _ {i}}}}}

Следующая функция:

{ displaystyle operatorname {softmax} (k, x_ {1}, ldots, x_ {n}) = { frac {e ^ {x_ {k}}} { sum _ {i = 1} ^ {n } е ^ {x_ {i}}}}}

называется функция softmax. Причина в том, что эффект возведения значений в степень ${ displaystyle x_ {1}, ldots, x_ {n}}$ заключается в преувеличении различий между ними. Как результат, ${ displaystyle operatorname {softmax} (k, x_ {1}, ldots, x_ {n})}$ вернет значение, близкое к 0, когда ${ displaystyle x_ {k}}$ значительно меньше максимального из всех значений и будет возвращать значение, близкое к 1 при применении к максимальному значению, если оно не очень близко к следующему по величине значению. Таким образом, функцию softmax можно использовать для построения средневзвешенное ведет себя как гладкая функция (что может быть удобно дифференцированный и т. д.) и что приблизительно соответствует индикаторная функция

{ displaystyle f (k) = { begin {cases} 1 ; { textrm {if}} ; k = operatorname { arg max} (x_ {1}, ldots, x_ {n}) , 0 ; { textrm {иначе}}. End {case}}}

Таким образом, мы можем записать вероятностные уравнения в виде

{ displaystyle Pr (Y_ {i} = c) = operatorname {softmax} (c, { boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i}, ldots, { boldsymbol { beta}} _ {K} cdot mathbf {X} _ {i})}

Таким образом, функция softmax служит эквивалентом логистическая функция в бинарной логистической регрессии.

Обратите внимание, что не все ${ displaystyle beta _ {k}}$ векторы коэффициентов однозначно идентифицируемый. Это связано с тем, что все вероятности должны в сумме равняться 1, что делает одну из них полностью определенной, когда известны все остальные. В итоге осталось только ${ displaystyle k-1}$ отдельно определяемые вероятности, и, следовательно, ${ displaystyle k-1}$ отдельно идентифицируемые векторы коэффициентов. Один из способов увидеть это - заметить, что если мы добавим постоянный вектор ко всем векторам коэффициентов, уравнения будут идентичными:

{ displaystyle { begin {align} { frac {e ^ {({ boldsymbol { beta}} _ {c} + C) cdot mathbf {X} _ {i}}} { sum _ { k = 1} ^ {K} e ^ {({ boldsymbol { beta}} _ {k} + C) cdot mathbf {X} _ {i}}}} & = { frac {e ^ { { boldsymbol { beta}} _ {c} cdot mathbf {X} _ {i}} e ^ {C cdot mathbf {X} _ {i}}} { sum _ {k = 1} ^ {K} e ^ {{ boldsymbol { beta}} _ {k} cdot mathbf {X} _ {i}} e ^ {C cdot mathbf {X} _ {i}}}} & = { frac {e ^ {C cdot mathbf {X} _ {i}} e ^ {{ boldsymbol { beta}} _ {c} cdot mathbf {X} _ {i}} } {e ^ {C cdot mathbf {X} _ {i}} sum _ {k = 1} ^ {K} e ^ {{ boldsymbol { beta}} _ {k} cdot mathbf { X} _ {i}}}} & = { frac {e ^ {{ boldsymbol { beta}} _ {c} cdot mathbf {X} _ {i}}} { sum _ { k = 1} ^ {K} e ^ {{ boldsymbol { beta}} _ {k} cdot mathbf {X} _ {i}}}} end {выравнивается}}}

В результате принято устанавливать ${ displaystyle C = - { boldsymbol { beta}} _ {K}}$ (или, альтернативно, один из других векторов коэффициентов). По сути, мы устанавливаем константу так, чтобы один из векторов стал 0, а все другие векторы преобразовывались в разность между этими векторами и выбранным нами вектором. Это эквивалентно «повороту» вокруг одного из K выбор и изучение того, насколько лучше или хуже все остальные K-1 вариант относительно выбора, вокруг которого мы вращаемся. Математически преобразовываем коэффициенты следующим образом:

{ displaystyle { begin {align} { boldsymbol { beta}} '_ {1} & = { boldsymbol { beta}} _ {1} - { boldsymbol { beta}} _ {K} cdots & cdots { boldsymbol { beta}} '_ {K-1} & = { boldsymbol { beta}} _ {K-1} - { boldsymbol { beta}} _ { K} { boldsymbol { beta}} '_ {K} & = 0 end {align}}}

Это приводит к следующим уравнениям:

{ displaystyle { begin {align} Pr (Y_ {i} = 1) & = { frac {e ^ {{ boldsymbol { beta}} '_ {1} cdot mathbf {X} _ { i}}} {1+ sum _ {k = 1} ^ {K-1} e ^ {{ boldsymbol { beta}} '_ {k} cdot mathbf {X} _ {i}}} } , cdots & cdots Pr (Y_ {i} = K-1) & = { frac {e ^ {{ boldsymbol { beta}} '_ {K-1} cdot mathbf {X} _ {i}}} {1+ sum _ {k = 1} ^ {K-1} e ^ {{ boldsymbol { beta}} '_ {k} cdot mathbf {X } _ {i}}}} , Pr (Y_ {i} = K) & = { frac {1} {1+ sum _ {k = 1} ^ {K-1} e ^ { { boldsymbol { beta}} '_ {k} cdot mathbf {X} _ {i}}}} , конец {выровнено}}}

За исключением символов штриха в коэффициентах регрессии, это точно такая же форма модели, как описанная выше, с точки зрения K-1 независимая двусторонняя регрессия.

Как модель со скрытыми переменными

Также можно сформулировать полиномиальную логистическую регрессию как модель скрытых переменных, следуя двусторонняя модель скрытых переменных описан для бинарной логистической регрессии. Эта формулировка распространена в теории дискретный выбор модели, и упрощает сравнение полиномиальной логистической регрессии с соответствующими полиномиальный пробит модель, а также распространить ее на более сложные модели.

Представьте, что для каждой точки данных я и возможный исход к = 1,2, ..., Ксуществует непрерывный скрытая переменная Y_{я, к}^* (т.е. ненаблюдаемый случайная переменная ), который распределяется следующим образом:

{ displaystyle { begin {align} Y_ {i, 1} ^ { ast} & = { boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i} + varepsilon _ { 1} , Y_ {i, 2} ^ { ast} & = { boldsymbol { beta}} _ {2} cdot mathbf {X} _ {i} + varepsilon _ {2} , cdots & Y_ {i, K} ^ { ast} & = { boldsymbol { beta}} _ {K} cdot mathbf {X} _ {i} + varepsilon _ {K } , конец {выровнено}}}

куда ${ displaystyle varepsilon _ {k} sim operatorname {EV} _ {1} (0,1),}$ т.е. стандартный тип-1 распределение экстремальных значений.

Эту скрытую переменную можно рассматривать как полезность связанный с точкой данных я выбор результата k, где есть некоторая случайность в фактической величине полученной полезности, которая учитывает другие немоделированные факторы, влияющие на выбор. Значение фактической переменной ${ displaystyle Y_ {i}}$ затем определяется неслучайным образом из этих скрытых переменных (т.е. случайность была перенесена из наблюдаемых результатов в скрытые переменные), где результат k выбирается тогда и только тогда, когда связанная полезность (значение ${ Displaystyle Y_ {я, k} ^ { ast}}$ ) больше, чем полезность всех других вариантов, т.е. если полезность, связанная с результатом k это максимум из всех утилит. Поскольку скрытые переменные непрерывный, вероятность того, что у двух будет одно и то же значение, равна 0, поэтому мы игнорируем сценарий. То есть:

{ displaystyle { begin {align} Pr (Y_ {i} = 1) & = Pr (Y_ {i, 1} ^ { ast}> Y_ {i, 2} ^ { ast} { text {и}} Y_ {i, 1} ^ { ast}> Y_ {i, 3} ^ { ast} { text {and}} cdots { text {and}} Y_ {i, 1} ^ { ast}> Y_ {i, K} ^ { ast}) Pr (Y_ {i} = 2) & = Pr (Y_ {i, 2} ^ { ast}> Y_ {i, 1} ^ { ast} { text {и}} Y_ {i, 2} ^ { ast}> Y_ {i, 3} ^ { ast} { text {и}} cdots { text { и}} Y_ {i, 2} ^ { ast}> Y_ {i, K} ^ { ast}) cdots & Pr (Y_ {i} = K) & = Pr (Y_ {i, K} ^ { ast}> Y_ {i, 1} ^ { ast} { text {and}} Y_ {i, K} ^ { ast}> Y_ {i, 2} ^ { ast} { text {and}} cdots { text {and}} Y_ {i, K} ^ { ast}> Y_ {i, K-1} ^ { ast}) end {выровнено }}}

Или эквивалентно:

{ displaystyle { begin {align} Pr (Y_ {i} = 1) & = Pr ( max (Y_ {i, 1} ^ { ast}, Y_ {i, 2} ^ { ast} , ldots, Y_ {i, K} ^ { ast}) = Y_ {i, 1} ^ { ast}) Pr (Y_ {i} = 2) & = Pr ( max (Y_ {i, 1} ^ { ast}, Y_ {i, 2} ^ { ast}, ldots, Y_ {i, K} ^ { ast}) = Y_ {i, 2} ^ { ast} ) cdots & Pr (Y_ {i} = K) & = Pr ( max (Y_ {i, 1} ^ { ast}, Y_ {i, 2} ^ { ast}, ldots, Y_ {i, K} ^ { ast}) = Y_ {i, K} ^ { ast}) конец {выровнено}}}

Давайте более внимательно рассмотрим первое уравнение, которое мы можем записать следующим образом:

{ Displaystyle { begin {align} Pr (Y_ {i} = 1) & = Pr (Y_ {i, 1} ^ { ast}> Y_ {i, k} ^ { ast} forall k = 2, ldots, K) & = Pr (Y_ {i, 1} ^ { ast} -Y_ {i, k} ^ { ast}> 0 forall k = 2, ldots, K) & = Pr ({ boldsymbol { beta}} _ {1} cdot mathbf {X} _ {i} + varepsilon _ {1} - ({ boldsymbol { beta }} _ {k} cdot mathbf {X} _ {i} + varepsilon _ {k})> 0 forall k = 2, ldots, K) & = Pr (({ boldsymbol { beta}} _ {1} - { boldsymbol { beta}} _ {k}) cdot mathbf {X} _ {i}> varepsilon _ {k} - varepsilon _ {1} forall k = 2, ldots, K) end {align}}}

Здесь нужно понять несколько вещей:

В общем, если ${ displaystyle X sim operatorname {EV} _ {1} (a, b)}$ и ${ displaystyle Y sim operatorname {EV} _ {1} (a, b)}$ тогда ${ displaystyle X-Y sim operatorname {Logistic} (0, b).}$ То есть разница двух независимые одинаково распределенные переменные с распределением экстремальных значений следуют логистическая дистрибуция, где первый параметр не важен. Это понятно, поскольку первый параметр - это параметр местоположения, то есть сдвигает среднее значение на фиксированную величину, и если оба значения сдвигаются на одинаковую величину, их разница остается неизменной. Это означает, что все относительные утверждения, лежащие в основе вероятности данного выбора, включают логистическое распределение, которое делает первоначальный выбор распределения экстремальных значений, который казался довольно произвольным, несколько более понятным.
Второй параметр в экстремальном или логистическом распределении - это масштабный параметр, так что если ${ Displaystyle X sim Operatorname {Логистика} (0,1)}$ тогда ${ displaystyle bX sim operatorname {Logistic} (0, b).}$ Это означает, что эффект от использования переменной ошибки с произвольным параметром масштаба вместо масштаба 1 может быть компенсирован простым умножением всех векторов регрессии на тот же масштаб. Вместе с предыдущим пунктом это показывает, что использование стандартного распределения экстремальных значений (положение 0, масштаб 1) для переменных ошибок не влечет за собой потери общности по сравнению с использованием произвольного распределения экстремальных значений. На самом деле модель неидентифицируемый (нет единого набора оптимальных коэффициентов), если используется более общее распределение.
Поскольку используются только разности векторов коэффициентов регрессии, добавление произвольной константы ко всем векторам коэффициентов не влияет на модель. Это означает, что, как и в лог-линейной модели, только K-1 из векторов коэффициентов идентифицируемы, а последний может иметь произвольное значение (например, 0).

На самом деле найти значения вышеперечисленных вероятностей несколько сложно, и это проблема вычисления конкретного статистика заказов (первое, т.е. максимальное) из набора значений. Однако можно показать, что полученные выражения такие же, как в приведенных выше формулировках, то есть два эквивалентны.

Оценка перехвата

При использовании полиномиальной логистической регрессии одна категория зависимой переменной выбирается в качестве ссылочной категории. Отдельный отношения шансов определяются для всех независимых переменных для каждой категории зависимой переменной, за исключением ссылочной категории, которая не включается в анализ. Экспоненциальный бета-коэффициент представляет собой изменение шансов нахождения зависимой переменной в определенной категории по сравнению с эталонной категорией, связанное с изменением на одну единицу соответствующей независимой переменной.

Применение в обработке естественного языка

В обработка естественного языка, полиномиальные классификаторы LR обычно используются в качестве альтернативы наивные байесовские классификаторы потому что они не предполагают статистическая независимость случайных величин (широко известных как Особенности), которые служат предикторами. Однако обучение в такой модели происходит медленнее, чем в наивном байесовском классификаторе, и, следовательно, может не подходить для изучения очень большого количества классов. В частности, обучение в наивном байесовском классификаторе - это простой вопрос подсчета количества одновременных вхождений функций и классов, в то время как в классификаторе максимальной энтропии веса, которые обычно максимизируются с использованием максимум апостериори (MAP) оценка должна быть изучена с помощью итеративной процедуры; видеть # Оценка коэффициентов.