Полиномиальная логистическая регрессия - Multinomial logistic regression
Эта статья нужны дополнительные цитаты для проверка.Ноябрь 2011 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
Часть серии по |
Регрессивный анализ |
---|
Модели |
Оценка |
Фон |
|
В статистика, полиномиальная логистическая регрессия это классификация метод, который обобщает логистическая регрессия к мультиклассовые задачи, то есть с более чем двумя возможными дискретными исходами.[1] То есть это модель, которая используется для прогнозирования вероятностей различных возможных результатов категорически распространенный зависимая переменная, учитывая набор независимые переменные (которые могут быть действительными, двоичными, категориальными и т. д.).
Полиномиальная логистическая регрессия известна под множеством других названий, в том числе политомный LR,[2][3] мультикласс LR, softmax регресс, полиномиальный логит (mlogit), максимальная энтропия (MaxEnt) классификатор, а модель условной максимальной энтропии.[4]
Фон
Полиномиальная логистическая регрессия используется, когда зависимая переменная под вопросом номинальный (эквивалентно категоричный, что означает, что он попадает в любую из набора категорий, которые не могут быть упорядочены каким-либо значимым образом) и для которых существует более двух категорий. Вот несколько примеров:
- Какую специальность выберет студент колледжа, учитывая его оценки, заявленные симпатии и антипатии и т. Д.?
- Какая группа крови у человека по результатам различных диагностических тестов?
- Какое имя человека произносится с учетом различных свойств речевого сигнала в приложении для набора номера с мобильного телефона без помощи рук?
- За какого кандидата проголосует человек с учетом конкретных демографических характеристик?
- В какой стране компания разместит офис с учетом характеристик фирмы и различных стран-кандидатов?
Это все статистическая классификация проблемы. Их всех объединяет зависимая переменная быть предсказанным, который исходит от одного из ограниченного набора элементов, которые не могут быть осмысленно упорядочены, а также набора независимые переменные (также называемые функциями, пояснителями и т. д.), которые используются для прогнозирования зависимой переменной. Полиномиальная логистическая регрессия - это частное решение проблем классификации, которое использует линейную комбинацию наблюдаемых характеристик и некоторых параметров, специфичных для задачи, для оценки вероятности каждого конкретного значения зависимой переменной. Наилучшие значения параметров для данной задачи обычно определяются на основе некоторых обучающих данных (например, некоторых людей, для которых известны как результаты диагностических тестов, так и группы крови, или некоторые примеры произнесения известных слов).
Предположения
Полиномиальная логистическая модель предполагает, что данные зависят от конкретного случая; то есть каждая независимая переменная имеет одно значение для каждого случая. Полиномиальная логистическая модель также предполагает, что зависимая переменная не может быть точно предсказана на основе независимых переменных ни в каком случае. Как и в случае с другими типами регрессии, независимые переменные не должны быть статистически независимый друг от друга (в отличие, например, от наивный байесовский классификатор ); тем не мение, коллинеарность считается относительно низким, так как становится трудно различить влияние нескольких переменных, если это не так.[5]
Если полиномиальный логит используется для моделирования выбора, он полагается на предположение независимость от нерелевантных альтернатив (IIA), что не всегда желательно. Это предположение утверждает, что шансы предпочтения одного класса над другим не зависят от наличия или отсутствия других «нерелевантных» альтернатив. Например, относительная вероятность поехать на работу на машине или автобусе не изменится, если велосипед добавлен в качестве дополнительной возможности. Это позволяет выбрать K альтернативы, которые можно смоделировать как набор K-1 независимый бинарный вариант, в котором одна альтернатива выбирается в качестве "стержня", а другая K-1 по сравнению с ним, по одному. Гипотеза IIA - ключевая гипотеза теории рационального выбора; однако многочисленные исследования в области психологии показывают, что люди часто нарушают это предположение, делая выбор. Пример проблемного случая возникает, если выбор включает автомобиль и синий автобус. Предположим, что отношение шансов между ними составляет 1: 1. Теперь, если предлагается вариант с красным автобусом, человек может быть безразличен между красным и синим автобусом, и, следовательно, может иметь отношение шансов автомобиль: синий автобус: красный автобус. 1: 0,5: 0,5, таким образом сохраняя соотношение автомобиль: любой автобус 1: 1, при этом измененное соотношение автомобиль: синий автобус составляет 1: 0,5. Здесь вариант красного автобуса не был лишним, потому что красный автобус был идеальный заменитель для синего автобуса.
Если для моделирования выбора используется полиномиальный логит, он может в некоторых ситуациях наложить слишком много ограничений на относительные предпочтения между различными альтернативами. Этот момент особенно важно принимать во внимание, если анализ направлен на предсказание того, как изменится выбор, если одна альтернатива исчезнет (например, если один политический кандидат откажется от гонки из трех кандидатов). Другие модели, такие как вложенный логит или полиномиальный пробит могут быть использованы в тех случаях, когда допускают нарушение IIA.[6]
Модель
Вступление
Существует несколько эквивалентных способов описания математической модели, лежащей в основе полиномиальной логистической регрессии. Это может затруднить сравнение различных трактовок предмета в разных текстах. Статья о логистическая регрессия представляет ряд эквивалентных формулировок простой логистической регрессии, и многие из них имеют аналоги в полиномиальной логит-модели.
Идея, лежащая в основе всех них, как и многих других статистическая классификация техники, состоит в том, чтобы построить функция линейного предиктора который строит счет из набора весов, которые линейно комбинированный с объясняющими переменными (характеристиками) данного наблюдения с использованием скалярное произведение:
куда Икся вектор независимых переменных, описывающих наблюдение я, βk вектор весов (или коэффициенты регрессии ) соответствующий результат k, и оценка (Икся, k) - оценка, связанная с назначением наблюдения я в категорию k. В дискретный выбор теории, где наблюдения представляют людей, а результаты представляют собой выбор, оценка считается полезность связанный с человеком я выбор результата k. Прогнозируемый результат - результат с наивысшей оценкой.
Разница между полиномиальной логит-моделью и множеством других методов, моделей, алгоритмов и т. Д. С той же базовой настройкой ( перцептрон алгоритм, опорные векторные машины, линейный дискриминантный анализ и т. д.) - это процедура определения (обучения) оптимальных весов / коэффициентов и способа интерпретации оценки. В частности, в модели полиномиального логита результат можно напрямую преобразовать в значение вероятности, указывающее вероятность наблюдения я выбор результата k учитывая измеренные характеристики наблюдения. Это обеспечивает принципиальный способ включения предсказания конкретной полиномиальной логит-модели в более крупную процедуру, которая может включать несколько таких предсказаний, каждое из которых имеет вероятность ошибки. Без таких средств комбинирования прогнозов ошибки имеют тенденцию умножаться. Например, представьте себе большой прогнозная модель который разбит на серию подмоделей, в которых предсказание данной подмодели используется в качестве входных данных для другой подмодели, и это предсказание, в свою очередь, используется как входные данные для третьей подмодели и т. д. Если каждая подмодель имеет точность 90% в его прогнозы, и есть пять подмоделей в серии, то общая модель имеет только 0,95 = 59% точности. Если каждая подмодель имеет точность 80%, то общая точность падает до 0,8.5 = 33% точности. Эта проблема известна как распространение ошибки и представляет собой серьезную проблему в реальных прогностических моделях, которые обычно состоят из множества частей. Прогнозирование вероятностей каждого возможного исхода, а не просто одно-единственное оптимальное прогнозирование, является одним из средств решения этой проблемы.[нужна цитата ]
Настраивать
Базовая настройка такая же, как в логистическая регрессия, с той лишь разницей, что зависимые переменные находятся категоричный скорее, чем двоичный, т.е. есть K возможных исходов, а не только два. Следующее описание несколько сокращено; для получения более подробной информации обратитесь к логистическая регрессия статья.
Точки данных
В частности, предполагается, что у нас есть ряд N наблюдаемые точки данных. Каждая точка данных я (начиная с 1 к N) состоит из набора M объясняющие переменные Икс1, я ... ИксМ, я (он же независимые переменные, предикторные переменные, функции и т. д.), а также связанный категоричный исход Yя (он же зависимая переменная, переменная ответа), который может принимать одно из K возможные значения. Эти возможные значения представляют собой логически отдельные категории (например, разные политические партии, группы крови и т. Д.) И часто описываются математически путем произвольного присвоения каждой из них числа от 1 до K. Объясняющие переменные и результат представляют наблюдаемые свойства точек данных и часто считаются происходящими из наблюдений N «эксперименты» - хотя «эксперимент» может состоять не более чем в сборе данных. Целью полиномиальной логистической регрессии является построение модели, которая объясняет взаимосвязь между независимыми переменными и результатом, чтобы результат нового «эксперимента» можно было правильно спрогнозировать для новой точки данных, для которой независимые переменные, но не результат доступны. В процессе модель пытается объяснить относительное влияние различных объясняющих переменных на результат.
Некоторые примеры:
- Наблюдаемые исходы представляют собой различные варианты заболевания, например: гепатит (возможно, включая «отсутствие болезни» и / или другие связанные заболевания) для группы пациентов, а объясняющие переменные могут быть характеристиками пациентов, которые считаются подходящими (пол, раса, возраст, артериальное давление, результаты различных функциональных тестов печени и др.). Затем цель состоит в том, чтобы предсказать, какое заболевание вызывает наблюдаемые симптомы, связанные с печенью, у нового пациента.
- Наблюдаемые результаты - это партия, выбранная группой людей на выборах, а объясняющие переменные - демографические характеристики каждого человека (например, пол, раса, возраст, доход и т. Д.). Затем цель состоит в том, чтобы предсказать вероятный голос нового избирателя с заданными характеристиками.
Линейный предсказатель
Как и в других формах линейной регрессии, в полиномиальной логистической регрессии используется функция линейного предиктора предсказать вероятность того, что наблюдение я имеет результат k, следующего вида:
куда это коэффициент регрессии связанный с мобъясняющая переменная и k-й исход. Как объяснено в логистическая регрессия в статье коэффициенты регрессии и независимые переменные обычно группируются в векторы размера M + 1, так что предикторную функцию можно записать более компактно:
куда - это набор коэффициентов регрессии, связанных с исходом k, и (вектор-строка) - это набор независимых переменных, связанных с наблюдением. я.
Как набор независимых бинарных регрессий
Чтобы прийти к полиномиальной логит-модели, можно представить, что для K возможные исходы, бег K-1 независимая бинарная модель логистической регрессии, в которой один результат выбирается в качестве «точки поворота», а затем другой K-1 результат отдельно регрессирует по отношению к исходному результату. Это будет происходить следующим образом, если исход K (Последний результат) выбран в качестве оси поворота:
Обратите внимание, что мы ввели отдельные наборы коэффициентов регрессии, по одному для каждого возможного результата.
Если мы возведем в степень обе стороны и решим вероятности, мы получим:
Используя тот факт, что все K из вероятностей должны быть в сумме равны единице, мы находим:
Мы можем использовать это, чтобы найти другие вероятности:
Тот факт, что мы запускаем множественные регрессии, показывает, почему модель основана на предположении независимость от нерелевантных альтернатив описано выше.
Оценка коэффициентов
Неизвестные параметры в каждом векторе βk обычно оцениваются совместно максимум апостериори (MAP) оценка, которая является расширением максимальная вероятность с помощью регуляризация весов для предотвращения патологических решений (обычно квадрат регуляризующей функции, что эквивалентно помещению нулевого среднего Гауссовский предварительное распространение от весов, но возможны и другие распределения). Решение обычно находится с использованием итерационной процедуры, такой как обобщенное итеративное масштабирование,[7] методом наименьших квадратов с повторным взвешиванием (IRLS),[8] посредством оптимизация на основе градиента такие алгоритмы как L-BFGS,[4] или специализированными координатный спуск алгоритмы.[9]
Как лог-линейная модель
Формулировка бинарной логистической регрессии как лог-линейная модель может быть непосредственно расширен до многофакторной регрессии. То есть мы моделируем логарифм вероятности увидеть заданный результат с использованием линейного предиктора, а также дополнительного коэффициент нормализации, логарифм функция распределения:
Как и в двоичном случае, нам нужен дополнительный член чтобы гарантировать, что весь набор вероятностей образует распределение вероятностей, т.е. так, чтобы все они были в сумме:
Причина, по которой нам нужно добавить член для обеспечения нормализации, а не умножать, как обычно, заключается в том, что мы взяли логарифм вероятностей. Возведение в степень обе стороны превращает аддитивный член в мультипликативный множитель, так что вероятность равна Мера Гиббса:
Количество Z называется функция распределения для раздачи. Мы можем вычислить значение статистической суммы, применив указанное выше ограничение, которое требует суммирования всех вероятностей до 1:
Следовательно:
Обратите внимание, что этот коэффициент является «постоянным» в том смысле, что он не является функцией Yя, которая является переменной, по которой определяется распределение вероятностей. Однако он определенно не является постоянным по отношению к объясняющим переменным или, что особенно важно, по отношению к неизвестным коэффициентам регрессии. βk, который нам нужно будет определить с помощью какого-то оптимизация процедура.
Полученные уравнения для вероятностей:
Или вообще:
Следующая функция:
называется функция softmax. Причина в том, что эффект возведения значений в степень заключается в преувеличении различий между ними. Как результат, вернет значение, близкое к 0, когда значительно меньше максимального из всех значений и будет возвращать значение, близкое к 1 при применении к максимальному значению, если оно не очень близко к следующему по величине значению. Таким образом, функцию softmax можно использовать для построения средневзвешенное ведет себя как гладкая функция (что может быть удобно дифференцированный и т. д.) и что приблизительно соответствует индикаторная функция