Наивный байесовский классификатор - Naive Bayes classifier - Wikipedia

В статистика, Наивные байесовские классификаторы семья простых "вероятностные классификаторы "на основе применения Теорема Байеса с сильным (наивным) независимость предположения между функциями. Они одни из самых простых Байесовская сеть модели[1] но в сочетании с Оценка плотности ядра, они могут достичь более высокого уровня точности.[2][3]

Наивные байесовские классификаторы обладают высокой масштабируемостью, требуя ряда параметров, линейных по количеству переменных (характеристик / предикторов) в задаче обучения. Максимальная вероятность обучение может проводиться путем оценки выражение в закрытой форме,[4]:718 который берет линейное время, а не дорогими итерационное приближение как используется для многих других типов классификаторов.

в статистика и Информатика В литературе наивные байесовские модели известны под разными именами, в том числе простой байесовский и независимость Байеса.[5] Все эти имена ссылаются на использование теоремы Байеса в решающем правиле классификатора, но наивный Байес не (обязательно) Байесовский метод.[4][5]

Вступление

Наивный байесовский метод - это простой метод построения классификаторов: моделей, которые присваивают метки классов экземплярам проблемы, представленные как векторы особенность values, где метки классов взяты из некоторого конечного набора. Нет ни одного алгоритм для обучения таких классификаторов, но это семейство алгоритмов, основанное на общем принципе: все наивные байесовские классификаторы предполагают, что значение определенного признака независимый значения любой другой функции с учетом переменной класса. Например, фрукт может считаться яблоком, если он красный, круглый и имеет диаметр около 10 см. Наивный байесовский классификатор считает, что каждая из этих характеристик независимо влияет на вероятность того, что этот фрукт является яблоком, независимо от любых возможных корреляции между характеристиками цвета, округлости и диаметра.

Для некоторых типов вероятностных моделей наивные байесовские классификаторы можно очень эффективно обучать в контролируемое обучение параметр. Во многих практических приложениях для оценки параметров наивных байесовских моделей используется метод максимальная вероятность; другими словами, можно работать с наивной байесовской моделью, не принимая Байесовская вероятность или используя любые байесовские методы.

Несмотря на свой наивный дизайн и явно упрощенные допущения, наивные байесовские классификаторы довольно хорошо работают во многих сложных ситуациях реального мира. В 2004 году анализ проблемы байесовской классификации показал, что существуют веские теоретические причины для кажущегося неправдоподобным эффективность наивных байесовских классификаторов.[6] Тем не менее, всестороннее сравнение с другими алгоритмами классификации в 2006 г. показало, что классификация Байеса превосходит другие подходы, такие как усиленные деревья или же случайные леса.[7]

Преимущество наивного байесовского метода состоит в том, что для оценки параметров, необходимых для классификации, требуется лишь небольшое количество обучающих данных.[нужна цитата ]

Вероятностная модель

В абстрактном смысле наивный байесовский условная возможность модель: данный экземпляр проблемы, подлежащий классификации, представлен вектором представляя некоторые п функции (независимые переменные), он присваивает этому экземпляру вероятности

для каждого из K возможные результаты или классы .[8]

Проблема с приведенной выше формулировкой заключается в том, что если количество функций п большой или если функция может принимать большое количество значений, то основывая такую ​​модель на таблицы вероятностей невозможно. Поэтому мы переформулируем модель, чтобы сделать ее более управляемой. С помощью Теорема Байеса, условная вероятность может быть разложена как

На простом английском языке, используя Байесовская вероятность По терминологии, приведенное выше уравнение можно записать как

На практике представляет интерес только числитель этой дроби, потому что знаменатель не зависит от и значения характеристик даны, так что знаменатель фактически постоянен. числитель эквивалентен совместная вероятность модель

который можно переписать следующим образом, используя Правило цепи для повторных применений определения условная возможность:

Теперь «наивный» условная независимость предположения: предположим, что все функции в находятся взаимно независимый, при условии категории . В этом предположении

.

Таким образом, совместная модель может быть выражена как

куда обозначает соразмерность.

Это означает, что при сделанных выше предположениях независимости условное распределение по переменной класса является:

где доказательства коэффициент масштабирования зависит только от , то есть константа, если известны значения переменных признаков.

Построение классификатора по вероятностной модели

До сих пор в ходе обсуждения была выведена модель независимых признаков, то есть наивная байесовская модель. вероятностная модель. Наивный байесовский классификатор сочетает в себе эту модель с правило принятия решения. Одно из общих правил - выбирать наиболее вероятную гипотезу; это известно как максимум апостериорный или же КАРТА правило принятия решения. Соответствующий классификатор a Байесовский классификатор, это функция, которая назначает метку класса для некоторых k следующее:

Оценка параметров и модели событий

Приоритет класса можно рассчитать, приняв равновероятные классы (т.е., ), или путем вычисления оценки вероятности класса из обучающей выборки (т.е., <предшествующий для данного класса> = <количество образцов в классе> / <общее количество образцов>). Чтобы оценить параметры распределения функции, необходимо принять распределение или сгенерировать непараметрический модели для функций из обучающего набора.[9]

Предположения о распределении признаков называются «событийной моделью» наивного байесовского классификатора. Для дискретных функций, подобных тем, которые встречаются при классификации документов (включая фильтрацию спама), полиномиальный и Бернулли дистрибутивы популярны. Эти предположения приводят к двум различным моделям, которые часто путают.[10][11].

Гауссовский наивный байесовский

При работе с непрерывными данными типичное допущение состоит в том, что непрерывные значения, связанные с каждым классом, распределяются в соответствии с нормальный (или гауссово) распределение. Например, предположим, что обучающие данные содержат непрерывный атрибут, . Сначала мы сегментируем данные по классам, а затем вычисляем среднее и отклонение из в каждом классе. Позволять быть средним значением в связанный с классом Ck, и разреши быть Откорректированная по Бесселю дисперсия ценностей в связанный с классом Ck. Предположим, мы собрали некоторую наблюдательную ценность . Тогда вероятность распределение из учитывая класс , , можно вычислить, подключив в уравнение для нормальное распределение параметризованный и . То есть,

Другой распространенный метод обработки непрерывных значений - использование биннинга для дискретизировать значения характеристик, чтобы получить новый набор функций, распределенных по Бернулли; в некоторой литературе фактически предполагается, что это необходимо для применения наивного Байеса, но это не так, и дискретизация может выбросить дискриминационную информацию.[5]

Иногда распределение условно-классовых предельных плотностей далеко от нормального. В этих случаях, оценка плотности ядра может использоваться для более реалистичной оценки предельной плотности каждого класса. Этот метод, предложенный Джоном и Лэнгли,[12] может значительно повысить точность классификатора. [13][14]

Полиномиальный наивный байесовский

В полиномиальной модели событий выборки (векторы признаков) представляют частоты, с которыми определенные события были сгенерированы полиномиальный куда вероятность того, что событие я происходит (или K такие многочлены в мультиклассовом случае). Вектор признаков тогда гистограмма, с подсчет количества раз событие я наблюдался в конкретном случае. Это модель событий, обычно используемая для классификации документов, где события представляют вхождение слова в одном документе (см. мешок слов предположение). Вероятность наблюдения гистограммы Икс дан кем-то

Полиномиальный наивный байесовский классификатор становится линейный классификатор при выражении в пространстве журнала:[15]

куда и .

Если данный класс и значение признака никогда не встречаются вместе в обучающих данных, тогда оценка вероятности на основе частоты будет равна нулю, потому что оценка вероятности прямо пропорциональна количеству появлений значения признака. Это проблематично, потому что это уничтожит всю информацию о других вероятностях при их умножении. Поэтому часто бывает желательно включить поправку на малую выборку, называемую псевдосчет, во всех оценках вероятности, так что никакая вероятность никогда не устанавливается равной нулю. Этот способ регуляризация наивный байесовский называется Сглаживание Лапласа когда псевдосчет равен единице, и Сглаживание Lidstone в общем случае.

Ренни и другие. обсудить проблемы с мультиномиальным предположением в контексте классификации документов и возможные способы решения этих проблем, включая использование tf – idf веса вместо необработанных частот терминов и нормализации длины документа, чтобы создать наивный байесовский классификатор, который может конкурировать с опорные векторные машины.[15]

Бернулли, наивный Байес

В многомерном Бернулли модель событий, функции независимы Булевы (бинарные переменные), описывающие входы. Как и полиномиальная модель, эта модель популярна для задач классификации документов,[10] где используются признаки появления двоичных терминов, а не частоты терминов. Если является логическим значением, выражающим наличие или отсутствие я'ый термин из словаря, то вероятность документа с учетом класса дан кем-то[10]

куда это вероятность класса создание термина . Эта модель событий особенно популярна для классификации коротких текстов. Его преимущество заключается в явном моделировании отсутствия терминов. Обратите внимание, что наивный байесовский классификатор с моделью событий Бернулли - это не то же самое, что полиномиальный классификатор NB с усеченными до единицы значениями частоты.

Полу-контролируемая оценка параметров

Имея способ обучить наивный байесовский классификатор на основе размеченных данных, можно построить полууправляемый алгоритм обучения, который может учиться на комбинации помеченных и немаркированных данных, запуская алгоритм обучения с учителем в цикле:[16]

Учитывая коллекцию маркированных образцов L и немаркированные образцы U, начните с обучения наивного байесовского классификатора L.
До схождения делать:
Прогнозировать вероятности классов для всех примеров Икс в .
Переобучить модель на основе вероятности (не ярлыки), предсказанные на предыдущем шаге.

Сходимость определяется на основе улучшения вероятности модели. , куда обозначает параметры наивной байесовской модели.

Этот алгоритм обучения является примером более общего алгоритм ожидания – максимизации (EM): шаг прогноза внутри цикла - это E-шага ЭМ, в то время как переобучение наивного Байеса - это M-шаг. Формально алгоритм обоснован предположением, что данные генерируются модель смеси, а компоненты этой модели смеси являются в точности классами задачи классификации.[16]

Обсуждение

Несмотря на то, что далеко идущие предположения о независимости часто бывают неточными, наивный байесовский классификатор имеет несколько свойств, которые делают его удивительно полезным на практике. В частности, разделение условных распределений признаков классов означает, что каждое распределение может быть независимо оценено как одномерное распределение. Это помогает облегчить проблемы, связанные с проклятие размерности, например, потребность в наборах данных, которые экспоненциально масштабируются с количеством функций. Хотя наивный байесовский метод часто не может дать хорошую оценку вероятностей правильного класса,[17] это может не быть требованием для многих приложений. Например, наивный байесовский классификатор сделает правильную классификацию правил принятия решений MAP, если правильный класс более вероятен, чем любой другой класс. Это верно независимо от того, является ли оценка вероятности незначительной или даже очень неточной. Таким образом, общий классификатор может быть достаточно устойчивым, чтобы игнорировать серьезные недостатки лежащей в его основе наивной вероятностной модели.[18] Другие причины наблюдаемого успеха наивного байесовского классификатора обсуждаются в цитируемой ниже литературе.

Связь с логистической регрессией

В случае дискретных входов (индикаторные или частотные характеристики для дискретных событий) наивные байесовские классификаторы образуют генеративно-дискриминационный пара с (полиномиальный ) логистическая регрессия классификаторы: каждый наивный байесовский классификатор можно рассматривать как способ подбора вероятностной модели, которая оптимизирует совместное правдоподобие , в то время как логистическая регрессия соответствует той же вероятностной модели для оптимизации условного .[19]

Связь между ними можно увидеть, заметив, что функция принятия решения для наивного Байеса (в двоичном случае) может быть переписана как «класс прогнозирования если шансы из превышают те из ". Выражение этого в пространстве журнала дает:

Левая часть этого уравнения - логарифм-шансы, или логит, количество, предсказанное линейной моделью, лежащей в основе логистической регрессии. Поскольку наивный байесовский метод также является линейной моделью для двух «дискретных» моделей событий, ее можно перепараметризовать как линейную функцию. . Получение вероятностей - это вопрос применения логистическая функция к , или в случае мультикласса функция softmax.

Дискриминативные классификаторы имеют меньшую асимптотическую ошибку, чем генеративные; однако исследования Нг и Иордания показал, что в некоторых практических случаях наивный метод Байеса может превзойти логистическую регрессию, поскольку он быстрее достигает своей асимптотической ошибки.[19]

Примеры

Классификация лиц

Задача: определить, является ли данный человек мужчиной или женщиной, на основе измеренных характеристик, включая рост, вес и размер ступни.

Обучение персонала

Пример обучающего набора ниже.

Человеквысота (футы)вес в фунтах)размер стопы (дюймы)
мужской618012
мужской5.92 (5'11")19011
мужской5.58 (5'7")17012
мужской5.92 (5'11")16510
женский51006
женский5.5 (5'6")1508
женский5.42 (5'5")1307
женский5.75 (5'9")1509

Классификатор, созданный из обучающей выборки с использованием предположения о распределении Гаусса, будет иметь вид (при заданных дисперсиях беспристрастный выборочные отклонения ):

Человексреднее (рост)дисперсия (рост)среднее (вес)дисперсия (вес)среднее (размер стопы)отклонение (размер стопы)
мужской5.8553.5033 × 10−2176.251.2292 × 10211.259.1667 × 10−1
женский5.41759.7225 × 10−2132.55.5833 × 1027.51.6667

Допустим, у нас есть равновероятные классы, поэтому P (мужской) = P (женский) = 0,5. Это априорное распределение вероятностей может быть основано на наших знаниях о частотах в большей популяции или на частоте в обучающей выборке.

Тестирование

Ниже приведен образец, который можно разделить на мужчин и женщин.

Человеквысота (футы)вес в фунтах)размер стопы (дюймы)
образец61308

Мы хотим определить, какая задняя часть больше, мужская или женская. Для классификации мужского пола задняя часть дается следующим образом:

Для классификации как женщин задняя часть дается следующим образом:

Свидетельство (также называемое нормализующей константой) может быть вычислено:

Однако, учитывая выборку, доказательства являются постоянными и, таким образом, одинаково масштабируются для обоих задних зубов. Таким образом, это не влияет на классификацию и может быть проигнорировано. Теперь определим распределение вероятностей для пола выборки.

,

куда и - параметры нормального распределения, предварительно определенные из обучающей выборки. Обратите внимание, что значение больше 1 здесь нормально - это скорее плотность вероятности, чем вероятность, потому что высота - непрерывная переменная.

Поскольку в случае женщин апостериорный числитель больше, мы предполагаем, что выборка будет женской.

Классификация документов

Вот отработанный пример наивной байесовской классификации классификация документов Рассмотрим проблему классификации документов по их содержанию, например, в спам и без спама электронная почта. Представьте себе, что документы взяты из ряда классов документов, которые можно смоделировать как наборы слов, где (независимая) вероятность того, что i-е слово данного документа встречается в документе из класса C можно записать как

(В этом случае мы еще больше упрощаем ситуацию, предполагая, что слова распределены в документе случайным образом, то есть слова не зависят от длины документа, положения в документе по отношению к другим словам или другого контекста документа. )

Тогда вероятность того, что данный документ D содержит все слова , учитывая класс C, является

Вопрос, на который мы хотим ответить: «какова вероятность того, что данный документ D принадлежит к данному классу C? "Другими словами, что ?

Сейчас же по определению

и

Теорема Байеса превращает их в утверждение о вероятности в терминах вероятность.

Предположим на данный момент, что существует только два взаимоисключающих класса, S и ¬S (например, спам, а не спам), так что каждый элемент (электронное письмо) находится либо в одном, либо в другом;

и

Используя байесовский результат выше, мы можем написать:

Разделение одного на другое дает:

Что может быть переработано как:

Таким образом, отношение вероятностей p (S | D) / p (¬S | D) можно выразить через ряд отношения правдоподобия Фактическая вероятность p (S | D) можно легко вычислить из log (p (S | D) / p (¬S | D)) на основании наблюдения, что p (S | D) + p (¬S | D) = 1.

Принимая логарифм из всех этих соотношений имеем:

(Эта техника "логарифмические отношения правдоподобия "- распространенный метод в статистике. В случае двух взаимоисключающих альтернатив (например, в этом примере) преобразование логарифмического отношения правдоподобия в вероятность принимает форму сигмовидная кривая: видеть логит для подробностей.)

Наконец, документ можно классифицировать следующим образом. Это спам, если (т. е., ), иначе это не спам.

Смотрите также

Рекомендации

  1. ^ Маккаллум, Эндрю. «Графические модели, лекция 2: представление байесовской сети» (PDF). Получено 22 октября 2019.
  2. ^ Пирьонеси С. Мадех; Эль-Дираби Тамер Э. (01.06.2020). «Роль аналитики данных в управлении инфраструктурными активами: преодоление проблем, связанных с размером и качеством данных». Журнал транспортного машиностроения, часть B: Тротуары. 146 (2): 04020022. Дои:10.1061 / JPEODX.0000175.
  3. ^ Хасти, Тревор. (2001). Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование: с 200 полноцветными иллюстрациями. Тибширани, Роберт., Фридман, Дж. Х. (Джером Х.). Нью-Йорк: Спрингер. ISBN  0-387-95284-5. OCLC  46809224.
  4. ^ а б Рассел, Стюарт; Норвиг, Питер (2003) [1995]. Искусственный интеллект: современный подход (2-е изд.). Прентис Холл. ISBN  978-0137903955.
  5. ^ а б c Hand, D. J .; Ю. К. (2001). «Идиотский байесовский - не все ли так глуп?». Международный статистический обзор. 69 (3): 385–399. Дои:10.2307/1403452. ISSN  0306-7734. JSTOR  1403452.
  6. ^ Чжан, Гарри. Оптимальность наивного Байеса (PDF). Конференция FLAIRS2004.
  7. ^ Caruana, R .; Никулеску-Мизил, А. (2006). Эмпирическое сравнение алгоритмов обучения с учителем. Proc. 23-я Международная конференция по машинному обучению. CiteSeerX  10.1.1.122.5901.
  8. ^ Narasimha Murty, M .; Сушила Деви, В. (2011). Распознавание образов: алгоритмический подход. ISBN  978-0857294944.
  9. ^ Джон, Джордж Х .; Лэнгли, Пэт (1995). Оценка непрерывных распределений в байесовских классификаторах. Proc. Одиннадцатая конф. о неопределенности в искусственном интеллекте. Морган Кауфманн. С. 338–345. arXiv:1302.4964.
  10. ^ а б c Маккаллум, Эндрю; Нигам, Камаль (1998). Сравнение моделей событий для классификации наивного байесовского текста (PDF). AAAI-98 семинар по обучению категоризации текста. 752.
  11. ^ Метсис, Вангелис; Андроутсопулос, Ион; Палиоурас, Георгиос (2006). Фильтрация спама с помощью наивного байесовского метода - какой наивный байесовский метод?. Третья конференция по электронной почте и борьбе со спамом (CEAS). 17.
  12. ^ «Джон Г. Х. и Лэнгли П. (2013). Оценка непрерывных распределений в байесовских классификаторах. Препринт arXiv arXiv: 1302.4964».
  13. ^ Пирьонеси С. Мадех; Эль-Дираби Тамер Э. (01.06.2020). «Роль аналитики данных в управлении инфраструктурными активами: преодоление проблем, связанных с размером и качеством данных». Журнал транспортного машиностроения, часть B: Тротуары. 146 (2): 04020022. Дои:10.1061 / JPEODX.0000175.
  14. ^ Хасти, Тревор. (2001). Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование: с 200 полноцветными иллюстрациями. Тибширани, Роберт., Фридман, Дж. Х. (Джером Х.). Нью-Йорк: Спрингер. ISBN  0-387-95284-5. OCLC  46809224.
  15. ^ а б Ренни, Дж .; Shih, L .; Teevan, J .; Каргер, Д. (2003). Устранение неверных предположений наивных байесовских классификаторов (PDF). ICML.
  16. ^ а б Нигам, Камаль; Маккаллум, Эндрю; Трун, Себастьян; Митчелл, Том (2000). «Учимся классифицировать текст из помеченных и немаркированных документов с помощью EM» (PDF). Машинное обучение. 39 (2/3): 103–134. Дои:10.1023 / А: 1007692713085. S2CID  686980.
  17. ^ Никулеску-Мизил, Александру; Каруана, Рич (2005). Предсказание хороших вероятностей с помощью контролируемого обучения (PDF). ICML. Дои:10.1145/1102351.1102430. Архивировано из оригинал (PDF) на 2014-03-11. Получено 2016-04-24.
  18. ^ Риш, Ирина (2001). Эмпирическое исследование наивного байесовского классификатора (PDF). Семинар IJCAI по эмпирическим методам ИИ.
  19. ^ а б Нг, Эндрю Ю.; Джордан, Майкл И. (2002). О дискриминационных и генеративных классификаторах: сравнение логистической регрессии и наивного Байеса. НИПС. 14.

дальнейшее чтение

внешняя ссылка

Программного обеспечения