Аддитивное разглаживание - Additive smoothing

В статистика, аддитивное сглаживание, также называемый Лаплас сглаживание^[1] (не путать с Лапласовское сглаживание как используется в обработка изображений ), или же Lidstone сглаживание, это метод, используемый для гладкий категориальные данные. Учитывая наблюдение ${ textstyle textstyle { mathbf {x} = left langle x_ {1}, , x_ {2}, , ldots, , x_ {d} right rangle}}$ из полиномиальное распределение с ${ textstyle textstyle {N}}$ испытаний, "сглаженная" версия данных дает оценщик:

{ displaystyle { hat { theta}} _ {i} = { frac {x_ {i} + alpha} {N + alpha d}} qquad (i = 1, ldots, d),}

где "псевдосчет" α > 0 - сглаживание параметр. α = 0 соответствует отсутствию сглаживания. (Этот параметр объясняется в § Псевдосчет ниже.) Аддитивное сглаживание - это тип оценщик усадки, так как итоговая оценка будет между эмпирическая вероятность (относительная частота ) ${ textstyle textstyle {x_ {i} / N}}$ , а равномерная вероятность ${ textstyle textstyle {1 / d}}$ . Призывая Лапласа правило наследования, некоторые авторы утверждали^{[нужна цитата ]} который α должно быть 1 (в этом случае термин добавочное сглаживание^[2]^[3] также используется)^{[требуется дальнейшее объяснение ]}, хотя на практике обычно выбирается меньшее значение.

Из Байесовский точки зрения, это соответствует ожидаемое значение из апостериорное распределение, используя симметричный Распределение Дирихле с параметром α как предварительное распространение. В особом случае, когда количество категорий равно 2, это эквивалентно использованию Бета-распределение как сопряженный априор для параметров Биномиальное распределение.

История

Лаплас придумал эту технику сглаживания, когда пытался оценить вероятность того, что солнце взойдет завтра. Его объяснение состояло в том, что даже учитывая большую выборку дней с восходящим солнцем, мы все равно не можем быть полностью уверены в том, что солнце все еще взойдет завтра (известное как проблема восхода солнца ).^[4]

Псевдосчет

А псевдосчет это сумма (обычно не целое число, несмотря на название), добавленная к количеству наблюдаемых случаев, чтобы изменить ожидаемые вероятность в модель этих данных, когда неизвестно нуль. Он назван так потому, что, грубо говоря, псевдосчет стоимости ${ textstyle textstyle { alpha}}$ весит в апостериорное распределение аналогично каждой категории, имеющей дополнительный подсчет ${ textstyle textstyle { alpha}}$ . Если частота каждого элемента ${ textstyle textstyle {я}}$ является ${ displaystyle textstyle {x_ {i}}}$ снаружи ${ textstyle textstyle {N}}$ выборки, эмпирическая вероятность события ${ textstyle textstyle {я}}$ является

${ displaystyle p_ {i, mathrm {empirical}} = { frac {x_ {i}} {N}}}$

но апостериорная вероятность при аддитивном сглаживании равна

${ displaystyle p_ {i, alpha { text {-smoothed}}} = { frac {x_ {i} + alpha} {N + alpha d}},}$

как если бы увеличить каждый счет ${ displaystyle textstyle {x_ {i}}}$ к ${ displaystyle textstyle { alpha}}$ априори.

В зависимости от предшествующего знания, которое иногда является субъективным значением, псевдосчет может иметь любое неотрицательное конечное значение. Это может быть только ноль (или возможность игнорирования), если это невозможно по определению, например, возможность того, что десятичная цифра пи является буквой, или физическая возможность, которая будет отклонена и поэтому не будет учитываться, например, компьютер, печатающий букву. когда действующая программа для числа Пи запущена или исключается и не учитывается из-за отсутствия интереса, например, если интересуются только нули и единицы. Как правило, также существует вероятность того, что никакое значение не может быть вычислимым или наблюдаемым за конечное время (см. проблема остановки ). Но по крайней мере одна возможность должна иметь ненулевое псевдосчетчик, иначе невозможно было бы вычислить прогноз до первого наблюдения. Относительные значения псевдосчетов представляют собой относительные априорные ожидаемые вероятности их возможностей. Сумма псевдосчетов, которая может быть очень большой, представляет собой оценочный вес априорных знаний по сравнению со всеми фактическими наблюдениями (по одному для каждого) при определении ожидаемой вероятности.

В любом наблюдаемом наборе данных или образец есть возможность, особенно с маловероятной События а с небольшими наборами данных о возможном событии не происходит. Следовательно, его наблюдаемая частота равна нулю, что, очевидно, подразумевает нулевую вероятность. Это чрезмерное упрощение неточно и часто бесполезно, особенно в случае теории вероятностей. машинное обучение такие методы, как искусственные нейронные сети и скрытые марковские модели. Искусственно изменяя вероятность редких (но не невозможных) событий так, чтобы эти вероятности не были в точности равными нулю, проблемы с нулевой частотой избегаются. Также см Правило Кромвеля.

Самый простой подход - добавить один для каждого наблюдаемого числа событий, включая возможность нулевого счета. Иногда это называют Правило преемственности. Этот подход эквивалентен предположению о равномерном априорном распределении вероятностей для каждого возможного события (охватывающего симплекс, где каждая вероятность находится между 0 и 1, и все они в сумме равны 1).

С использованием Джеффрис приор При таком подходе к каждому возможному исходу следует добавлять псевдосчет, равный половине.

Псевдосчет должен быть установлен на единицу только в том случае, если нет никаких предварительных знаний - см. принцип безразличия. Однако, учитывая соответствующие предварительные знания, сумма должна быть скорректирована пропорционально ожиданию того, что априорные вероятности следует считать правильными, несмотря на доказательства обратного - см. дальнейший анализ. Более высокие значения подходят, поскольку есть предварительные знания об истинных значениях (например, для монеты в состоянии монетного двора); более низкие значения, поскольку имеется предварительная информация о вероятном смещении, но неизвестной степени (например, для согнутой монеты).

Более сложный подход - оценить вероятность событий от других факторов и соответствующим образом скорректируйте.

Примеры

Один из способов мотивировать псевдосчет, особенно для биномиальных данных, - использовать формулу для средней точки интервальная оценка, особенно доверительный интервал биномиальной пропорции. Самое известное связано с Эдвин Бидвелл Уилсон, в Уилсон (1927): середина Интервал счета Уилсона соответствующий ${ displaystyle z}$ Стандартные отклонения в обе стороны:

{ displaystyle { frac {n_ {S} + z} {n + 2z}}.}

Принимая ${ displaystyle textstyle z = 2}$ стандартные отклонения для приближения 95% доверительного интервала ( ${ displaystyle z приблизительно 1,96}$ ) дает псевдосчет 2 для каждого результата, поэтому всего 4, в просторечии известное как «правило плюс четыре»:

{ displaystyle { frac {n_ {S} +2} {n + 4}}.}

Это также середина Интервал Агрести – Кулля, (Agresti & Coull 1988 г. ).

Обобщено на случай известных показателей заболеваемости

Часто вы проверяете предвзятость неизвестной исследуемой группы по сравнению с контрольной популяцией с известными параметрами (коэффициентами заболеваемости). ${ textstyle textstyle { mathbf { mu} = left langle mu _ {1}, , mu _ {2}, , ldots, , mu _ {d} right rangle}}$ . В этом случае равномерная вероятность ${ textstyle textstyle { frac {1} {d}}}$ следует заменить известным уровнем заболеваемости в контрольной популяции ${ displaystyle textstyle { mu _ {я}}}$ для вычисления сглаженной оценки:

{ displaystyle { hat { theta}} _ {i} = { frac {x_ {i} + mu _ {i} alpha d} {N + alpha d}} qquad (i = 1, ldots, d),}

В качестве проверки согласованности, если эмпирическая оценка оказывается равной уровню заболеваемости, т. Е. ${ displaystyle textstyle { mu _ {i}} = { frac {x_ {i}} {N}}}$ , сглаженная оценка не зависит от ${ textstyle textstyle { alpha}}$ а также равняется уровню заболеваемости.

Приложения

Классификация

Аддитивное сглаживание обычно является компонентом наивные байесовские классификаторы.

Статистическое языковое моделирование

В мешок слов модель При обработке естественного языка и поиске информации данные состоят из количества появлений каждого слова в документе. Аддитивное сглаживание позволяет присваивать ненулевые вероятности словам, которые не встречаются в выборке. Недавние исследования доказали, что аддитивное сглаживание более эффективно, чем другие методы вероятностного сглаживания, в нескольких задачах поиска, например, на основе языковой модели. обратная связь псевдорелевантности и рекомендательные системы.^[5]^[6]

Смотрите также

внешняя ссылка

С.Ф. Чен, Дж. Гудман (1996). "Эмпирическое исследование методов сглаживания для языкового моделирования ". Материалы 34-го ежегодного собрания Ассоциации компьютерной лингвистики.
Псевдосчета
- Байесовская интерпретация регуляризаторов псевдосчетов

[1] CD. Мэннинг, П. Рагхаван и М. Шютце (2008). Введение в поиск информации. Издательство Кембриджского университета, стр. 260.

[2] Джурафский, Даниэль; Мартин, Джеймс Х. (июнь 2008 г.). Обработка речи и языка (2-е изд.). Прентис Холл. п. 132. ISBN 978-0-13-187321-6.

[3] Рассел, Стюарт; Норвиг, Питер (2010). Искусственный интеллект: современный подход (2-е изд.). Pearson Education, Inc. стр. 863.

[lec5-4] Лекция 5 | Машинное обучение (Стэнфорд) через 1 час 10 минут лекции

[5] Хазиме, Хусейн; Чжай, Чэнсян. «Аксиоматический анализ методов сглаживания в языковых моделях для псевдорелевантной обратной связи». ICTIR '15 Материалы Международной конференции по теории информационного поиска 2015 г..

[6] Valcarce, Daniel; Парапар, Хавьер; Баррейро, Альваро. «Аддитивное сглаживание для моделирования рекомендательных систем на основе релевантности». CERI '16 Труды 4-й Испанской конференции по поиску информации.

[1]

[2]

[3]

[4]

[5]

[6]