Аддитивное разглаживание - Additive smoothing
В статистика, аддитивное сглаживание, также называемый Лаплас сглаживание[1] (не путать с Лапласовское сглаживание как используется в обработка изображений ), или же Lidstone сглаживание, это метод, используемый для гладкий категориальные данные. Учитывая наблюдение из полиномиальное распределение с испытаний, "сглаженная" версия данных дает оценщик:
где "псевдосчет" α > 0 - сглаживание параметр. α = 0 соответствует отсутствию сглаживания. (Этот параметр объясняется в § Псевдосчет ниже.) Аддитивное сглаживание - это тип оценщик усадки, так как итоговая оценка будет между эмпирическая вероятность (относительная частота ) , а равномерная вероятность . Призывая Лапласа правило наследования, некоторые авторы утверждали[нужна цитата ] который α должно быть 1 (в этом случае термин добавочное сглаживание[2][3] также используется)[требуется дальнейшее объяснение ], хотя на практике обычно выбирается меньшее значение.
Из Байесовский точки зрения, это соответствует ожидаемое значение из апостериорное распределение, используя симметричный Распределение Дирихле с параметром α как предварительное распространение. В особом случае, когда количество категорий равно 2, это эквивалентно использованию Бета-распределение как сопряженный априор для параметров Биномиальное распределение.
История
Лаплас придумал эту технику сглаживания, когда пытался оценить вероятность того, что солнце взойдет завтра. Его объяснение состояло в том, что даже учитывая большую выборку дней с восходящим солнцем, мы все равно не можем быть полностью уверены в том, что солнце все еще взойдет завтра (известное как проблема восхода солнца ).[4]
Псевдосчет
А псевдосчет это сумма (обычно не целое число, несмотря на название), добавленная к количеству наблюдаемых случаев, чтобы изменить ожидаемые вероятность в модель этих данных, когда неизвестно нуль. Он назван так потому, что, грубо говоря, псевдосчет стоимости весит в апостериорное распределение аналогично каждой категории, имеющей дополнительный подсчет . Если частота каждого элемента является снаружи выборки, эмпирическая вероятность события является
но апостериорная вероятность при аддитивном сглаживании равна
как если бы увеличить каждый счет к априори.
В зависимости от предшествующего знания, которое иногда является субъективным значением, псевдосчет может иметь любое неотрицательное конечное значение. Это может быть только ноль (или возможность игнорирования), если это невозможно по определению, например, возможность того, что десятичная цифра пи является буквой, или физическая возможность, которая будет отклонена и поэтому не будет учитываться, например, компьютер, печатающий букву. когда действующая программа для числа Пи запущена или исключается и не учитывается из-за отсутствия интереса, например, если интересуются только нули и единицы. Как правило, также существует вероятность того, что никакое значение не может быть вычислимым или наблюдаемым за конечное время (см. проблема остановки ). Но по крайней мере одна возможность должна иметь ненулевое псевдосчетчик, иначе невозможно было бы вычислить прогноз до первого наблюдения. Относительные значения псевдосчетов представляют собой относительные априорные ожидаемые вероятности их возможностей. Сумма псевдосчетов, которая может быть очень большой, представляет собой оценочный вес априорных знаний по сравнению со всеми фактическими наблюдениями (по одному для каждого) при определении ожидаемой вероятности.
В любом наблюдаемом наборе данных или образец есть возможность, особенно с маловероятной События а с небольшими наборами данных о возможном событии не происходит. Следовательно, его наблюдаемая частота равна нулю, что, очевидно, подразумевает нулевую вероятность. Это чрезмерное упрощение неточно и часто бесполезно, особенно в случае теории вероятностей. машинное обучение такие методы, как искусственные нейронные сети и скрытые марковские модели. Искусственно изменяя вероятность редких (но не невозможных) событий так, чтобы эти вероятности не были в точности равными нулю, проблемы с нулевой частотой избегаются. Также см Правило Кромвеля.
Самый простой подход - добавить один для каждого наблюдаемого числа событий, включая возможность нулевого счета. Иногда это называют Правило преемственности. Этот подход эквивалентен предположению о равномерном априорном распределении вероятностей для каждого возможного события (охватывающего симплекс, где каждая вероятность находится между 0 и 1, и все они в сумме равны 1).
С использованием Джеффрис приор При таком подходе к каждому возможному исходу следует добавлять псевдосчет, равный половине.
Псевдосчет должен быть установлен на единицу только в том случае, если нет никаких предварительных знаний - см. принцип безразличия. Однако, учитывая соответствующие предварительные знания, сумма должна быть скорректирована пропорционально ожиданию того, что априорные вероятности следует считать правильными, несмотря на доказательства обратного - см. дальнейший анализ. Более высокие значения подходят, поскольку есть предварительные знания об истинных значениях (например, для монеты в состоянии монетного двора); более низкие значения, поскольку имеется предварительная информация о вероятном смещении, но неизвестной степени (например, для согнутой монеты).
Более сложный подход - оценить вероятность событий от других факторов и соответствующим образом скорректируйте.
Примеры
Один из способов мотивировать псевдосчет, особенно для биномиальных данных, - использовать формулу для средней точки интервальная оценка, особенно доверительный интервал биномиальной пропорции. Самое известное связано с Эдвин Бидвелл Уилсон, в Уилсон (1927): середина Интервал счета Уилсона соответствующий Стандартные отклонения в обе стороны:
Принимая стандартные отклонения для приближения 95% доверительного интервала () дает псевдосчет 2 для каждого результата, поэтому всего 4, в просторечии известное как «правило плюс четыре»:
Это также середина Интервал Агрести – Кулля, (Agresti & Coull 1988 г. ) .
Обобщено на случай известных показателей заболеваемости
Часто вы проверяете предвзятость неизвестной исследуемой группы по сравнению с контрольной популяцией с известными параметрами (коэффициентами заболеваемости). . В этом случае равномерная вероятность следует заменить известным уровнем заболеваемости в контрольной популяции для вычисления сглаженной оценки:
В качестве проверки согласованности, если эмпирическая оценка оказывается равной уровню заболеваемости, т. Е. , сглаженная оценка не зависит от а также равняется уровню заболеваемости.
Приложения
Классификация
Аддитивное сглаживание обычно является компонентом наивные байесовские классификаторы.
Статистическое языковое моделирование
В мешок слов модель При обработке естественного языка и поиске информации данные состоят из количества появлений каждого слова в документе. Аддитивное сглаживание позволяет присваивать ненулевые вероятности словам, которые не встречаются в выборке. Недавние исследования доказали, что аддитивное сглаживание более эффективно, чем другие методы вероятностного сглаживания, в нескольких задачах поиска, например, на основе языковой модели. обратная связь псевдорелевантности и рекомендательные системы.[5][6]
Смотрите также
- Байесовское среднее
- Прогноз по частичному совпадению
- Априорная вероятность
- Категориальное распределение
Рекомендации
- ^ CD. Мэннинг, П. Рагхаван и М. Шютце (2008). Введение в поиск информации. Издательство Кембриджского университета, стр. 260.
- ^ Джурафский, Даниэль; Мартин, Джеймс Х. (июнь 2008 г.). Обработка речи и языка (2-е изд.). Прентис Холл. п. 132. ISBN 978-0-13-187321-6.
- ^ Рассел, Стюарт; Норвиг, Питер (2010). Искусственный интеллект: современный подход (2-е изд.). Pearson Education, Inc. стр. 863.
- ^ Лекция 5 | Машинное обучение (Стэнфорд) через 1 час 10 минут лекции
- ^ Хазиме, Хусейн; Чжай, Чэнсян. «Аксиоматический анализ методов сглаживания в языковых моделях для псевдорелевантной обратной связи». ICTIR '15 Материалы Международной конференции по теории информационного поиска 2015 г..
- ^ Valcarce, Daniel; Парапар, Хавьер; Баррейро, Альваро. «Аддитивное сглаживание для моделирования рекомендательных систем на основе релевантности». CERI '16 Труды 4-й Испанской конференции по поиску информации.
- Уилсон, Э. (1927). «Вероятный вывод, закон последовательности и статистический вывод». Журнал Американской статистической ассоциации. 22 (158): 209–212. Дои:10.1080/01621459.1927.10502953. JSTOR 2276774.
- Агрести, Алан; Коулл, Брент А. (1998). «Приблизительное лучше, чем« точное »для интервальной оценки биномиальных пропорций». Американский статистик. 52 (2): 119–126. Дои:10.2307/2685469. JSTOR 2685469. МИСТЕР 1628435.CS1 maint: ref = harv (связь)
внешняя ссылка
- С.Ф. Чен, Дж. Гудман (1996). "Эмпирическое исследование методов сглаживания для языкового моделирования ". Материалы 34-го ежегодного собрания Ассоциации компьютерной лингвистики.
- Псевдосчета