Поправка Бесселя - Bessels correction - Wikipedia

В статистика, Поправка Бесселя это использование п - 1 вместо п в формуле для выборочная дисперсия и стандартное отклонение выборки,[1] куда п количество наблюдений в образец. Этот метод исправляет систематическую ошибку при оценке дисперсии совокупности. Это также частично исправляет систематическую ошибку в оценке стандартного отклонения совокупности. Однако коррекция часто увеличивает среднеквадратичная ошибка в этих оценках. Эта техника названа в честь Фридрих Бессель.

В оценка население отклонение из выборки, когда среднее значение генеральной совокупности неизвестно, нескорректированная дисперсия выборки является иметь в виду квадратов отклонений выборочных значений от выборочного среднего (т. е. с использованием мультипликативного коэффициента 1 /п). В этом случае выборочная дисперсия предвзятый оценщик дисперсии населения.

Умножение нескорректированной дисперсии выборки на коэффициент

дает беспристрастный оценка дисперсии генеральной совокупности. В некоторой литературе[2][3] вышеуказанный фактор называется Поправка Бесселя.

Поправку Бесселя можно понять как степени свободы в остатки вектор (остатки, а не ошибки, потому что среднее значение неизвестно):

куда - выборочное среднее. Пока есть п независимых наблюдений в выборке, есть только п - 1 независимых остатков, так как они в сумме равны 0. Более интуитивное объяснение необходимости поправки Бесселя см. § Источник предвзятости.

Обычно поправка Бесселя - это подход к уменьшению систематической ошибки из-за конечного размера выборки. Такая коррекция смещения конечной выборки также необходима для других оценок, таких как перекос и эксцесс, но в них погрешности часто значительно больше. Чтобы полностью устранить такое смещение, необходимо провести более сложную многопараметрическую оценку. Например, правильная поправка на стандартное отклонение зависит от эксцесса (нормализованный центральный 4-й момент), но это опять же имеет конечное смещение выборки и зависит от стандартного отклонения, т.е. обе оценки должны быть объединены.

Предостережения

Есть три предостережения относительно поправки Бесселя:

  1. Он не дает объективной оценки стандартной отклонение.
  2. Скорректированная оценка часто имеет более высокую среднеквадратичная ошибка (MSE), чем нескорректированная оценка[нужна цитата ]. Более того, не существует распределения населения, для которого оно имеет минимальную MSE, потому что всегда можно выбрать другой масштабный коэффициент, чтобы минимизировать MSE.
  3. Это необходимо только в том случае, если среднее значение по генеральной совокупности неизвестно (и оценивается как среднее по выборке). На практике так обычно и бывает.

Во-первых, хотя дисперсия выборки (с использованием поправки Бесселя) является несмещенной оценкой дисперсии генеральной совокупности, ее квадратный корень, стандартное отклонение выборки, является пристрастный оценка стандартного отклонения населения; потому что квадратный корень вогнутая функция, смещение вниз, на Неравенство Дженсена. Не существует общей формулы для несмещенной оценки стандартного отклонения генеральной совокупности, хотя существуют поправочные коэффициенты для конкретных распределений, таких как нормальное; видеть объективная оценка стандартного отклонения для подробностей. Приближение точного поправочного коэффициента для нормального распределения дается с использованием п - 1,5 в формуле: смещение спадает квадратично (а не линейно, как в нескорректированной форме и скорректированной форме Бесселя).

Во-вторых, несмещенная оценка не минимизирует среднеквадратичную ошибку (MSE) и обычно имеет худшую MSE, чем нескорректированная оценка (это зависит от избыточный эксцесс ). MSE можно минимизировать, используя другой коэффициент. Оптимальное значение зависит от избыточного эксцесса, как обсуждается в среднеквадратичная ошибка: дисперсия; для нормального распределения это оптимизируется делением на п + 1 (вместо п - 1 или п).

В-третьих, поправка Бесселя необходима только тогда, когда среднее значение по генеральной совокупности неизвестно, и кто-то оценивает обе Средняя численность населения и дисперсия генеральной совокупности из данной выборки с использованием выборочного среднего для оценки генерального среднего. В этом случае есть п степени свободы в образце п точек, а одновременная оценка среднего и дисперсии означает, что одна степень свободы переходит к среднему выборочному значению, а остальные п - 1 степень свободы ( остатки) перейти к выборке дисперсии. Однако, если известно среднее значение генеральной совокупности, то отклонения наблюдений от среднего значения совокупности имеют п степеней свободы (поскольку среднее значение не оценивается - отклонения являются не остатками, а ошибки) и поправка Бесселя не применима.

Источник предвзятости

Предположим, что среднее значение для всей генеральной совокупности составляет 2050, но статистик этого не знает и должен оценить его на основе этой небольшой выборки, случайно выбранной из генеральной совокупности:

Можно вычислить выборочное среднее:

Это может служить наблюдаемой оценкой ненаблюдаемой средней численности населения, которая составляет 2050 год. Теперь мы сталкиваемся с проблемой оценки дисперсии населения. Это среднее квадратов отклонений от 2050 года. Если бы мы знали, что средняя численность населения составляет 2050 г., мы могли бы поступить следующим образом:

Но наша оценка среднего населения - это среднее по выборке, 2052. Фактическое среднее, 2050, неизвестно. Таким образом, необходимо использовать среднее значение выборки, 2052:

Разница теперь намного меньше. Как показано ниже, дисперсия почти всегда будет меньше при вычислении с использованием суммы квадратов расстояний до среднего по выборке по сравнению с использованием суммы квадратов расстояний до среднего по генеральной совокупности. Единственным исключением из этого правила является случай, когда среднее выборочное значение равно среднему значению генеральной совокупности, и в этом случае дисперсия также равна.

Чтобы понять, почему это происходит, мы используем простая идентичность по алгебре:

С представляющее отклонение отдельной выборки от выборочного среднего, и представляет собой отклонение от выборочного среднего к среднему по генеральной совокупности. Обратите внимание, что мы просто разложили фактическое отклонение отдельной выборки от (неизвестного) среднего значения генеральной совокупности на два компонента: отклонение отдельной выборки от среднего значения выборки, которое мы можем вычислить, и дополнительное отклонение выборочного среднего от население означает, что мы не можем. Теперь применим это тождество к квадратам отклонений от среднего по генеральной совокупности:

Теперь примените это ко всем пяти наблюдениям и обратите внимание на определенные закономерности:

Сумма записей в среднем столбце должна быть равна нулю, потому что термин а будет добавлен по всем 5 строкам, которые должны равняться нулю. Это потому а содержит 5 отдельных выборок (левая часть в скобках), которые при добавлении, естественно, имеют ту же сумму, что и добавление 5-кратного среднего значения этих 5 чисел (2052). Это означает, что вычитание этих двух сумм должно равняться нулю. Фактор 2 и член b в среднем столбце равны для всех строк, что означает, что относительная разница между всеми строками в среднем столбце остается неизменной и поэтому может не приниматься во внимание. Следующие утверждения объясняют значение остальных столбцов:

  • Сумма записей в первом столбце (а2) - сумма квадратов расстояния от выборки до выборочного среднего;
  • Сумма записей в последнем столбце (б2) представляет собой сумму квадратов расстояний между измеренным средним выборочным и правильным средним значением генеральной совокупности.
  • Каждая строка теперь состоит из пар а2 (предвзято, поскольку используется выборочное среднее) и б2 (коррекция систематической ошибки, поскольку при этом учитывается разница между «реальным» средним значением генеральной совокупности и неточным средним значением выборки). Таким образом, сумма всех записей в первом и последнем столбце теперь представляет правильную дисперсию, а это означает, что теперь используется сумма квадратов расстояния между выборками и средним значением генеральной совокупности.
  • Сумма а2-колонка и b2-столбец должен быть больше суммы в записях а2-column, так как все записи в b2-столбец положительный (кроме случаев, когда среднее значение генеральной совокупности совпадает со средним значением выборки, и в этом случае все числа в последнем столбце будут равны 0).

Следовательно:

  • Сумма квадратов расстояния от образцов до численность населения среднее всегда будет больше суммы квадратов расстояния до образец среднее значение, кроме случаев, когда среднее значение выборки совпадает со средним значением генеральной совокупности, и в этом случае оба значения равны).

Поэтому сумма квадратов отклонений от образец Среднее значение слишком мало, чтобы дать объективную оценку дисперсии совокупности при нахождении среднего значения этих квадратов. Чем меньше размер выборки, тем больше разница между дисперсией выборки и дисперсией генеральной совокупности.

Терминология

Эта поправка настолько распространена, что термины «дисперсия выборки» и «стандартное отклонение выборки» часто используются для обозначения скорректированных оценок (несмещенная вариация выборки, менее смещенное стандартное отклонение выборки) с использованием п - 1. Однако следует соблюдать осторожность: некоторые калькуляторы и программные пакеты могут предусматривать обе или только более необычные формулировки. В этой статье используются следующие символы и определения:

μ среднее значение населения
выборочное среднее
σ2 дисперсия населения
sп2 - смещенная дисперсия выборки (т.е. без поправки Бесселя)
s2 - несмещенная дисперсия выборки (т.е. с поправкой Бесселя)

Стандартные отклонения будут тогда квадратными корнями из соответствующих дисперсий. Поскольку квадратный корень вносит систематическую ошибку, терминология «нескорректированный» и «скорректированный» предпочтительнее для оценок стандартного отклонения:

sп это нескорректированное стандартное отклонение выборки (то есть без поправки Бесселя)
s - скорректированное стандартное отклонение выборки (т.е. с поправкой Бесселя), которое менее смещено, но все же смещено

Формула

Среднее значение выборки дается как

Затем записывается смещенная дисперсия выборки:

а несмещенная выборочная дисперсия записывается:

Доказательство правильности - Альтернатива 1

Доказательство правильности - Альтернатива 2

Доказательство правильности - Альтернатива 3

Смотрите также

Примечания

  1. ^ Радзивилл, Николь М (2017). Статистика (более простой способ) с R. ISBN  9780996916059. OCLC  1030532622.
  2. ^ В. Дж. Райхманн, В. Дж. (1961) Использование статистики и злоупотребление ею, Метуэн. Перепечатано Пеликаном в 1964–1970 гг. Приложение 8.
  3. ^ Upton, G .; Кук, И. (2008) Оксфордский статистический словарь, ОУП. ISBN  978-0-19-954145-4 (запись для «Дисперсия (данные)»)

внешняя ссылка