Максимум и минимум выборки - Sample maximum and minimum

Коробчатые диаграммы из Эксперимент Майкельсона-Морли, показывая максимумы и минимумы выборки

В статистика, то максимум выборки и минимум образца, также называется самое большое наблюдение и наименьшее наблюдение, являются значениями наибольшего и наименьшего элементов образец. Они основные сводные статистические данные, используется в описательная статистика такой как пятизначное резюме и Семизначное резюме Боули и связанные коробчатый сюжет.

Минимальное и максимальное значение - это первое и последнее статистика заказов (часто обозначается Икс(1) и Икс(п) соответственно, для размера выборки п).

Если в образце выбросы, они обязательно включают максимум выборки или минимум выборки, или оба, в зависимости от того, являются они чрезвычайно высокими или низкими. Однако максимум и минимум выборки не обязательно должны быть выбросами, если они не слишком далеки от других наблюдений.

Надежность

Максимум и минимум выборки - это наименее надежная статистика: они максимально чувствительны к выбросам.

Это может быть либо преимуществом, либо недостатком: если экстремальные значения реальны (а не ошибки измерения) и имеют реальные последствия, как в приложениях теория экстремальных ценностей например, строительство дамб или финансовые потери, тогда важны выбросы (как показано в экстремумах выборки). С другой стороны, если выбросы имеют незначительное влияние или не влияют на фактические результаты, то использование ненадежных статистических данных, таких как экстремумы выборки, просто затуманивает статистику, и следует использовать надежные альтернативы, например другие квантили: 10-е и 90-е процентили (в общем и целом дециль ) являются более надежными альтернативами.

Полученная статистика

Помимо того, что они являются компонентом каждой статистики, которая использует все элементы выборки, экстремумы выборки являются важными частями ассортимент, мера дисперсии и средний диапазон, мера местоположения. Они также осознают максимальное абсолютное отклонение: один из них - самый дальний точка от любой заданной точки, особенно меры центра, такие как медиана или среднее значение.

Приложения

Гладкий максимум

Для набора образцов функция максимума негладкая и, следовательно, недифференцируемая. Для задач оптимизации, возникающих в статистике, часто требуется аппроксимация гладкой функцией, близкой к максимуму набора.

А гладкий максимум, Например,

г(Икс1, Икс2, …, Иксп) = журнал (ехр (Икс1) + ехр (Икс2) +… + Exp (Иксп) )

является хорошим приближением к максимуму выборки.

Сводные статистические данные

Максимум и минимум выборки являются основными сводные статистические данные, показывающие самые экстремальные наблюдения, и используются в пятизначное резюме и версия семизначное резюме и связанные коробчатый сюжет.

Интервал прогноза

Максимум и минимум выборки обеспечивают непараметрическое интервал прогноза: в выборке из совокупности или, в более общем смысле, заменяемая последовательность случайных величин, каждое наблюдение с равной вероятностью будет максимальным или минимальным.

Таким образом, если у вас есть образец и один выбирает другое наблюдение тогда это вероятность быть наибольшим из наблюдаемых до сих пор, вероятность быть наименьшим значением, наблюдаемым до сих пор, и, следовательно, другое времени, находится между максимумом и минимумом выборки Таким образом, обозначая максимум и минимум выборки M и м, это дает интервал прогнозирования [м,M].

Например, если п = 19, тогда [м,M] дает интервал предсказания 18/20 = 90% - 90% времени, 20-е наблюдение попадает между наименьшим и наибольшим наблюдением, которое наблюдалось до сих пор. Точно так же п = 39 дает 95% интервал прогноза, а п = 199 дает интервал прогноза 99%.

Предварительный расчет

Из-за их чувствительности к выбросам экстремумы выборки нельзя надежно использовать в качестве оценщики если данные не чистые - надежные альтернативы включают первый и последний децили.

Тем не менее, с чистыми данными или в теоретических условиях они иногда могут оказаться очень хорошими оценками, особенно для Platykurtic распределения, где для небольших данных устанавливает средний диапазон наиболее эффективный оценщик.

Они неэффективны для оценки местоположения мезокуртических распределений, таких как нормальное распределение, и лептокуртические распределения, однако.

Равномерное распределение

Для отбора проб без замены из равномерное распределение с одной или двумя неизвестными конечными точками (так с участием N неизвестно, или с обоими M и N неизвестно), максимум выборки или соответственно максимум выборки и минимум выборки достаточно и полный статистика для неизвестных конечных точек; таким образом, полученная из них несмещенная оценка будет UMVU оценщик.

Если неизвестна только верхняя конечная точка, максимум выборки является смещенной оценкой для максимума совокупности, но несмещенная оценка (где м - максимум выборки и k - размер выборки) - оценка UMVU; увидеть Проблема с немецким танком для подробностей.

Если обе конечные точки неизвестны, то диапазон выборки является смещенной оценкой для диапазона популяции, но корректировка максимума выше дает оценку UMVU.

Если обе конечные точки неизвестны, то средний диапазон является несмещенной (и, следовательно, UMVU) оценкой середины интервала (здесь эквивалентно медианы, среднего или среднего значения совокупности).

Причина, по которой экстремумы выборки являются достаточной статистикой, заключается в том, что условное распределение неэкстремальных выборок - это просто распределение для равномерного интервала между максимумом и минимумом выборки - после того, как конечные точки зафиксированы, значения внутренних точек не добавляют никакой дополнительной информации .

Тестирование нормальности

Примеры экстремумов можно использовать для проверка нормальности, поскольку события за пределами диапазона 3σ очень редки.

Экстремумы выборки можно использовать для простого тест на нормальность, в частности, эксцесса: вычисляется t-статистика максимума и минимума выборки (вычитает выборочное среднее и делится на стандартное отклонение выборки ), и если они необычно велики для размера выборки (согласно правило трех сигм и таблица в нем, а точнее Распределение Стьюдента ), то эксцесс выборочного распределения значительно отличается от нормального распределения.

Например, ежедневный процесс должен ожидать событие 3σ один раз в год (календарных дней; раз в полтора года в рабочие дни), в то время как событие 4σ происходит в среднем каждые 40 лет календарных дней, 60 лет рабочих дней ( один раз в жизни), события 5σ происходят каждые 5000 лет (один раз в зарегистрированной истории), а события 6σ происходят каждые 1,5 миллиона лет (практически никогда). Таким образом, если экстремумы выборки находятся на 6 сигмах от среднего, один имеет существенное нарушение нормальности.

Кроме того, этот тест очень прост в использовании без привлечения статистики.

Эти тесты на нормальность могут применяться, если кто-то сталкивается с риск эксцесса, например.

Теория экстремальных ценностей

События могут выходить за рамки любых ранее наблюдаемых, как в 1755 Лиссабонское землетрясение.

Экстремумы выборки играют две основные роли в теория экстремальных ценностей:

  • во-первых, они дают нижнюю границу экстремальных событий - события могут быть как минимум такими экстремальными и для выборки такого размера;
  • во-вторых, их иногда можно использовать для оценки вероятности более экстремальных событий.

Однако следует соблюдать осторожность при использовании экстремумов выборки в качестве руководства: распределения с тяжелыми хвостами или для нестационарный процессов, экстремальные события могут быть значительно более экстремальными, чем любое ранее наблюдаемое событие. Это подробно описано в теория черного лебедя.

Смотрите также