Простая случайная выборка - Simple random sample

В статистика, а простая случайная выборка это подмножество из отдельные лицаобразец ) выбран из большего наборчисленность населения ). Каждый человек выбран случайно и совершенно случайно, так что у каждого человека одинаковые вероятность быть выбранным на любом этапе процесса выборки, и каждое подмножество k человек имеет такую ​​же вероятность быть выбранным для выборки, как и любое другое подмножество k лиц.[1] Этот процесс и техника известны как простая случайная выборка, и его не следует путать с систематическая случайная выборка. Простая случайная выборка - это объективный метод опроса.

Простая случайная выборка - это базовый тип выборки, поскольку она может быть компонентом других более сложных методов выборки. Принцип простой случайной выборки заключается в том, что каждый объект имеет одинаковую вероятность быть выбранным. Например, предположим N студенты колледжа хотят получить билет на баскетбольный матч, но есть только Икс < N билеты на них, поэтому они решают найти справедливый способ узнать, кто уйдет. Затем каждому дается число в диапазоне от 0 до N-1, а случайные числа генерируются либо в электронном виде, либо из таблицы случайных чисел. Числа вне диапазона от 0 до N-1 игнорируются, как и любые ранее выбранные числа. Первый Икс числа определят счастливых обладателей билетов.

В небольших популяциях и часто в больших такая выборка обычно проводится "без замены", т. е. намеренно избегают выбора любого члена совокупности более одного раза. Хотя вместо этого может быть проведена простая случайная выборка с заменой, это менее распространено и обычно более полно описывается как простая случайная выборка с заменой.Отбор образцов без замены больше не является независимым, но все же удовлетворяет возможность обмена, поэтому многие результаты остаются в силе. Кроме того, для небольшой выборки из большой совокупности выборка без замены примерно такая же, как выборка с заменой, поскольку вероятность выбора одного и того же человека дважды мала.

Беспристрастный случайный отбор людей важен, так как если бы было отобрано много выборок, средняя выборка точно представляла бы совокупность. Однако это не гарантирует, что конкретная выборка является идеальным представлением генеральной совокупности. Простая случайная выборка просто позволяет сделать внешне достоверные выводы обо всей совокупности на основе выборки.

Концептуально простая случайная выборка - это простейший из методов вероятностной выборки. Требуется полная основа выборки, которые могут быть недоступны или неосуществимы для строительства для больших популяций. Даже если имеется полная основа, могут быть возможны более эффективные подходы, если доступна другая полезная информация о единицах в совокупности.

Преимущества заключаются в том, что он не содержит ошибок классификации и требует минимальных предварительных знаний о генеральной совокупности, кроме основы. Его простота также позволяет относительно легко интерпретировать данные, собранные таким образом. По этим причинам простая случайная выборка лучше всего подходит для ситуаций, когда имеется не так много информации о совокупности и сбор данных может быть эффективно проведен по случайным образом распределенным элементам, или когда стоимость выборки достаточно мала, чтобы сделать эффективность менее важной, чем простота. Если эти условия не выполняются, стратифицированная выборка или же выборочное обследование может быть лучшим выбором.

Алгоритмы

Было разработано несколько эффективных алгоритмов простой случайной выборки.[2][3] Наивный алгоритм - это алгоритм рисования за отрисовкой, в котором на каждом шаге мы удаляем элемент на этом шаге из набора с равной вероятностью и помещаем элемент в образец. Продолжаем до тех пор, пока не получим образец желаемого размера. . Недостатком этого метода является то, что он требует произвольного доступа в наборе.

Алгоритм выбора-отклонения, разработанный Fan et al. в 1962 г.[4] требуется однократный проход данных; однако это последовательный алгоритм, требующий знания общего количества элементов. , который недоступен в сценариях потоковой передачи.

Очень простой алгоритм случайной сортировки был доказан Сантером в 1977 году.[5] Алгоритм просто присваивает случайное число, полученное из равномерного распределения. как ключ к каждому элементу, затем сортирует все элементы с помощью ключа и выбирает наименьший Предметы.

Дж. Виттер в 1985 г.[6] предложил отбор проб из коллектора алгоритмы, которые широко используются. Этот алгоритм не требует знания размера популяции. заранее и использует постоянное пространство.

Случайная выборка также может быть ускорена путем выборки из распределения промежутков между выборками.[7] и пропускаем пробелы.

Различие между систематической случайной выборкой и простой случайной выборкой

Рассмотрим школу с 1000 учениками и предположим, что исследователь хочет выбрать 100 из них для дальнейшего изучения. Все их имена можно положить в корзину, а затем вытащить 100 имен. Мало того, что каждый человек имеет равные шансы быть выбранным, мы также можем легко вычислить вероятность (п) данного выбираемого человека, поскольку мы знаем размер выборки (п) и население (N):

1. В случае, если любой конкретный человек может быть выбран только один раз (т.е. после выбора человек удаляется из пула выбора):

2. В случае, если любой выбранный человек возвращается в пул выбора (т. Е. Может быть выбран более одного раза):

Это означает, что каждый ученик в школе в любом случае имеет примерно 1 из 10 шансов быть выбранным с помощью этого метода. Кроме того, все комбинации из 100 студентов имеют одинаковую вероятность выбора.

Если систематический образец вводится в случайную выборку, это называется «систематической (случайной) выборкой». Примером может служить случай, если к именам учеников в школе будут прикреплены номера от 0001 до 1000, и мы выберем случайную отправную точку, например 0533, а затем выбрал каждое 10-е имя, чтобы получить нашу выборку из 100 (начиная с 0003 после достижения 0993). В этом смысле этот метод похож на кластерную выборку, поскольку выбор первой единицы будет определять остаток. Это уже не простая случайная выборка, потому что некоторые комбинации из 100 учащихся имеют большую вероятность выбора, чем другие - например, {3, 13, 23, ..., 993} имеет шанс выбора 1/10, а {1 , 2, 3, ..., 100} не могут быть выбраны этим методом.

Выборка дихотомической совокупности

Если члены популяции бывают трех видов, скажем, «синие», «красные» и «черные», количество красных элементов в выборке заданного размера будет варьироваться в зависимости от выборки и, следовательно, является случайной величиной, распределение которой можно изучить. Это распределение зависит от количества красных и черных элементов в полной популяции. Для простой случайной выборки с замена, раздача биномиальное распределение. Для простой случайной выборки без замена, получается гипергеометрическое распределение.

Смотрите также

Рекомендации

  1. ^ Yates, Daniel S .; Дэвид С. Мур; Дарен С. Старнс (2008). Практика статистики, 3-е изд.. Freeman. ISBN  978-0-7167-7309-2.
  2. ^ Тилле, Ив; Тилле, Ив (01.01.2006). Алгоритмы выборки - Springer. Серии Спрингера в статистике. Дои:10.1007/0-387-34240-0. ISBN  978-0-387-30814-2.
  3. ^ Мэн, Сянжуй (2013). «Масштабируемая простая случайная выборка и стратифицированная выборка» (PDF). Материалы 30-й Международной конференции по машинному обучению (ICML-13): 531–539.
  4. ^ Fan, C. T .; Muller, Mervin E .; Резуча, Иван (1962-06-01). «Разработка планов выборки с использованием методов последовательного (постатейного) отбора и цифровых компьютеров». Журнал Американской статистической ассоциации. 57 (298): 387–402. Дои:10.1080/01621459.1962.10480667. ISSN  0162-1459.
  5. ^ Сантер, А. Б. (1977-01-01). «Список последовательных выборок с равными или неравными вероятностями без замены». Прикладная статистика. 26 (3): 261–268. Дои:10.2307/2346966. JSTOR  2346966.
  6. ^ Виттер, Джеффри С. (1985-03-01). «Случайная выборка с резервуаром». ACM Trans. Математика. Softw. 11 (1): 37–57. CiteSeerX  10.1.1.138.784. Дои:10.1145/3147.3165. ISSN  0098-3500.
  7. ^ Виттер, Джеффри С. (1984-07-01). «Более быстрые методы случайной выборки». Коммуникации ACM. 27 (7): 703–718. CiteSeerX  10.1.1.329.6400. Дои:10.1145/358105.893. ISSN  0001-0782.

внешняя ссылка