Кластерные стандартные ошибки - Clustered standard errors
Кластерные стандартные ошибки измерения, которые оценивают стандартная ошибка из регресс параметр в настройках, где наблюдения могут быть подразделены на группы меньшего размера («кластеры») и где выборка и / или назначение лечения коррелированы внутри каждой группы.[1][2] Кластерные стандартные ошибки широко используются в различных прикладных эконометрических условиях, включая разница в различиях[3] или эксперименты.[4] Аналогично тому, как Хубер-Уайт стандартные ошибки последовательный в присутствии гетероскедастичность и Ньюи – Уэст стандартные ошибки согласуются при наличии точно смоделированных автокорреляция, сгруппированные (или "Лян-Цигер"[5]) стандартные ошибки согласованы при наличии выборки на основе кластеров или назначения лечения. Кластерные стандартные ошибки часто оправдываются возможной корреляцией в остатки моделирования внутри каждого кластера; хотя недавняя работа предполагает, что это не точное оправдание кластеризации,[6] это может быть педагогически полезно.
Интуитивная мотивация
Кластерные стандартные ошибки часто полезны, когда лечение назначается на уровне кластер а не на индивидуальном уровне. Например, предположим, что исследователь в области образования хочет выяснить, улучшает ли новый метод обучения результаты тестов учащихся. Поэтому она назначает учителей в «обработанные» классы, чтобы они испробовали эту новую технику, не затрагивая «контрольные» классы. Анализируя свои результаты, она может захотеть сохранить данные на уровне ученика (например, чтобы контролировать наблюдаемые характеристики на уровне ученика). Однако при оценке стандартная ошибка или доверительный интервал своей статистической модели, она понимает, что классический или даже устойчивый к гетероскедастичности стандартные ошибки неуместны, потому что результаты тестов учащихся в каждом классе не независимо распределены. Вместо этого ученики в классах с лучшими учителями имеют особенно высокие результаты тестов (независимо от того, проходят ли они экспериментальное лечение), в то время как ученики в классах с худшими учителями имеют особенно низкие результаты тестов. Исследователь может сгруппировать свои стандартные ошибки на уровне классной комнаты, чтобы учесть этот аспект своего эксперимента.
Хотя этот пример очень конкретен, аналогичные проблемы возникают в самых разных условиях. Например, во многих настройках данных панели (таких как разница в различиях ) кластеризация часто предлагает простой и эффективный способ учета отсутствия независимости между периодами в каждой единице (иногда называемый «автокорреляцией остатков»).[3] Другое распространенное и логически отличное обоснование для кластеризации возникает в том случае, когда невозможно произвести случайную выборку из всей совокупности, и поэтому вместо этого выбираются кластеры, а затем единицы рандомизируются внутри кластера. В этом случае сгруппированные стандартные ошибки объясняют неопределенность, вызванную тем фактом, что исследователь не наблюдает за большими частями интересующей совокупности.[7]
Математическая мотивация
Полезную математическую иллюстрацию дает случай односторонней кластеризации в обыкновенный метод наименьших квадратов (OLS) модель. Рассмотрим простую модель с N наблюдения, которые подразделяются на C кластеры. Позволять быть вектор исходов, а матрица ковариат, ан вектор неизвестных параметров, и ан вектор необъяснимых остатков:
Как это принято в моделях OLS, мы минимизируем сумму квадратов остатков получить оценку :
Отсюда мы можем получить классическую оценку «сэндвича»:
Обозначение дает потенциально более знакомую форму
Хотя можно разработать плагин для оценки, определив и позволяя , этот полностью гибкий оценщик будет не сходиться к так как . Принимая во внимание допущения, которые практикующий специалист считает разумными, различные типы стандартных ошибок решают эту проблему по-разному. Например, классические стандартные гомоскедастические ошибки предполагают, что диагональ с идентичными элементами , что упрощает выражение для . Стандартные ошибки Хубера-Уайта предполагать является диагональным, но значение диагонали меняется, в то время как другие типы стандартных ошибок (например, Ньюи – Уэст, SE Moulton, пространственные SE Конли) накладывают другие ограничения на форму этой матрицы, чтобы уменьшить количество параметров, которые практикующий специалист должен оценить.
Кластерные стандартные ошибки предполагают, что является блочно-диагональным в соответствии с кластерами в выборке, с неограниченными значениями в каждом блоке, но с нулями в других местах. В этом случае можно определить и как внутриблочные аналоги и и вывести следующий математический факт:
Путем построения подключаемых матриц , можно составить оценку для что соответствует количеству кластеров становится большим. Несмотря на то, что статистически достаточное количество кластеров не доказано, специалисты-практики часто приводят число в диапазоне 30–50, и им удобно использовать кластерные стандартные ошибки, когда количество кластеров превышает этот порог.
использованная литература
- ^ Кэмерон, А. Колин; Миллер, Дуглас Л. (31 марта 2015 г.). «Практическое руководство по кластерно-устойчивому выводу». Журнал людских ресурсов. 50 (2): 317–372. Дои:10.3368 / jhr.50.2.317. ISSN 0022–166X. S2CID 1296789.
- ^ «АР 212». Фиона Берлиг. Получено 2020-07-05.
- ^ а б Бертран, Марианна; Дюфло, Эстер; Муллайнатан, Сендхил (1 февраля 2004 г.). «Насколько мы должны доверять оценкам разницы в различиях?». Ежеквартальный журнал экономики. 119 (1): 249–275. Дои:10.1162/003355304772839588. ISSN 0033-5533. S2CID 470667.
- ^ Исинь Тан (2019-09-11). «Анализ экспериментов с обратным переключением с помощью кластерной устойчивой стандартной ошибки для предотвращения ложноположительных результатов». Блог разработчиков DoorDash. Получено 2020-07-05.
- ^ Лян, Кунг-Йи; Зегер, Скотт Л. (1986-04-01). «Продольный анализ данных с использованием обобщенных линейных моделей». Биометрика. 73 (1): 13–22. Дои:10.1093 / biomet / 73.1.13. ISSN 0006-3444.
- ^ Абади, Альберто; Ати, Сьюзен; Имбенс, Гвидо; Вулдридж, Джеффри (2017-10-24). «Когда следует корректировать стандартные ошибки для кластеризации?». arXiv:1710.02926 [math.ST ].
- ^ «Когда следует кластеризовать стандартные ошибки? Новая мудрость от оракула эконометрики». blogs.worldbank.org. Получено 2020-07-05.