Простая линейная регрессия - Simple linear regression

Закон Окуня в макроэкономика является примером простой линейной регрессии. Здесь предполагается, что зависимая переменная (рост ВВП) находится в линейной зависимости от изменений уровня безработицы.

В статистика, простая линейная регрессия это линейная регрессия модель с одиночным объясняющая переменная.[1][2][3][4][5] То есть это касается двумерных точек выборки с одна независимая переменная и одна зависимая переменная (условно Икс и у координаты в Декартова система координат ) и находит линейную функцию (невертикальную прямая линия ), который максимально точно предсказывает значения зависимой переменной как функцию независимой переменной. просто относится к тому факту, что переменная результата связана с одним предиктором.

Обычно делается дополнительное условие, что обыкновенный метод наименьших квадратов (OLS) метод: точность каждого предсказанного значения измеряется его квадратом остаточный (расстояние по вертикали между точкой набора данных и подобранной линией), и цель состоит в том, чтобы как можно меньше сумма этих квадратов отклонений. Другие методы регрессии, которые можно использовать вместо обычных наименьших квадратов, включают наименьшие абсолютные отклонения (минимизируя сумму абсолютных значений остатков) и Оценка Тейла – Сена (который выбирает строку, склон это медиана уклонов, определяемых парами точек выборки). Регрессия Деминга (метод наименьших квадратов) также находит линию, которая соответствует набору двумерных выборочных точек, но (в отличие от обычных наименьших квадратов, наименьших абсолютных отклонений и регрессии среднего наклона) на самом деле это не пример простой линейной регрессии, потому что она не разделять координаты на одну зависимую и одну независимую переменные и потенциально может возвращать вертикальную линию как подходящую.

Остальная часть статьи предполагает обычную регрессию наименьших квадратов. В этом случае наклон подобранной линии равен корреляция между у и Икс корректируется соотношением стандартных отклонений этих переменных. Пересечение подобранной линии таково, что линия проходит через центр масс. (Икс, у) точек данных.

Подгонка линии регрессии

Рассмотрим модель функция

который описывает линию с наклоном β и у-перехват α. В общем, такая взаимосвязь может не соблюдаться в точности для ненаблюдаемой совокупности значений независимых и зависимых переменных; мы называем ненаблюдаемые отклонения от приведенного выше уравнения ошибки. Предположим, мы наблюдаем п пары данных и называть их {(Икся, уя), я = 1, ..., п}. Мы можем описать лежащие в основе отношения между уя и Икся с этим термином ошибки εя к

Эта связь между истинными (но ненаблюдаемыми) базовыми параметрами α и β а точки данных называются моделью линейной регрессии.

Цель - найти оценочные значения и для параметров α и β что в некотором смысле обеспечило бы "наилучшее" соответствие точкам данных. Как упоминалось во введении, в этой статье "наилучшее" соответствие будет пониматься как в наименьших квадратов подход: линия, которая минимизирует сумму квадратов остатки (разница между фактическими и прогнозируемыми значениями зависимой переменной у), каждый из которых задается для любых возможных значений параметров и ,

Другими словами, и решить следующую задачу минимизации:

Расширяя, чтобы получить квадратное выражение в и мы можем получить значения и которые минимизируют целевую функцию Q (эти минимизирующие значения обозначены и ):[6]

Здесь мы ввели

Подставляя приведенные выше выражения для и в

дает

Это показывает, что рху - наклон линии регрессии стандартизированный точки данных (и что эта линия проходит через начало координат).

Обобщая обозначение, мы можем написать горизонтальную полосу над выражением, чтобы указать среднее значение этого выражения по набору образцов. Например:

Это обозначение позволяет нам составить краткую формулу для рху:

В коэффициент детерминации («R в квадрате») равно когда модель линейна с единственной независимой переменной. Видеть коэффициент корреляции выборки для получения дополнительных сведений.

Интуитивное объяснение

Умножив все элементы суммирования в числителе на: (тем самым не меняя его):

Мы можем видеть, что наклон (тангенс угла) линии регрессии является средневзвешенным значением то есть наклон (тангенс угла) линии, соединяющей i-ю точку со средним значением всех точек, взвешенный как потому что чем дальше точка, тем она «важнее», поскольку небольшие ошибки в ее положении меньше влияют на уклон, соединяющий ее с центральной точкой.

Данный с угол, который линия составляет с положительной осью x, мы имеем

Простая линейная регрессия без члена пересечения (одиночный регрессор)

Иногда уместно заставить линию регрессии проходить через начало координат, потому что Икс и у считаются пропорциональными. Для модели без члена пересечения у = βx, оценка МНК для β упрощается до

Подстановка (Иксчас, уk) на месте (Икс, у) дает регресс через (час, k):

где Cov и Var относятся к ковариации и дисперсии выборочных данных (без поправки на смещение).

Последняя форма выше демонстрирует, как перемещение линии от центра масс точек данных влияет на наклон.

Числовые свойства

  1. Линия регрессии проходит через центр массы точка, , если модель включает член перехвата (т. е. не проходит через начало координат).
  2. Сумма остатков равна нулю, если модель включает член пересечения:
  3. Остатки и Икс значения не коррелированы (независимо от того, есть ли в модели перехватывающий член), что означает:

Свойства на основе модели

Описание статистических свойств оценок на основе оценок простой линейной регрессии требует использования статистическая модель. Следующее основано на предположении о применимости модели, при которой оценки являются оптимальными. Также возможно оценить свойства при других предположениях, таких как неоднородность, но это обсуждается в другом месте.[требуется разъяснение ]

Непредвзятость

Оценщики и находятся беспристрастный.

Чтобы формализовать это утверждение, мы должны определить структуру, в которой эти оценки являются случайными величинами. Рассмотрим остатки εя как случайные величины, полученные независимо от некоторого распределения с нулевым средним. Другими словами, для каждого значения Икс, соответствующее значение у генерируется как средний ответ α + βx плюс дополнительная случайная величина ε называется срок ошибки, в среднем равняется нулю. При такой интерпретации оценки методом наименьших квадратов и сами будут случайными величинами, средние значения которых будут равны "истинным значениям" α и β. Это определение беспристрастной оценки.

Доверительные интервалы

Формулы, приведенные в предыдущем разделе, позволяют рассчитать точечные оценки из α и β - то есть коэффициенты линии регрессии для данного набора данных. Однако эти формулы не говорят нам, насколько точны оценки, то есть насколько они и варьироваться от образца к образцу для указанного размера выборки. Доверительные интервалы были разработаны, чтобы дать правдоподобный набор значений для оценок, которые можно было бы получить, если повторить эксперимент очень большое количество раз.

Стандартный метод построения доверительных интервалов для коэффициентов линейной регрессии основан на предположении нормальности, которое оправдано, если:

  1. ошибки в регрессии нормально распределенный (так называемой классическая регрессия предположение), или
  2. количество наблюдений п достаточно велика, и в этом случае оценка приблизительно нормально распределена.

Последний случай оправдан Центральная предельная теорема.

Предположение о нормальности

При первом предположении, приведенном выше, о нормальности членов ошибки, оценка коэффициента наклона сама будет нормально распределена со средним значением β и дисперсия куда σ2 - это дисперсия членов ошибки (см. Доказательства с использованием обыкновенных наименьших квадратов ). При этом сумма квадратов остатков Q распределяется пропорционально χ2 с п − 2 степеней свободы и независимо от . Это позволяет нам построить т-ценить

куда

это стандартная ошибка оценщика .

Этот т-значение имеет Студенты т -распространение с п − 2 степени свободы. Используя его, мы можем построить доверительный интервал для β:

на уровне уверенности (1 − γ), куда это квантиль тп−2 распределение. Например, если γ = 0.05 тогда уровень достоверности 95%.

Аналогично доверительный интервал для коэффициента пересечения α дан кем-то

на уровне уверенности (1 - γ), куда

В США регрессия «изменения безработицы - рост ВВП» с доверительными интервалами 95%.

Доверительные интервалы для α и β дают нам общее представление о том, где эти коэффициенты регрессии, скорее всего, будут находиться. Например, в Закон Окуня показана здесь регрессия, точечные оценки

95% доверительные интервалы для этих оценок:

Чтобы представить эту информацию графически в виде доверительных полос вокруг линии регрессии, нужно действовать осторожно и учитывать совместное распределение оценок. Это можно показать[7] что на уровне уверенности (1 -γ) доверительный интервал имеет гиперболический вид, задаваемый уравнением

Асимптотическое предположение

Альтернативное второе предположение гласит, что когда количество точек в наборе данных «достаточно велико», закон больших чисел и Центральная предельная теорема становятся применимыми, и тогда распределение оценок приближается к нормальному. При этом предположении все формулы, полученные в предыдущем разделе, остаются в силе, за исключением того, что квантиль т *п−2 из Студенты т распределение заменяется квантилем д * из стандартное нормальное распределение. Иногда фракция 1/п−2 заменяется на 1/п. Когда п такое изменение существенно не меняет результатов.

Числовой пример

Этот набор данных дает среднюю массу тела женщин в зависимости от их роста в выборке американских женщин в возрасте 30–39 лет. Хотя OLS В статье утверждается, что для этих данных было бы более подходящим запустить квадратичную регрессию, вместо этого здесь применяется простая модель линейной регрессии.

Высота (м), Икся1.471.501.521.551.571.601.631.651.681.701.731.751.781.801.83
Масса (кг), уя52.2153.1254.4855.8457.2058.5759.9361.2963.1164.4766.2868.1069.9272.1974.46
11.4752.212.160976.74872725.8841
21.5053.122.250079.68002821.7344
31.5254.482.310482.80962968.0704
41.5555.842.402586.55203118.1056
51.5757.202.464989.80403271.8400
61.6058.572.560093.71203430.4449
71.6359.932.656997.68593591.6049
81.6561.292.7225101.12853756.4641
91.6863.112.8224106.02483982.8721
101.7064.472.8900109.59904156.3809
111.7366.282.9929114.66444393.0384
121.7568.103.0625119.17504637.6100
131.7869.923.1684124.45764888.8064
141.8072.193.2400129.94205211.3961
151.8374.463.3489136.26185544.2916
24.76931.1741.05321548.245358498.5439

Есть п = 15 точек в этом наборе данных. Расчеты вручную начинаются с нахождения следующих пяти сумм:

Эти величины будут использоваться для расчета оценок коэффициентов регрессии и их стандартных ошибок.

График точек и линии наименьших квадратов в численном примере простой линейной регрессии

Квантиль Стьюдента 0,975 т-распределение с 13 степенями свободы т*13 = 2.1604, и, следовательно, 95% доверительные интервалы для α и β находятся

В коэффициент корреляции продукт-момент также можно рассчитать:

Этот пример также демонстрирует, что сложные вычисления не преодолеют использование плохо подготовленных данных. Первоначально высота была дана в дюймах и была преобразована в ближайший сантиметр. Поскольку преобразование привело к ошибке округления, это нет точное преобразование. Исходные дюймы могут быть восстановлены округлением (x / 0,0254), а затем преобразованы в метрическую систему без округления: если это будет сделано, результаты станут

Таким образом, кажущиеся небольшими отклонения в данных имеют реальный эффект.

Смотрите также

Рекомендации

  1. ^ Селтман, Ховард Дж. (2008-09-08). Экспериментальный дизайн и анализ (PDF). п. 227.
  2. ^ «Статистическая выборка и регрессия: простая линейная регрессия». Колумбийский университет. Получено 2016-10-17. Когда в регрессии используется одна независимая переменная, это называется простой регрессией; (...)
  3. ^ Лейн, Дэвид М. Введение в статистику (PDF). п. 462.
  4. ^ Zou KH; Tuncali K; Сильверман С.Г. (2003). «Корреляция и простая линейная регрессия». Радиология. 227 (3): 617–22. Дои:10.1148 / радиол.2273011499. ISSN  0033-8419. OCLC  110941167. PMID  12773666.
  5. ^ Альтман, Наоми; Кшивинский, Мартин (2015). «Простая линейная регрессия». Методы природы. 12 (11): 999–1000. Дои:10.1038 / nmeth.3627. ISSN  1548-7091. OCLC  5912005539. PMID  26824102.
  6. ^ Кенни, Дж. Ф. и Кепинг, Э. С. (1962) "Линейная регрессия и корреляция". Гл. 15 дюйм Математика статистики, Pt. 1, 3-е изд. Принстон, Нью-Джерси: Ван Ностранд, стр. 252–285.
  7. ^ Казелла, Г. и Бергер, Р. Л. (2002), «Статистический вывод» (2-е издание), Cengage, ISBN  978-0-534-24312-8С. 558–559.

внешняя ссылка