Коэффициент корреляции - Correlation ratio

В статистика, то коэффициент корреляции это мера отношения между статистическая дисперсия в пределах отдельных категорий и дисперсия по всей генеральной совокупности или выборке. Мера определяется как соотношение из двух Стандартное отклонение представляющие эти типы вариаций. Контекст здесь такой же, как у коэффициент внутриклассовой корреляции, значение которого является квадратом коэффициента корреляции.

Определение

Предположим, что каждое наблюдение yxi где Икс указывает категорию, к которой относится наблюдение, и я это метка конкретного наблюдения. Позволять пИкс быть количеством наблюдений в категории Икс и

и

где среднее значение категории Икс и это среднее значение для всего населения. Коэффициент корреляции η (эта ) определяется как удовлетворение

который можно записать как

т.е. взвешенная дисперсия среднего значения категории, деленная на дисперсию всех выборок.

Если соотношение между значениями и ценности является линейным (что, безусловно, верно, когда есть только две возможности для Икс) это даст тот же результат, что и квадрат Пирсона коэффициент корреляции; в противном случае коэффициент корреляции будет больше по величине. Следовательно, его можно использовать для оценки нелинейных отношений.

Ассортимент

Коэффициент корреляции принимает значения от 0 до 1. Предел представляет собой частный случай отсутствия разброса среди средств различных категорий, в то время как означает отсутствие разброса по соответствующим категориям. не определено, если все точки данных полной генеральной совокупности принимают одно и то же значение.

пример

Предположим, есть распределение результатов тестирования по трем темам (категориям):

  • Алгебра: 45, 70, 29, 15 и 21 (5 баллов)
  • Геометрия: 40, 20, 30 и 42 (4 балла)
  • Статистика: 65, 95, 80, 70, 85 и 73 (6 баллов).

Тогда средние значения для испытуемых составляют 36, 33 и 78, а общее среднее - 52.

Суммы квадратов отличий от средних по предметам составляют 1952 для алгебры, 308 для геометрии и 600 для статистики, добавляя к 2860. Общая сумма квадратов отличий от общего среднего составляет 9640. Разница между ними составляет 6780. также взвешенная сумма квадратов разностей между средними значениями испытуемых и общим средним значением:

Это дает

предполагая, что большая часть общего разброса является результатом различий между темами, а не внутри тем. Извлечение квадратного корня дает

Для общий разброс выборки объясняется исключительно разбросом по категориям, а вовсе не разбросом внутри отдельных категорий. Для быстрого понимания просто представьте, что все баллы по алгебре, геометрии и статистике одинаковы соответственно, например 5 раз 36, 4 раза 33, 6 раз 78.

Предел относится к случаю без разброса по категориям, способствующего общему разбросу. Тривиальное требование для этой крайности состоит в том, чтобы все средние по категории были одинаковыми.

Пирсон против Фишера

Коэффициент корреляции был введен Карл Пирсон как часть дисперсионный анализ. Рональд Фишер прокомментировал:

В качестве описательной статистики полезность коэффициента корреляции чрезвычайно ограничена. Следует отметить, что количество степени свободы в числителе зависит от количества массивов[1]

которому Эгон Пирсон (Сын Карла) ответил, сказав

Опять же, давно зарекомендовавший себя метод, такой как использование коэффициента корреляции [§45 «Коэффициент корреляции» η], обходится в нескольких словах без адекватного описания, что, возможно, вряд ли справедливо по отношению к студенту, которому не предоставляется возможность судя по его размаху сам.[2]

использованная литература

  1. ^ Рональд Фишер (1926) Статистические методы для научных работников, ISBN  0-05-002170-2 (отрывок)
  2. ^ Пирсон Э.С. (1926) "Обзор статистических методов для научных работников (Р. А. Фишер)", Научный прогресс, 20, 733-734. (отрывок)