Внутренняя валидность - Internal validity

Внутренняя валидность степень, в которой доказательства подтверждают утверждение о причина и следствие в контексте конкретного исследования. Это одно из важнейших свойств научных исследований и важное понятие в рассуждениях о свидетельство в более общем смысле. Внутренняя валидность определяется тем, насколько хорошо исследование может исключить альтернативные объяснения своих выводов (обычно источники систематическая ошибка или «предвзятость»). Это контрастирует с внешняя валидность, степень, в которой результаты могут оправдать выводы о других контекстах (т. е. степень, в которой результаты могут быть обобщенный ).

Подробности

Считается, что выводы обладают внутренней достоверностью, если причинно-следственная связь между двумя переменные правильно продемонстрировано.^[1]^[2] Действительный причинный вывод может быть произведено при соблюдении трех критериев:

«причина» предшествует «следствию» во времени (приоритет во времени),
"причина" и "следствие" имеют тенденцию происходить вместе (ковариация), и
нет никаких правдоподобных альтернативных объяснений наблюдаемой ковариации (непредсказуемости).^[2]

В условиях научных экспериментов исследователи часто изменяют состояние одной переменной ( независимая переменная ), чтобы увидеть, как он влияет на вторую переменную ( зависимая переменная ).^[3] Например, исследователь может манипулировать дозировкой определенного лекарства между разными группами людей, чтобы увидеть, какое влияние он оказывает на здоровье. В этом примере исследователь хочет сделать причинно-следственный вывод, а именно, что могут применяться разные дозы препарата. нести ответственность для наблюдаемых изменений или различий. Когда исследователь может уверенно отнести наблюдаемые изменения или различия в зависимой переменной к независимой переменной (то есть, когда исследователь наблюдает связь между этими переменными и может исключить другие объяснения или конкурирующие гипотезы), то причинный вывод считается внутренне достоверным.^[4]

Однако во многих случаях размер эффектов найденный в зависимой переменной может зависеть не только от

вариации независимой переменной,
то мощность инструментов и статистических процедур, используемых для измерения и обнаружения эффектов, и
выбор статистических методов (см .: Достоверность статистического заключения ).

Скорее, ряд неконтролируемых (или неконтролируемых) переменных или обстоятельств может привести к дополнительным или альтернативным объяснениям (а) обнаруженных эффектов и / или (b) величины обнаруженных эффектов. Следовательно, внутренняя валидность больше зависит от степени, чем от «либо-либо», и именно поэтому исследовательские планы, отличные от истинных экспериментов, также могут давать результаты с высокой степенью внутренней достоверности.

Чтобы сделать выводы с высокой степенью внутренней достоверности, при разработке исследования могут быть приняты меры предосторожности. Как правило, выводы, основанные на прямом манипулировании независимой переменной, допускают большую внутреннюю достоверность, чем выводы, основанные на ассоциации, наблюдаемой без манипуляций.

Если рассматривать только внутреннюю валидность, строго контролируемые истинные экспериментальные планы (то есть со случайным выбором, случайным распределением в контрольную или экспериментальную группы, надежные инструменты, надежные процессы манипуляции и гарантии против мешающих факторов) могут быть «золотым стандартом» научных исследований. . Однако сами методы, используемые для повышения внутренней достоверности, могут также ограничивать возможность обобщения или внешняя валидность выводов. Например, изучение поведения животных в зоопарке может облегчить получение достоверных причинно-следственных выводов в этом контексте, но эти выводы могут не распространяться на поведение животных в дикой природе. В общем, типичный эксперимент в лаборатории по изучению конкретного процесса может не учитывать многие переменные, которые обычно сильно влияют на этот процесс в природе.

Примеры угроз

Для восьми из этих угроз существует первая буква мнемоника ЭТОТ БЕСПОРЯДОК, который относится к первым буквам Тэстинг (повторное тестирование), ЧАСистория язамена инструмента, SСтатистическая регрессия к среднему, Mприсуждение, Eэкспериментальная смертность, Sвыборы и Sизбирательное взаимодействие.^[5]

Неоднозначный временной приоритет

Когда неизвестно, какая переменная изменилась первой, бывает сложно определить, какая переменная является причиной, а какая - следствием.

Сбивает с толку

Основная угроза обоснованности причинных выводов - это: сбивать с толку: Изменения зависимой переменной можно скорее отнести к вариациям третьей переменной, которая связана с управляемой переменной. Где ложные отношения не исключено, могут быть разработаны гипотезы, конкурирующие с исходным причинным выводом.

Критерий отбора

Систематическая ошибка отбора относится к проблеме, заключающейся в том, что при предварительном тестировании между группами существуют различия, которые могут взаимодействовать с независимой переменной и, таким образом, быть «ответственными» за наблюдаемый результат. Исследователи и участники привносят в эксперимент множество характеристик, одни из которых усвоены, а другие присущи. Например, пол, вес, волосы, цвет глаз и кожи, личность, умственные и физические способности, а также такие отношения, как мотивация или готовность участвовать.

Если на этапе отбора исследовательского исследования у неравного числа испытуемых есть похожие предметные переменные, возникает угроза внутренней валидности. Например, исследователь создал две тестовые группы: экспериментальную и контрольную. Субъекты в обеих группах не похожи по независимой переменной, но похожи по одной или нескольким связанным с субъектом переменным.

Самовыбор также отрицательно сказывается на интерпретирующей способности зависимой переменной. Это часто происходит в онлайн-опросах, когда люди определенной демографии выбирают тест с большей частотой, чем другие демографические группы.

История

События вне исследования / эксперимента или между повторными измерениями зависимой переменной могут повлиять на реакцию участников на экспериментальные процедуры. Часто это крупномасштабные события (стихийные бедствия, политические изменения и т. Д.), Которые влияют на отношение и поведение участников, так что становится невозможным определить, вызвано ли какое-либо изменение зависимых показателей независимой переменной или историческим событием. .

Созревание

Субъекты меняются в ходе эксперимента или даже между измерениями. Например, маленькие дети могут повзрослеть, и их способность к концентрации может измениться по мере взросления. И постоянные изменения, такие как физический рост, и временные, такие как усталость, дают «естественные» альтернативные объяснения; таким образом, они могут изменить то, как испытуемый будет реагировать на независимую переменную. Таким образом, по завершении исследования исследователь, возможно, не сможет определить, связана ли причина несоответствия со временем или независимой переменной.

Повторное тестирование (также называемое эффектами тестирования)

Неоднократное измерение участников может привести к смещению. Участники могут помнить правильные ответы или могут знать, что они проходят тестирование. Неоднократное прохождение (одинаковых или аналогичных) тестов интеллекта обычно приводит к увеличению количества баллов, но вместо того, чтобы сделать вывод о том, что базовые навыки изменились навсегда, эта угроза внутренней валидности дает хорошие альтернативные гипотезы.

Смена инструмента (инструментальность)

Инструмент, используемый в процессе тестирования, может изменить эксперимент. Это также относится к наблюдателям, которые были более сконцентрированы, настроены или бессознательно изменили критерии, которые они используют для вынесения суждений. Это также может быть проблемой, когда показатели самоотчета предоставляются в разное время. В этом случае влияние может быть уменьшено за счет использования предварительного ретроспективного тестирования. Если происходят какие-либо изменения в инструментах, это влияет на внутреннюю достоверность основного вывода, поскольку альтернативные объяснения легко доступны.

Регресс к среднему

Этот тип ошибки возникает, когда испытуемые выбираются на основе экстремальных баллов (один далеко от среднего) во время теста. Например, когда для участия в курсе чтения отбираются дети с наихудшими оценками по чтению, улучшения в конце курса могут быть связаны с регрессом к среднему значению, а не с эффективностью курса. Если бы дети прошли повторное тестирование до начала курса, они, вероятно, в любом случае получили бы более высокие баллы. Аналогичным образом, экстремальные выбросы по отдельным баллам с большей вероятностью будут зафиксированы в одном случае тестирования, но, вероятно, превратятся в более нормальное распределение при повторении. тестирование.

Смертность / дифференциальная убыль

Эта ошибка возникает, если выводы делаются на основе только тех участников, которые участвовали от начала до конца. Однако участники могли выбыть из исследования до завершения, а может быть, даже из-за самого исследования, программы или эксперимента. Например, процент членов группы, бросивших курить во время послетеста, был намного выше в группе, получившей программу обучения отказу от курения, чем в контрольной группе. Однако в экспериментальной группе только 60% выполнили программу. Если этот отсев систематически связан с какой-либо особенностью исследования, применением независимой переменной, инструментарием или если отсев приводит к соответствующему смещению между группами, возможен целый класс альтернативных объяснений, которые объясняют наблюдаемые различия.

Взаимодействие селекции и созревания

Это происходит, когда связанные с предметом переменные, цвет волос, цвет кожи и т. Д., И переменные, связанные со временем, возраст, физический размер и т. Д., Взаимодействуют. Если между тестами возникает расхождение между двумя группами, расхождение может быть связано с возрастными различиями в возрастных категориях.

Распространение

Если эффекты лечения распространяются от групп лечения к контрольным группам, может наблюдаться отсутствие различий между экспериментальной и контрольной группами. Однако это не означает, что независимая переменная не имеет никакого эффекта или что нет связи между зависимой и независимой переменной.

Компенсационное соперничество / возмущенная деморализация

Поведение в контрольных группах может измениться в результате исследования. Например, члены контрольной группы могут усердно работать, чтобы увидеть, что ожидаемое превосходство экспериментальной группы не продемонстрировано. Опять же, это не означает, что независимая переменная не оказала никакого влияния или что нет никакой связи между зависимой и независимой переменной. И наоборот, изменения в зависимой переменной могут быть затронуты только из-за деморализованной контрольной группы, менее напряженной или мотивированной, а не из-за независимой переменной.

Предвзятость экспериментатора

Систематическая ошибка экспериментатора возникает, когда люди, проводящие эксперимент, непреднамеренно влияют на результат, неосознанно ведя себя по-разному по отношению к членам контрольной и экспериментальной групп. Исключить возможность предвзятости экспериментатора можно за счет использования двойной слепой дизайн исследования, в котором экспериментатор не осведомлен о состоянии, к которому принадлежит участник.

Смотрите также

внешняя ссылка

Внутренняя валидность (Методы социальных исследований)

[1] Брюэр, М. (2000). Дизайн исследования и вопросы обоснованности. В Reis, H. и Judd, C. (ред.) Справочник по методам исследования в социальной психологии и психологии личности. Кембридж: Издательство Кембриджского университета.

[Shadish-2] а ^б Шадиш, В., Кук, Т., и Кэмпбелл, Д. (2002). Экспериментальные и квазиэкспериментальные планы для обобщенного причинного вывода Boston: Houghton Mifflin.

[3] Левин, Г. и Паркинсон, С. (1994). Экспериментальные методы в психологии. Хиллсдейл, Нью-Джерси: Лоуренс Эрлбаум.

[4] Либерт Р. М. и Либерт Л. Л. (1995). Наука и поведение: Введение в методы психологического исследования. Энглвуд Клиффс, Нью-Джерси: Prentice Hall.

[5] Вортман, П. М. (1983). «Оценочное исследование - методологическая перспектива». Ежегодный обзор психологии. 34: 223–260. Дои:10.1146 / annurev.ps.34.020183.001255.

[1]

[2]

[3]

[4]

[5]