Теория отклика предмета - Item response theory

В психометрия, теория ответа элемента (IRT) (также известный как теория скрытых черт, сильная истинная теория оценок, или же современная теория ментальных тестов) является парадигмой для разработки, анализа и оценки тесты, анкеты, и аналогичные инструменты измерение способности, отношения или другие переменные. Это теория тестирования, основанная на взаимосвязи между показателями отдельных лиц по заданию теста и уровнями успеваемости тестируемых по общему показателю способности, для измерения которого был разработан этот элемент. Несколько различных статистических моделей используются для представления как заданий, так и характеристик испытуемых.[1] В отличие от более простых альтернатив для создания шкал и оценки ответов на вопросник, он не предполагает, что каждый пункт одинаково сложен. Это отличает IRT, например, от Масштабирование по Лайкерту, в котором "Предполагается, что все элементы являются копиями друг друга или, другими словами, элементы считаются параллельными инструментами "[2] (стр.197). Напротив, теория ответов заданий рассматривает сложность каждого задания (характеристические кривые задания или ICC ) в качестве информации, которая должна быть включена в элементы масштабирования.

Он основан на применении связанных математические модели к тестированию данные. Потому что его часто считают выше классическая теория тестирования,[3] это предпочтительный метод разработки весов в США,[нужна цитата ] особенно когда требуются оптимальные решения, как в так называемых тесты с высокими ставками, например, Выпускной экзамен (GRE) и Вступительный экзамен в аспирантуру (GMAT).

Название теория ответа элемента Это связано с тем, что теория сосредоточена на задании, в отличие от классической теории тестирования, ориентированной на уровень тестирования. Таким образом, IRT моделирует реакцию каждого испытуемого с заданной способностью на каждый элемент теста. Период, термин элемент является универсальным и охватывает все виды информационных материалов. Они могут быть множественный выбор вопросы, на которые есть неправильные и правильные ответы, но также часто встречаются в анкетах, которые позволяют респондентам указать уровень согласия ( рейтинг или же Шкала Лайкерта ), или симптомы пациента, оцениваемые как присутствующие / отсутствующие, или диагностическая информация в сложных системах.

IRT основан на идее, что вероятность правильного / ключевого ответа на элемент - это математическая функция человека и предмета параметры. (Выражение «математическая функция параметров человека и предмета» аналогично Курта Левина уравнение В = f (P, E), который утверждает, что поведение является функцией человека в его окружении.) Параметр person истолковывается как (обычно) единственная скрытая черта или измерение. Примеры включают общие интеллект или сила отношения. Параметры, по которым элементы характеризуются, включают их сложность (известную как «местоположение» из-за их расположения в диапазоне сложности); дискриминация (наклон или корреляция), показывающая, насколько резко степень успеха людей зависит от их способностей; и параметр псевдогадания, характеризующий (нижний) асимптота при котором даже наименее способные люди получат баллы из-за догадок (например, 25% за чистый шанс по заданию с несколькими вариантами ответов с четырьмя возможными ответами).

Таким же образом IRT можно использовать для измерения поведения людей в социальных сетях. Мнения, выраженные разными людьми, можно объединить для изучения с помощью IRT. Также оценивалось его использование для классификации информации как дезинформации или достоверной информации.

Обзор

Концепция функции ответа элемента существовала до 1950 года. Пионерская работа IRT как теории произошла в 1950-х и 1960-х годах. Трое пионеров были Служба образовательного тестирования психометрический врач Фредерик М. Лорд,[4] датский математик Георг Раш, и австрийский социолог Пол Лазарсфельд, которые самостоятельно проводили параллельные исследования. Ключевые фигуры, которые способствовали развитию IRT, включают: Бенджамин Дрейк Райт и Дэвид Андрич. IRT не получила широкого распространения до конца 1970-х и 1980-х годов, когда практикам рассказали о «полезности» и «преимуществах» IRT, с одной стороны, и персональные компьютеры дала многим исследователям доступ к вычислительной мощности, необходимой для IRT, с другой.

Среди прочего, цель IRT - предоставить основу для оценки того, насколько хорошо работают оценки и насколько хорошо работают отдельные элементы оценок. Чаще всего IRT применяется в образовании, где психометристы используют его для разработки и проектирования. Экзамены, ведение банка заданий для экзаменов и приравнивание сложность заданий для последовательных версий экзаменов (например, для сравнения результатов во времени).[5]

IRT-модели часто называют модели скрытых признаков. Период, термин скрытый используется, чтобы подчеркнуть, что дискретные ответы на вопросы наблюдаемые проявления гипотетических черт, конструкций или атрибутов, которые не наблюдаются напрямую, но которые должны быть выведены из явных ответов. Модели скрытых черт были разработаны в области социологии, но практически идентичны моделям IRT.

IRT обычно считается улучшением по сравнению с классическая теория тестирования (CTT). Для задач, которые можно выполнить с помощью CTT, IRT обычно обеспечивает большую гибкость и предоставляет более сложную информацию. Некоторые приложения, например компьютеризированное адаптивное тестирование, поддерживаются IRT и не могут быть выполнены с использованием только классической теории тестирования. Еще одно преимущество IRT перед CTT заключается в том, что более подробная информация, которую предоставляет IRT, позволяет исследователю улучшить надежность оценки.

IRT предполагает три допущения:

  1. Одномерный признак, обозначаемый  ;
  2. Местная независимость предметов;
  3. Реакцию человека на предмет можно смоделировать с помощью математической функция ответа элемента (IRF).

Далее предполагается, что признак поддается измерению по шкале (это предполагает простое существование теста), обычно устанавливаемой на стандартную шкалу с иметь в виду 0,0 и стандартное отклонение 1.0. Одномерность следует интерпретировать как однородность, качество, которое должно быть определено или эмпирически продемонстрировано в отношении данной цели или использования, но не как количество, которое можно измерить. «Локальная независимость» означает (а) что вероятность использования одного предмета не связана с каким-либо другим предметом (ами), и (б) что ответ на предмет является независимым решением каждого тестируемого, то есть, здесь нет обмана, парной или групповой работы. Тема размерности часто исследуется факторный анализ, в то время как IRF является основным строительным блоком IRT и является центром большей части исследований и литературы.

Функция ответа элемента

IRF дает вероятность того, что человек с заданным уровнем способностей ответит правильно. Люди с более низкими способностями имеют меньше шансов, в то время как люди с высокими способностями скорее всего ответят правильно; например, учащиеся с более высокими математическими способностями с большей вероятностью получат правильный предмет по математике. Точное значение вероятности зависит, помимо способности, от набора параметры товара для IRF.

Трехпараметрическая логистическая модель

Рисунок 1: Пример 3PL IRF с наложенными пунктирными линиями для демонстрации параметров.

Например, в трехпараметрическая логистическая модель (3PL), вероятность правильного ответа на дихотомический элемент я, обычно это вопрос с несколькими вариантами ответа:

куда указывает, что способности человека смоделированы как выборка из нормального распределения с целью оценки параметров элемента. После того, как параметры задания были оценены, оцениваются способности отдельного человека для целей отчетности. , , и параметры элемента. Параметры элемента определяют форму IRF. На рисунке 1 изображен идеальный 3PL ICC.

Параметры предмета можно интерпретировать как изменение формы стандартного логистическая функция:

Вкратце, параметры интерпретируются следующим образом (для удобства чтения индексы опускаются); б является самым основным, поэтому перечислено первым:

  • б - сложность, расположение предмета: на полпути между (мин.) и 1 (макс.), также там, где наклон максимален.
  • а - дискриминация, масштаб, крутизна: максимальная крутизна
  • c - псевдогадание, шанс, асимптотический минимум

Если тогда они упрощаются до и означающий, что б равен 50% уровню успеха (сложности), и а (разделенное на четыре) - это максимальный наклон (дискриминация), который возникает на уровне успеха 50%. Далее логит (бревно шансы ) правильного ответа (при условии ): в частности, если способность θ равно сложности б, есть четные шансы (1: 1, поэтому логит 0) правильного ответа, чем больше способность выше (или ниже) трудности, тем более (или менее) вероятно, что правильный ответ с различением а определение того, насколько быстро шансы увеличиваются или уменьшаются в зависимости от способности.

Другими словами, стандартная логистическая функция имеет асимптотический минимум 0 (), с центром около 0 (, ), и имеет максимальный наклон В параметр растягивает горизонтальную шкалу, параметр сдвигает горизонтальный масштаб, а сжимает вертикальный масштаб из к Это подробно описано ниже.

Параметр представляет собой местоположение элемента, которое в случае тестирования достижений называется сложностью задания. Это точка где IRF имеет максимальный наклон, а значение находится посередине между минимальным значением и максимальное значение 1. Пример средней сложности, так как = 0,0, что близко к центру распределения. Обратите внимание, что эта модель масштабирует сложность предмета и черту человека в одном континууме. Таким образом, допустимо говорить о том, что предмет настолько же сложен, как уровень черты человека А, или что уровень черты человека примерно такой же, как и сложность предмета Y, в том смысле, что успешное выполнение задачи, связанной с предметом, отражает конкретный уровень способности.

Параметр элемента представляет собой различение предмета: то есть степень, в которой предмет различает людей в разных регионах скрытого континуума. Этот параметр характеризует наклон IRF, где наклон максимален. В примере товара есть = 1.0, что достаточно хорошо различает; у людей с низкими способностями действительно гораздо меньше шансов правильно ответить, чем у людей с более высокими способностями. Этот параметр дискриминации соответствует весовому коэффициенту соответствующего элемента или индикатора в стандартной взвешенной линейной (обыкновенные наименьшие квадраты, OLS ) регрессии и, следовательно, может быть использован для создания взвешенного индекса индикаторов для неконтролируемого измерения скрытой концепции.

Для таких предметов, как множественный выбор items, параметр используется для того, чтобы учесть влияние предположений на вероятность правильного ответа. Он указывает на вероятность того, что люди с очень низкими способностями получат этот предмет случайно, математически представленная как более низкий асимптота. Элемент с множественным выбором из четырех вариантов может иметь IRF, как в примере элемента; вероятность того, что кандидат с чрезвычайно низкими способностями угадает правильный ответ, составляет 1/4, поэтому будет примерно 0,25. Этот подход предполагает, что все варианты одинаково правдоподобны, потому что, если один вариант не имеет смысла, даже человек с самыми низкими способностями сможет отказаться от него, поэтому методы оценки параметров IRT принимают это во внимание и оценивают на основании данных наблюдений.[6]

IRT модели

Вообще говоря, модели IRT можно разделить на два семейства: одномерные и многомерные. Одномерные модели требуют единственного измерения черты (способности) . Многомерные модели IRT моделируют данные об ответах, которые предположительно возникают из нескольких характеристик. Однако из-за значительного увеличения сложности в большинстве исследований и приложений IRT используется одномерная модель.

Модели IRT также можно разделить на категории в зависимости от количества полученных ответов. Типичный множественный выбор товар дихотомический; хотя может быть четыре или пять вариантов, он все равно оценивается только как правильный / неправильный (правильный / неправильный). Другой класс моделей относится к политомический исходы, где каждый ответ имеет различную оценку.[7][8] Типичный пример этого: Likert элементы типа, например, «Оцените по шкале от 1 до 5».

Количество параметров IRT

Дихотомические модели IRT описываются количеством используемых в них параметров.[9] 3PL назван так, потому что он использует три параметра элемента. Двухпараметрическая модель (2PL) предполагает, что данные не предполагают никаких предположений, но элементы могут варьироваться в зависимости от местоположения () и дискриминация (). Однопараметрическая модель (1PL) предполагает, что угадывание является частью способности и что все элементы, которые соответствуют модели, имеют эквивалентные различия, так что элементы описываются только одним параметром (). Это приводит к однопараметрическим моделям, обладающим свойством конкретной объективности, что означает, что уровень сложности задания одинаков для всех респондентов независимо от способностей, и что ранг способности человека одинаков для заданий независимо от сложности. Таким образом, однопараметрические модели не зависят от выборки, а это свойство не выполняется для двухпараметрических и трехпараметрических моделей. Кроме того, теоретически существует четырехпараметрическая модель (4PL) с верхним асимптота, обозначаемый куда в 3PL заменяется на . Однако это используется редко. Обратите внимание, что алфавитный порядок параметров пункта не соответствует их практической или психометрической значимости; расположение / сложность () является наиболее важным параметром, поскольку он включен во все три модели. 1PL использует только , 2PL использует и , 3PL добавляет , а 4PL добавляет .

2PL эквивалентен модели 3PL с , и подходит для тестовых заданий, в которых угадывание правильного ответа маловероятно, таких как задания с заполнением пробелов («Какой квадратный корень из 121?») или где концепция угадывания не применяется, например как элементы личности, отношения или интереса (например, «Мне нравятся бродвейские мюзиклы. Согласен / не согласен»).

1PL предполагает не только то, что угадывание отсутствует (или не имеет отношения к делу), но и что все элементы эквивалентны с точки зрения различения, аналогично обычному факторный анализ с одинаковой загрузкой по всем позициям. Отдельные предметы или отдельные лица могут иметь вторичные факторы, но предполагается, что они взаимно независимы и все вместе ортогональный.

Логистические и обычные модели IRT

Альтернативная формулировка строит IRF на основе нормального распределения вероятностей; их иногда называют нормальный прощать модели. Например, формула для двухпараметрической нормально-оживляющей IRF:

куда Φ это кумулятивная функция распределения (CDF) стандартного нормального распределения.

Нормально-положительная модель основана на предположении о нормально распределенной ошибке измерения и теоретически привлекательна на этой основе. Здесь это опять же параметр сложности. Параметр дискриминации равен , стандартное отклонение ошибки измерения для элемента я, и сравнимо с 1 /.

Можно оценить модель латентных черт с нормальным даром путем факторного анализа матрицы тетрахорических корреляций между элементами.[10] Это означает, что технически возможно оценить простую модель IRT с использованием статистического программного обеспечения общего назначения.

При изменении масштаба параметра способности можно сделать логистическую модель 2PL, максимально приближенную к совокупная норма оживить. Как правило, логистические IRF 2PL и IRF с нормальным положением различаются по вероятности не более чем на 0,01 в диапазоне функции. Однако наибольшая разница наблюдается в хвостах распределения, которые, как правило, имеют большее влияние на результаты.

Модель скрытых признаков / IRT была первоначально разработана с использованием обычных огивов, но в то время (1960-е годы) она считалась слишком требовательной к вычислениям для компьютеров. Логистическая модель была предложена как более простая альтернатива и с тех пор широко используется. Однако недавно было продемонстрировано, что с помощью стандартных полиномиальных приближений к нормальному CDF,[11] Модель normal-ogive требует вычислений не больше, чем логистические модели.[12]

Модель Раша

В Модель раша часто считается моделью 1PL IRT. Однако сторонники моделирования Раша предпочитают рассматривать его как совершенно другой подход к концептуализации взаимосвязи между данными и теорией.[13] Как и другие подходы к статистическому моделированию, IRT подчеркивает приоритет соответствия модели наблюдаемым данным,[14] в то время как модель Раша подчеркивает приоритет требований к фундаментальным измерениям, при этом адекватная подгонка модели данных является важным, но второстепенным требованием, которое необходимо выполнить, прежде чем можно будет заявить, что тестовый или исследовательский инструмент может измерить признак.[15] С практической точки зрения это означает, что подходы IRT включают дополнительные параметры модели для отражения паттернов, наблюдаемых в данных (например, позволяя элементам варьироваться в их корреляции со скрытым признаком), тогда как в подходе Раша утверждения о наличии латентного признака может считаться действительным только тогда, когда (а) данные соответствуют модели Раша, и (б) тестовые задания и экзаменуемые соответствуют модели. Следовательно, согласно моделям Раша, несовпадающие ответы требуют диагностики причины несоответствия и могут быть исключены из набора данных, если можно по существу объяснить, почему они не обращаются к латентному признаку.[16] Таким образом, подход Раша можно рассматривать как подтверждающий подход в отличие от исследовательских подходов, которые пытаются моделировать наблюдаемые данные.

Наличие или отсутствие параметра предположения или псевдошанса является важным и иногда спорным отличием. Подход IRT включает параметр левой асимптоты для учета предположений в множественный выбор исследований, в то время как модель Раша - нет, потому что предполагается, что угадывание добавляет к данным случайно распределенный шум. Поскольку шум распределен случайным образом, предполагается, что при условии тестирования достаточного количества элементов ранжирование людей по скрытому признаку по необработанной оценке не изменится, а просто подвергнется линейному масштабированию. Напротив, трехпараметрическая IRT обеспечивает соответствие модели данных путем выбора модели, которая соответствует данным,[17] за счет принесения в жертву конкретная объективность.

На практике модель Раша имеет как минимум два основных преимущества по сравнению с подходом IRT. Первое преимущество - это приоритет специфических требований Раша,[18] который (при соблюдении) обеспечивает фундаментальный измерение без участия человека (где люди и предметы могут быть отображены в одной и той же инвариантной шкале).[19] Еще одно преимущество подхода Раша состоит в том, что оценка параметров более проста в моделях Раша из-за наличия достаточной статистики, которая в этом приложении означает взаимно однозначное сопоставление необработанных количественно-правильных оценок с Рашем. оценки.[20]

Анализ соответствия модели

Как и при любом использовании математических моделей, важно оценить соответствие данных модели. Если установлено, что несоответствие задания какой-либо модели связано с плохим качеством задания, например, вводя в заблуждение отвлекающих факторов в тесте с множественным выбором, то элементы могут быть удалены из этой формы теста и переписаны или заменены в будущих формах теста. Если, однако, возникает большое количество элементов несоответствия без очевидной причины несоответствия, необходимо будет пересмотреть конструктивную валидность теста и, возможно, придется переписать спецификации теста. Таким образом, misfit предоставляет неоценимые инструменты диагностики для разработчиков тестов, позволяя эмпирически проверять гипотезы, на которых основаны спецификации тестов, на основе данных.

Есть несколько методов оценки соответствия, например Статистика хи-квадрат, или его стандартизированная версия. Двух- и трехпараметрические модели IRT регулируют различение элементов, обеспечивая улучшенное соответствие модели данных, поэтому статистике соответствия не хватает подтверждающей диагностической ценности, обнаруженной в однопараметрических моделях, где идеализированная модель указывается заранее.

Данные не следует удалять на основании несоответствия модели, а скорее потому, что была диагностирована конструктивно релевантная причина несоответствия, например, не носитель английского языка, сдающий тест по естественным наукам, написанный на английском языке. Можно утверждать, что такой кандидат не принадлежит к одной и той же совокупности людей в зависимости от размерности теста, и, хотя считается, что измерения одного параметра IRT не зависят от выборки, они не являются независимыми от совокупности, поэтому такое несоответствие является построение релевантного и не делает недействительным тест или модель. Такой подход является важным инструментом при валидации инструментов. В двух- и трехпараметрических моделях, где психометрическая модель корректируется для соответствия данным, будущие администрации теста должны проверяться на соответствие той же модели, которая использовалась при первоначальной валидации, чтобы подтвердить гипотезу, согласно которой оценки каждой администрации обобщают другим администрациям. Если для каждой администрации указывается другая модель, чтобы добиться соответствия модели данных, то измеряется другой скрытый признак, и нельзя утверждать, что результаты тестов можно сопоставить между администрациями.

Информация

Одним из важнейших вкладов теории ответов на вопросы является расширение концепции надежность. Традиционно надежность относится к точности измерения (т. Е. Степени, в которой измерение не содержит ошибок). Традиционно он измеряется с использованием единого индекса, определяемого различными способами, например отношения истинной и наблюдаемой дисперсии оценок. Этот индекс полезен для характеристики средней надежности теста, например, для сравнения двух тестов. Но IRT ясно дает понять, что точность неодинакова по всему диапазону результатов тестов. Например, баллы на краю диапазона теста обычно имеют больше ошибок, чем баллы ближе к середине диапазона.

Теория отклика элемента развивает концепцию информации элемента и тестовой информации, чтобы заменить надежность. Информация также функция параметров модели. Например, согласно Информация Fisher Согласно теории, информация об элементе, предоставляемая в случае 1PL для данных дихотомического ответа, представляет собой просто вероятность правильного ответа, умноженную на вероятность неправильного ответа, или

В стандартная ошибка оценки (SE) - это величина, обратная тестовой информации на данном уровне признака, является

Таким образом, больше информации означает меньшую погрешность измерения.

Для других моделей, таких как модели с двумя и тремя параметрами, параметр дискриминации играет важную роль в функции.Информационная функция элемента для двухпараметрической модели:

Информационная функция элемента для трехпараметрической модели:

[21]

В общем, информационные функции элемента имеют тенденцию выглядеть колоколообразно. Элементы с высокой степенью различения имеют высокие, узкие информационные функции; они вносят большой вклад, но в узком диапазоне. Менее разборчивые элементы предоставляют меньше информации, но в более широком диапазоне.

Графики информации об элементе можно использовать, чтобы увидеть, сколько информации вносит элемент и в какую часть диапазона баллов шкалы. Из-за местной независимости функции информации о предметах добавка. Таким образом, информационная функция теста - это просто сумма информационных функций пунктов экзамена. Используя это свойство с большим банком элементов, можно настроить функции тестовой информации для управления погрешность измерения очень точно.

Характеризуя точность результатов тестов - это, пожалуй, центральный вопрос психометрической теории и главное различие между IRT и CTT. Результаты IRT показывают, что концепция надежности CTT является упрощением. Вместо надежности IRT предлагает функцию тестовой информации, которая показывает степень точности при различных значениях тета, θ.

Эти результаты позволяют психометристам (потенциально) тщательно определять уровень надежности для различных диапазонов способностей, включая тщательно подобранные элементы. Например, в сертификация ситуация, когда тест может быть пройден или не пройден, где есть только один «проходной балл» и где фактический проходной балл не важен, можно разработать очень эффективный тест, выбрав только те элементы, которые имеют высокую информацию рядом с нарезным баллом. Эти задания обычно соответствуют заданиям, сложность которых примерно такая же, как у оценок.

Подсчет очков

Параметр человека представляет собой величину скрытая черта человека, который является человеческим потенциалом или атрибутом, измеренным тестом.[22] Это могут быть когнитивные способности, физические способности, навыки, знания, отношение, личностные характеристики и т. Д.

Оценка параметра «человек» - «балл» по тесту с IRT - вычисляется и интерпретируется совершенно иначе, чем традиционные оценки, такие как число или процент правильных ответов. Общая оценка индивидуального правильного числа не является фактической оценкой, а скорее основана на IRF, что приводит к взвешенной оценке, когда модель содержит параметры распознавания элементов. Фактически он получается путем умножения функции ответа элемента для каждого элемента, чтобы получить функция правдоподобия, высшая точка которого - оценка максимального правдоподобия из . Эта наивысшая точка обычно оценивается с помощью программного обеспечения IRT с использованием Ньютон-Рафсон метод.[23] Хотя подсчет очков в IRT намного сложнее, для большинства тестов (линейный) корреляция между тета-оценкой и традиционной оценкой очень высока; часто это 0,95 или больше. График оценок IRT по сравнению с традиционными оценками показывает оживленную форму, что означает, что IRT оценивает отдельных лиц на границах диапазона больше, чем в середине.

Важным различием между CTT и IRT является обработка ошибки измерения, индексируемой стандартная ошибка измерения. Все тесты, анкеты и инвентаризации - неточные инструменты; мы никогда не сможем узнать человека истинный счет, а скорее всего лишь оценка, наблюдаемая оценка. Существует некоторая случайная ошибка, которая может подтолкнуть наблюдаемую оценку выше или ниже истинной. CTT предполагает, что количество ошибок одинаково для каждого экзаменуемого, но IRT позволяет ему варьироваться.[24]

Кроме того, ничто в IRT не опровергает человеческого развития или улучшения или предполагает, что уровень черты фиксирован. Человек может приобрести навыки, знания или даже так называемые «навыки сдачи тестов», которые могут привести к более высокому истинному баллу. Фактически, часть исследований IRT сосредоточена на измерении изменения уровня черт.[25]

Сравнение классической теории и теории ответа на вопросы

Классическая теория тестирования (CTT) и IRT в основном связаны с одними и теми же проблемами, но представляют собой разные области теории и влекут за собой разные методы. Хотя две парадигмы в целом согласованы и дополняют друг друга, между ними есть ряд различий:

  • IRT делает более сильные предположения, чем CTT, и во многих случаях дает, соответственно, более убедительные выводы; прежде всего, характеристики ошибки. Конечно, эти результаты верны только тогда, когда предположения моделей IRT действительно выполняются.
  • Хотя результаты CTT позволили получить важные практические результаты, модель IRT дает много преимуществ по сравнению с аналогичными результатами CTT.
  • Процедуры оценки теста CTT имеют то преимущество, что их просто вычислить (и объяснить), тогда как оценка IRT обычно требует относительно сложных процедур оценки.
  • IRT предоставляет несколько улучшений в масштабировании предметов и людей. Специфика зависит от модели IRT, но большинство моделей масштабируют сложность предметов и способности людей по одной и той же метрике. Таким образом, можно осмысленно сравнить сложность предмета и способности человека.
  • Еще одно улучшение, обеспечиваемое IRT, заключается в том, что параметры моделей IRT, как правило, не зависят от выборки или теста, тогда как истинная оценка определяется в CTT в контексте конкретного теста. Таким образом, IRT обеспечивает значительно большую гибкость в ситуациях, когда используются разные образцы или тестовые формы. Эти результаты IRT являются основополагающими для компьютеризированного адаптивного тестирования.

Стоит также упомянуть некоторые конкретные сходства между CTT и IRT, которые помогают понять соответствие между концепциями. Во-первых, Господь[26] показал, что в предположении, что нормально распределен, дискриминация в модели 2PL составляет примерно монотонная функция из точечно-бисериальная корреляция. Особенно:

куда - точечная бисерийная корреляция элемента я. Таким образом, если предположение верно, то там, где имеется более высокая дискриминация, обычно будет более высокая точка-бисерийная корреляция.

Другое сходство заключается в том, что хотя IRT обеспечивает стандартную ошибку каждой оценки и информационную функцию, также возможно получить индекс для теста в целом, который прямо аналогичен Альфа Кронбаха, называется индекс разделения. Для этого необходимо начать с разложения оценки IRT на истинное местоположение и ошибку, аналогично разложению наблюдаемой оценки на истинную оценку и ошибку в CTT. Позволять

куда истинное местоположение, и это связь ошибки с оценкой. потом оценка стандартного отклонения для человека с данной взвешенной оценкой и индекс разделения получается следующим образом

где среднеквадратичная стандартная ошибка оценки человека дает оценку дисперсии ошибок, , через лиц. Стандартные ошибки обычно возникают как побочный продукт процесса оценки. Индекс разделения обычно очень близок по значению к альфе Кронбаха.[27]

IRT иногда называют сильная истинная теория оценок или же современная теория ментальных тестов потому что это более поздний корпус теории и более явные гипотезы, неявные в CTT.

Смотрите также

Рекомендации

  1. ^ Национальный совет по измерениям в образовании http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorI В архиве 2017-07-22 в Wayback Machine
  2. ^ А. ван Альфен, Р. Халфенс, А. Хасман и Т. Имбос. (1994). Лайкерт или Раш? Нет ничего более применимого, чем хорошая теория. Журнал Advanced Nursing. 20, 196-201
  3. ^ Embretson, Susan E .; Райз, Стивен П. (2000). Теория отклика на предмет для психологов. Психология Press. ISBN  9780805828191.
  4. ^ Обзор исследования ETS
  5. ^ Хэмблтон, Р. К., Сваминатан, Х. и Роджерс, Х. Дж. (1991). Основы теории отклика на предмет. Ньюбери-Парк, Калифорния: Sage Press.
  6. ^ Bock, R.D .; Айткин М. (1981). «Оценка предельного максимального правдоподобия параметров объекта: применение алгоритма EM». Психометрика. 46 (4): 443–459. Дои:10.1007 / BF02293801.
  7. ^ Остини, Ремо; Неринг, Майкл Л. (2005). Модели теории отклика политомного элемента. Количественные приложения в социальных науках. 144. МУДРЕЦ. ISBN  978-0-7619-3068-6.
  8. ^ Неринг, Майкл Л .; Остини, Ремо, ред. (2010). Справочник по моделям теории политомного ответа. Тейлор и Фрэнсис. ISBN  978-0-8058-5992-8.
  9. ^ Тиссен Д. и Орландо М. (2001). Теория ответа на вопросы, полученные по двум категориям. В D. Thissen & Wainer, H. (Eds.), Подсчет очков (стр. 73-140). Махва, Нью-Джерси: Lawrence Erlbaum Associates, Inc.
  10. ^ К. Г. Йореског и Д. Сёрбом (1988). PRELIS 1 руководство пользователя, версия 1. Чикаго: Scientific Software, Inc.
  11. ^ Абрамовиц М., Стегун И.А. (1972). Справочник по математическим функциям. Вашингтон, округ Колумбия: Государственная типография США.
  12. ^ Uebersax, J.S. (Декабрь 1999 г.). «Пробит анализ латентных классов с дихотомическими или упорядоченными категориальными мерами: модели условной независимости / зависимости». Прикладное психологическое измерение. 23 (4): 283–297. Дои:10.1177/01466219922031400.
  13. ^ Андрич, Д. (1989), Различия между допущениями и требованиями в измерениях в социальных науках », в Китс, Дж. А., Тафт, Р., Хит, Р. А., Ловибонд, С. (ред.), Математические и теоретические системы, Издательство Elsevier Science Publishers, Северная Голландия, Амстердам, стр. 7–16.
  14. ^ Стейнберг, Дж. (2000). Фредерик Лорд, придумавший критерий тестирования, умер в возрасте 87 лет. New York Times, 10 февраля 2000 г.
  15. ^ Андрич, Д. (январь 2004 г.). «Противоречие и модель Раша: характеристика несовместимых парадигм?». Медицинская помощь. 42 (1): I – 7. Дои:10.1097 / 01.mlr.0000103528.48582.7c. PMID  14707751.
  16. ^ Смит, Р. (1990). «Теория и практика подгонки». Сделки по измерениям Раша. 3 (4): 78.
  17. ^ Zwick, R .; Thayer, D.T .; Вингерский, М. (декабрь 1995 г.). «Влияние калибровки Раша на оценку способностей и DIF в компьютерно-адаптивных тестах». Журнал образовательных измерений. 32 (4): 341–363. Дои:10.1111 / j.1745-3984.1995.tb00471.x.
  18. ^ Раш, Г. (1960/1980). Вероятностные модели для некоторых тестов интеллекта и достижений. (Копенгаген, Датский институт исследований в области образования), расширенное издание (1980 г.) с предисловием и послесловием Б.Д. Райт. Чикаго: Издательство Чикагского университета.
  19. ^ Райт, Б.Д. (1992). «IRT в 1990-е годы: какие модели работают лучше всего?». Сделки по измерению Раша. 6 (1): 196–200.
  20. ^ Фишер, Г. И Molenaar, I.W. (1995). Модели Раша: основы, последние разработки и приложения. Нью-Йорк: Спрингер.
  21. ^ де Аяла, Р.Дж. (2009). Теория и практика теории отклика предмета, Нью-Йорк, Нью-Йорк: Гилфорд Пресс. (6.12), стр.144
  22. ^ Лазарсфельд П.Ф. и Генри Н.В. (1968). Скрытый структурный анализ. Бостон: Хоутон Миффлин.
  23. ^ Томпсон, Н.А. (2009). «Оценка способностей с IRT» (PDF).
  24. ^ Колен, Майкл Дж .; Цзэн, Линцзя; Хэнсон, Брэдли А. (июнь 1996 г.). «Условные стандартные ошибки измерения шкал с использованием IRT». Журнал образовательных измерений. 33 (2): 129–140. Дои:10.1111 / j.1745-3984.1996.tb00485.x.
  25. ^ Холл, Л.А., и Макдональд, Дж. Л. (2000). Измерение изменений в восприятии учителями влияния развития персонала на обучение. Доклад, представленный на Ежегодном собрании Американской ассоциации исследований в области образования (Новый Орлеан, Луизиана, 24–28 апреля 2000 г.).
  26. ^ Лорд, Ф. (1980). Применение теории отклика элемента к практическим задачам тестирования. Махва, Нью-Джерси: Lawrence Erlbaum Associates, Inc.
  27. ^ Андрич, Д. (1982). «Индекс разделения людей в теории скрытых черт, традиционный индекс KR.20 и образец ответа по шкале Гуттмана». Образовательные исследования и перспективы. 9: 95–104.

дальнейшее чтение

Было написано много книг, которые затрагивают теорию отклика элементов или содержат модели IRT или IRT. Это неполный список, в котором основное внимание уделяется текстам, которые обеспечивают большую глубину.

  • Лорд, Ф. (1980). Применение теории отклика элемента к практическим задачам тестирования. Махва, Нью-Джерси: Эрлбаум.
В этой книге кратко излагается большая часть работы Лорда по IRT, включая главы, посвященные взаимосвязи между IRT и классическими методами, основам IRT, оценке и ряду сложных тем. Его глава оценки теперь датирована тем, что в ней в основном обсуждается совместный метод максимального правдоподобия, а не предельная максимальная вероятность Метод, реализованный Дарреллом Боком и его коллегами.
Эта книга представляет собой доступное введение в IRT, предназначенное, как сказано в названии, для психологов.
  • Бейкер, Фрэнк (2001). Основы теории ответов на вопросы. Информационный центр ERIC по оценке и оценке, Мэрилендский университет, Колледж-Парк, Мэриленд.
Эта вводная книга написана одним из пионеров в этой области и доступна на сайте [1]
В этой книге описываются различные модели теории отклика предметов и дается подробное объяснение алгоритмов, которые можно использовать для оценки параметров предмета и способностей. Отдельные части книги доступны в режиме ограниченного просмотра в Интернете по адресу Google Книги.
Эта книга представляет собой исчерпывающий обзор различных популярных моделей IRT. Он хорошо подходит для людей, которые уже получили базовое понимание IRT.
В этом томе представлено комплексное введение в модели ответов на вопросы, в основном предназначенное для практиков, исследователей и аспирантов.
В этой книге обсуждается байесовский подход к моделированию реакции элемента. Книга будет полезна лицам (знакомым с IRT), интересующимся анализом данных ответов на вопросы с байесовской точки зрения.

внешняя ссылка