Нормативный тест - Norm-referenced test - Wikipedia

А нормативный тест (NRT) является разновидностью тест, оценка, или же оценка что дает оценку положения тестируемого человека в заранее определенной популяции по отношению к измеряемому признаку. Присвоение баллов по таким тестам можно описать как относительная оценка, маркировка на кривой (БЫТЬ ) или же оценка по кривой (AE, CE ) (также называемый криволинейная сортировка, колокол изогнутый, или используя кривые оценки). Это метод выставления оценок учащимся в классе таким образом, чтобы получить или приблизиться к заранее определенному распределение этих сортов, обладающих определенным средним и производными свойствами, такими как нормальное распределение (также называемый Гауссовский распределение).[1] Термин «кривая» относится к кривая колокола, графическое представление плотности вероятности нормального распределения, но этот метод может использоваться для достижения любого желаемого распределения оценок - например, равномерное распределение.

Оценка получена на основе анализа результатов тестов и, возможно, других соответствующих данных образец взяты из населения. Таким образом, этот тип теста определяет, справился ли тестируемый лучше или хуже, чем другие тестируемые, а не знает ли тестируемый больше или меньше материала, чем необходимо для данной цели.

Период, термин нормативная оценка относится к процессу сравнения одного тестируемого с его или ее сверстниками.

Оценку, основанную на нормах, можно противопоставить оценка по критериям и ипсативная оценка. В оценке, основанной на критериях, оценка показывает, хорошо или плохо тестируемые выполнили данное задание, а не то, как это соотносится с другими тестируемыми; в ипсативной системе тестируемых сравнивают с предыдущими результатами.

Один и тот же тест можно использовать обоими способами.[2]

Роберт Глейзер первоначально ввел термины нормативный тест и критериальный тест.[3]

Общее использование

Многие вступительные экзамены в колледжи и общепринятые школьные тесты используют нормативные тесты. В СИДЕЛ, Выпускной экзамен (GRE) и Шкала интеллекта Векслера для детей (WISC) сравнивает индивидуальную успеваемость учащихся с успеваемостью нормативной выборки. Тестируемые не могут «провалить» нормативный тест, так как каждый тестируемый получает оценку, которая сравнивает индивидуума с другими, сдавшими тест, обычно выражаемая процентилем. Это полезно, когда существует широкий диапазон допустимых оценок, и цель состоит в том, чтобы выяснить, кто лучше работает.

IQ тесты являются стандартными тестами, потому что их цель - увидеть, кто из испытуемых умнее других. Для среднего IQ установлено значение 100, и все тестируемые оцениваются вверх или вниз по сравнению с этим уровнем.

Театр прослушивания и собеседование являются нормативными тестами, потому что их цель - выявить лучшего кандидата по сравнению с другими кандидатами, а не определить, сколько из кандидатов соответствует фиксированному списку стандартов.

Другие типы

В качестве альтернативы нормативному тестированию тесты могут быть ипсативными оценками или оценками, основанными на критериях.

При ипсативной оценке производительность отдельных лиц сравнивается только с их предыдущими показателями.[4][5] Например, о человеке, соблюдающем диету для похудания, судят по тому, как его текущий вес сравнивается с его собственным предыдущим весом, а не по тому, как его вес сравнивается с идеальным или как он сравнивается с другим человеком.

На критерий ссылаются, когда производительность оценивается в соответствии с ожидаемым или желаемым поведением. Тесты, которые оценивают тестируемого на основе установленного стандарта (например, каждый должен быть в состоянии пробежать один километр менее чем за пять минут), являются тестами с указанием критериев. Цель критериального теста - выяснить, может ли человек бегать так быстро, как того хочет исследователь, а не выяснить, быстрее он или медленнее, чем другие бегуны. Реформа образования на основе стандартов фокусируется на тестировании на основе критериев.[6][7] Большинство повседневных тестов и викторин, проводимых в школе, а также большинство государственных тестов и выпускные экзамены средней школы, ссылаются на критерии. В этой модели все тестируемые могут сдать или все сдать экзамен.

Методы

Один из методов оценки кривой состоит из трех этапов:

  1. Числовые баллы (или, возможно, баллы по достаточно мелкой порядковая шкала ) назначаются студентам. Абсолютные значения менее актуальны при условии, что порядок выставления баллов соответствует относительной успеваемости каждого студента в рамках курса.
  2. Эти оценки конвертируются в процентили (или какая-то другая система квантили ).
  3. Значения процентилей преобразуются в оценки в соответствии с делением шкалы процентилей на интервалы, где ширина интервала каждой оценки указывает желаемую относительную частоту для этой оценки.

Например, если в конкретном университетском курсе пять оценок: A, B, C, D и F, где A зарезервировано для 20% лучших студентов, B - для следующих 30%, C - для следующих 30%. -40% и D или F для оставшихся 10% -20%, тогда оценки в интервале процентилей от 0% до 20% получат оценку D или F, оценки от 21% до 50% получат оценку C, баллы от 51% до 80% получают оценку B, а баллы от 81% до 100% дают оценку A.

В соответствии с примером, проиллюстрированным выше, кривая оценок позволяет академическим учреждениям обеспечить распределение студентов по определенным средний балл (GPA) пороги. Поскольку многие профессора устанавливают кривую для достижения среднего показателя по курсу C[требуется разъяснение ]соответствующий средний балл будет равен 2,0 по стандартной шкале 4,0, используемой в большинстве университетов Северной Америки.[1] Точно так же средний балл 3,0 по шкале 4,0 означает, что учащийся входит в 20% лучших учеников класса. Кривые оценки служат для придания дополнительному значению этим цифрам, и конкретное используемое распределение может варьироваться между академическими учреждениями.[8]

Преимущества и ограничения

Основным преимуществом эталонных тестов является то, что они могут предоставить информацию о том, как результаты теста индивидуума сравниваются с результатами других в эталонной группе.

Серьезным ограничением эталонных тестов является то, что эталонная группа может не представлять интересующую нас популяцию. Как отмечает Орегонский научно-исследовательский институт с Пул международных личностей веб-сайт: «Следует очень осторожно использовать стандартные« нормы », потому что не очевидно, что можно когда-либо найти популяцию, репрезентативной подмножеством которой является нынешняя выборка. Большинство« норм »вводят в заблуждение, и поэтому они не должны быть Гораздо более оправданными являются местные нормы, которые человек разрабатывает самостоятельно. Например, если кто-то хочет дать обратную связь членам класса учеников, нужно связать оценку каждого человека со средними и стандартными отклонениями, полученными от самого класса . Для максимальной информативности можно предоставить учащимся частотное распределение для каждой шкалы, основанное на этих местных нормах, а затем люди могут найти (и обвести) свои собственные оценки по этим релевантным распределениям ". [9]

Ссылка на нормы не гарантирует, что тест действителен (т. Е. Что он измеряет конструкт, который предназначен для измерения).

Еще один недостаток тестов, основанных на нормах, заключается в том, что они не могут измерить прогресс популяции в целом, а только там, где отдельные люди попадают в это целое. Скорее, нужно измерять по фиксированной цели, например, чтобы измерить успех программы образовательной реформы, которая направлена ​​на повышение успеваемости всех учащихся.

При тестировании с привязкой к норме уровень оценки традиционно устанавливался на уровне средних 50 процентов баллов.[10] Напротив, Национальный фонд детского чтения считает, что важно обеспечить, чтобы практически все дети читали на уровне или выше к третьему классу, что не может быть достигнуто с помощью нормального определения уровня обучения.[11]

Нормы не подразумевают автоматически стандарт. Нормативный тест не направлен на усиление каких-либо ожиданий относительно того, что испытуемые должны знать или уметь. Он измеряет текущий уровень тестируемых, сравнивая их с их сверстниками. Система, основанная на рейтингах, дает только данные, которые говорят о том, какие ученики успевают на среднем уровне, какие ученики успевают лучше, а какие хуже. Он не определяет, какие тестируемые способны правильно выполнять задания на уровне, приемлемом для работы или дальнейшего образования.

Конечная цель оценочных кривых - минимизировать или исключить влияние различий между разными преподавателями одного и того же курса, гарантируя, что учащиеся в любом данном классе оцениваются по сравнению с их сверстниками. Это также позволяет обойти проблемы, связанные с использованием нескольких версий конкретного экзамена, метод, который часто используется, когда даты проведения теста различаются между разделами класса. Независимо от разницы в уровне сложности, реальной или предполагаемой, кривая оценок обеспечивает сбалансированное распределение академических результатов.

Однако изогнутая шкала оценок может повысить конкуренцию между студентами и повлиять на их чувство справедливости преподавателей в классе. Студенты, как правило, больше всего огорчаются, когда кривая снижает их оценку по сравнению с тем, что они получили бы, если бы кривая не использовалась. Чтобы этого не произошло, учителя обычно прилагают усилия к тому, чтобы сам тест был достаточно сложным, когда они намереваются использовать оценочную кривую, чтобы они ожидали, что средний ученик получит более низкий исходный балл, чем балл, предназначенный для использоваться в качестве среднего значения кривой, что гарантирует получение выгоды от кривой для всех учащихся. Таким образом, криволинейные оценки не могут использоваться вслепую и должны быть тщательно рассмотрены и продуманы по сравнению с альтернативами, такими как оценка по критерию. Кроме того, постоянное неправильное использование изогнутых оценок может привести к корректировке оценок за плохо спланированные тесты, тогда как оценки должны быть разработаны таким образом, чтобы точно отражать цели обучения, поставленные преподавателем.[12]

Смотрите также

Рекомендации

  1. ^ а б Роэлл, Келли. "Что такое оценка по кривой?". About.com. Получено 13 ноября, 2013.
  2. ^ Кронбах, Л. Дж. (1970). Основы психологического тестирования (3-е изд.). Нью-Йорк: Харпер и Роу.
  3. ^ Глейзер, Р. (1963). «Учебные технологии и измерение результатов обучения». Американский психолог. 18: 510–522. Дои:10,1037 / ч0049294.
  4. ^ Оценка
  5. ^ «PDF-презентация» (PDF). Архивировано из оригинал (PDF) на 2015-09-24. Получено 2006-07-21.
  6. ^ рассказы 5-01.html[постоянная мертвая ссылка ] Fairtest.org: Times on Test Тесты с «ссылками на критерии» оценивают учащихся по фиксированному критерию, а не друг с другом.
  7. ^ «Архивная копия». Архивировано из оригинал на 2010-04-14. Получено 2010-04-14.CS1 maint: заархивированная копия как заголовок (связь) Стандарты обучения Иллинойса
  8. ^ Волох, Евгений (9 февраля 2015 г.). "Похвала выставлению оценок по кривой". Вашингтон Пост. Получено 18 мая 2017. Как и в случае с демократией, выставление оценок по кривой может быть наихудшей из возможных систем - за исключением всех альтернатив.
  9. ^ Орегонский научно-исследовательский институт, веб-сайт IPIP, http://ipip.ori.org/newNorms.htm
  10. ^ [1] NCTM: News & Media: Assessment Issues (Newsbulletin April 2004) «по определению, половина учащихся страны в любой конкретный момент находится ниже уровня своего класса»
  11. ^ [2] В архиве 2007-03-11 на Wayback Machine Сайт Национального фонда детского чтения
  12. ^ Риз, Майкл (13 мая 2013 г.). «Изгибать или не изгибать». Блог инновационного инструктора. Университет Джона Хопкинса. Получено 13 мая, 2013.

внешняя ссылка