Лучшие вопросы
Таймлайн
Чат
Перспективы

Item Response Theory

Из Википедии, свободной энциклопедии

Remove ads

Современная теория тестирования (англ. Item Response Theory) — (иногда по-русски — Современная теория тестов, Теория ответов на задания, Теория моделирования и параметризации педагогических тестов) набор методов, позволяющий оценить вероятность правильного ответа испытуемых на задания различной трудности. Современная Теория Тестирования используется для того чтобы улучшить и оптимизировать процесс разработки, проведения и статистической обработки результатов измерений в образовании, психологии, социологии и других социальных науках.

В русском языке название Item Response Theory переводится различным образом. Ю.Нейман и В.Хлебников предлагают называть её "Теория моделирования и параметризации педагогических тестов" (ТМППТ)[1]. В.Аванесов — "Математико-статистическая теория оценки латентных параметров заданий теста и уровня подготовленности испытуемых"[2]. Однако одним из наиболее удачных способов перевода является "Современная Теория Тестирования", поскольку её модели описывают не тестовые задания и не тест сам по себе, а результат (а многие современные модели — и процесс) взаимодействия респондентов и заданий.

В психометрике Современная Теория Тестирования (IRT) является парадигмой для проектирования, анализа данных и оценки тестов, опросников и подобных измерительных инструментов. Эта теория предполагает, что существует возможность численно описать характеристики (параметры) респондентов, и характеристики (параметры) заданий, которые взаимодействуют между собой согласно уравнению модели, и определяют вероятность наблюдения каждого возможного ответа на задание. Для того, чтобы оценить эти параметры заданий и респондентов используются различные статистические модели. В отличие от более простых альтернатив для создания измерительных инструментов (например, Классической Теории Тестирования), Современная Теория Тестирования не предполагает, что каждый вопрос одинаково трудный. Это отличает IRT от, например, предположения Ликерта в шкалировании о том, что «все задания считаются репликациями друг друга или другими словами: задания считаются взаимозаменяемыми»[3]. Напротив, современная теория тестирования рассматривает параметры каждого задания как информацию, различающую задания внутри теста.

Таким образом, IRT моделирует вероятность ответа каждого респондента на каждое задание теста. Фундаментальной характеристикой современной теории тестирования и ключевой чертой её определения является идея статистического разделения параметров респондентов и заданий. То есть, вероятность правильного ответа на задание является результатом взаимодействия латентных параметров респондента и задания. Конкретный способ их взаимодействия определяется допущениями исследователя и транслируется в уравнение конкретной математической функции — модели современной теории тестирования.

Модели современной теории тестирования тесно связаны с факторным анализом [4], обобщенными линейными моделями смешанных эффектов [5] [6], моделями анализа латентных классов и когнитивной диагностики [7], сетевыми моделями из статистической физики (полями Маркова [8], моделями Изинга, Кюри-Вейса [9] и пр.), нейросетевыми моделями (ограниченными машинами Больцмана [10] и автокодировщиками [11]), и отдельными методами наук о данных (модельными методами коллаборативной фильтрации [12] (иногда, превосходя методы факторизации матриц для рекомендательных систем [13]), рейтингом Эло [14] и моделью Брэдли-Тэрри [15]). Современные модели IRT позволяют моделировать новые источники информации (например, время ответов, попытки решения заданий [16]); комплексные нелинейные (например, потолочные) зависимости между различными латентными переменными; моделировать эффекты рейтеров, которые начисляют баллы за открытые ответы (и позволяют достигать инвариантности итоговых оценок способности относительно рейтера); моделировать композитные и многомерные конструкты; моделировать изменения в уровне латентной переменной во времени; использовать дискретные оценки способности, превращающие модель ранжирования в классификатор, и т. д. На сегодняшний день, IRT — одна из самых передовых и теоретически обоснованных областей вычислительных наук о поведении.

В практике, IRT часто применяется для анализа того, насколько хорошо работает инструмент измерения в целом, и насколько хорошо работают отдельные задания внутри этого инструмента. Наиболее распространённая область применения современной теории тестирования — образование, где психометрики используют её для разработки и дизайна экзаменов, поддержки и обновления банков заданий для экзаменов [17]. В этой области, в силу высоких ставок решений, принимаемых по результатам тестирования, доказательство качества измерительного инструментария является крайне важным элементом ответственности разработчика и конкурентным преимуществом его инструмента. Модели Современной Теории Тестирования занимают в такой аргументации одно из ключевых мест.

Remove ads

История

Суммиров вкратце
Перспектива

Общим источником для создания IRT послужила так называемая логистическая функция вида , известная в биологической науке с 1844 года. С тех пор она широко применялась в биологии для моделирования прироста растительной массы или роста организмов. Как модель психологического и педагогического измерения она начала применяться, начиная с 50-х годов XX столетия. У истоков развития моделей IRT лежали стремление визуализировать формальные характеристики тестовых заданий, попытки преодолеть многочисленные недостатки классической теории тестов, повысить точность измерения и, наконец, стремление оптимизировать процедуру контроля за счёт адаптации теста к уровню подготовленности студента с помощью компьютера.

Первоначальные усилия по развитию IRT предпринимались в 1950-х и 1960-х годах. Эти усилия связаны с именами сотрудника организации Educational Testing Service [18] Фредерика Лорда, датского математика Георга Раша и австрийского социолога Пола Лазарсфельда. Тогда же возник преимущественно идеологический раскол, во многом потерявший релевантность в наши дни, между подходами Раша и Лорда. В то время, как Лорд стремился подобрать психометрическую модель, которая находилась бы в максимальном согласии с данными, даже жертвуя некоторыми желательными математическими свойствами модели, Раш стремился глубоко объяснить предварительно очищенные данные с помощью моделей менее гибких, но обеспечивающих удобные свойства для оценок параметров [19]. Ключевыми фигурами, развивавшими модели из семейства моделей Раша, являются Бенджамин Райт и Дэвид Андрич.

В числе первых предпосылок к созданию IRT стали те результаты исследовательской работы Альфред Бине и Теодор Симон[20], в которых было отражено стремление авторов выявить — как, образно говоря, "работают" те задания, которые они давали детям разного возраста. Расположив затем на координатной плоскости точки, где по оси абсцисс откладывался возраст (в годах), а по оси ординат — доля правильных ответов в каждой возрастной группе испытуемых, авторы увидели, что полученные точки, после усреднения по каждой группе, напоминают кривую, позже названной характеристической кривой заданий (Item Characteristic Curve, ICC) [21].

В 1936 году Марион Ричардсон провела обширное эмпирическое исследование, опросив 1200 студентов по 803 заданиям, в процессе которого студенты, в зависимости от полученного ими тестового балла, были разделены на 12 групп, по сто человек в каждой. Она первой обратила внимание на различающуюся крутизну кривых тестовых заданий и предложила рассматривать меру крутизны как примерную оценку дифференцирующей способности задания[22]. Ричардсон была, по-видимому, первой, осознавшей плодотворность использования усреднённых точек для графической презентации формальных характеристик заданий проектируемых тестов[23].

Remove ads

Функция ответа на тестовое задание

Суммиров вкратце
Перспектива
Thumb
Пример ожидаемой IRF одномерного дихотомиечского задания.
Thumb
Пример ожидаемой IRS дихотомиечского задания, в котором вероятность правильного ответа зависит от двух способностей.
Thumb
Пример ожидаемых характеристических кривых трех испытуемых (PCC).

Функция ответа на тестовое задание (Item Response Function, IRF) описывает математическое ожидание балла по заданию как функцию от уровня способности респондента. Когда задание является дихотомическим (допустимые баллы только 0 (полностью неправильно) или 1 (полностью правильно)), IRF описывает вероятность правильного решения задания в зависимости от уровня способности респондента. Графическое отображение IRF - это характеристическая кривая задания (Item Characteristic Curve, ICC). В случае т.н. внутренне-многомерных моделей IRT (within-item multidimensionality, когда ответ на задание зависит от более чем одной способности респондента [24]), ICC становится характеристической поверхностью задания (Item Characteristic Surface, ICS).

Понятие IRF является базовым для понимания IRT. Сама по себе форма ICC задается уравнением модели, в котором варьируются параметры респондентов и заданий. Соответственно, IRF варьируются от задания к заданию в рамках одной модели, а при переходе от одной модели IRT к другой, IRF могут получать новые свойства. В разных моделях IRT варьируется как количество и природа (непрерывная, дискретная) параметров респондентов и заданий, так и способы их взаимодействия. Однако, фундаментально, уравнение любой модели IRT стремится описать вероятность правильного ответа. В случае политомических заданий - вероятность наблюдения каждой из допустимых в задании категорий как ответа каждого респондента.

Выделяют ожидаемые (модельные) и эмпирические IRF. В то время, как модельная IRF - математическая функция, построенная исходя из оценок параметров задания, эмпирическая IRF строится исходя из данных [25]. Сравнение эмпирической и ожидаемой IRF (с учетом доверительного интервала или другого способа оценить статистическую значимость их различий [26]) является основой для оценки качества задания. В случае, если они различаются статистически значимо, изменение вероятности правильного ответа с ростом способности плохо описывается моделью. В таком случае, сторонники Раш-моделирования заявляют, что само задание имеет неудовлетворительное качество и требует переработки. В то же время, сторонники моделирования, следующего из традиций Лорда, заявляют, что психометрическая модель является ограниченной и плохо подходящей данным, что мотивирует выбор более сложной модели, способной описать "работу" такого задания лучше.

Такой анализ позволяет изучать работу измерительного инструмента детально. Например, с помощью такого анализа, разработчик инструмента измерения может выяснить, что какая-то из категорий политомического задания работает неправильно, и этим обосновать оптимизацию категорий шкалы Ликерта [27] или адресной переработки отдельных заданий. Это является преимуществом IRT по сравнению с анализом инструмента измерения в факторном анализе, который изучает согласие данных с моделью только на уровне всего инструмента, а не на уровне отдельных заданий.

В рамках семейства моделей Раша, можно так же построить характеристическую кривую респондента (Person Characteristic Curve, PCC). Такие графики показывают вероятность ответа одним и тем же респондентом на задания разной трудности (теперь, ось x отображает трудность задания). PCC имеют форму "обратную" по отношению к ICC, поскольку с ростом трудности задания, вероятность правильного решения убывает. Однако сравнение нескольких PCC респондентов с разным уровнем подготовки показывает, что чем выше уровень способности, тем выше вероятность правильного ответа. Тем не менее, поскольку респондентов, как правило, сильно больше, чем заданий, изучение PCC представляет меньше интереса.

Remove ads

Модели IRT

Суммиров вкратце
Перспектива

Модели IRT можно разделить на несколько семейств по разным основаниям. Одно из базовых таких оснований - это размерность. По этому основанию выделяют одномерные и многомерные IRT модели. Одномерные модели требуют только одного значения способности , чтобы описать все различия между респондентами (т.е. респонденты могут быть только сильнее или слабее). Предполагается, что ответы на задания в многомерных моделях IRT зависят от нескольких латентных переменных, описывающих респондентов (т.е., в то время, как один респондент может иметь более высокую способность чем другой по одной из переменных, в другой переменной этой разницы может не быть, или она может быть перевернута). Многомерные модели одновременно оценивают коэффициент корреляции (как правило, линейной) для того, чтобы описать отношения между разными способностями в популяции респондентов.

Модели IRT также можно классифицировать по количеству баллов в задании. Чаще всего задания бывают дихотомическими (возможные баллы — 0 (все неправильно) или 1 (все правильно)). Другой класс моделей применим к политомическим заданиям, где каждый ответ отражает частичную правильность выполнения задания[28]. Общим примером этого являются задания с ответной шкалой Ликерта, например "от 0 до 4".

Однако базово, модели IRT описывают по числу параметров заданий, использующихся для аналитического задания IRF.

Одномерные логистические дихотомические IRT модели

Однопараметрическая модель Раша

Thumb
Характеристические кривые (ICC) трех заданий с разной трудностью в 1PL модели.

Георг Раш предложил использовать модель, в которой вся разница между заданиями описывается одним параметром - их трудностью. Поэтому, эту модель часто называют однопараметрической логистической (1-Parameter Logistic, 1PL) IRT моделью:

,

где - это вероятность получения 1 балл за задание в зависимости от способности (респондента ),

- параметр способности респондентов (, но, обычно, для идентификации модели, способность маргинализирована до нормального распределения ), а

 — параметр трудности задания ().

Параметры и измеряются в логитах (значениях функции квантиля, связанной со стандартным логистическим распределением).

Иногда под знак экспоненты вносится множитель 1.702, который используется для совместимости модели Раша с моделью Джорджа Фергюсона, где вероятность правильного ответа на задание выражена интегралом нормального распределения (формулой кумулятивной плотности вероятности нормального распределения), что позволяет использовать вместо логистических кривых хорошо изученную интегральную функцию стандартного нормального распределения. Из-за этого, модель Фергюсона часто называют "1 Parametric Normal Ogive Model" (1PNO). Использование кумулятивной плотности нормального распределения так же позволяет связать эту модель с методами факторного анализа,

Взаимодействие двух множеств и образует данные, обладающие свойством «совместной аддитивности» (conjoint additivity). Использование модели Раша в корректном контексте позволяет достичь полной независимости параметров респондентов от того, на какие задания они отвечают, а параметров заданий - от того, какие респонденты на них отвечают. Это свойство измерений с помощью модели Раша носит название специфической объективности (specific objectivity).

Характерной чертой моделей семейства моделей Раша (включая политомические модели) является параллельность ICC (они не пересекаются). Это подразумевает, что вероятность решения более легкого задания всегда ниже, чем более трудного — это выстраивает иерархию заданий на всем континууме способности и позволяет её качественно интерпретировать.

Важно отметить, что параметр дискриминативности заданий может быть оценен в 1PL модели, но он должен являться одинаковым для всех заданий. В этом случае, для идентификации модели, , как во всех более общих моделях.

Двухпараметрическая модель Бирнбаума

Thumb
Характеристические кривые (ICC) трех заданий с одинаковой трудностью, но разной дискриминативностью в 2PL модели.

В 1968 году, Алан Бирнбаум независимо предложил двухпараметрическую модель, которая математически обобщает модель Георга Раша [29]. Если тест содержит задания с различной силой связи со способностью, то 1PL модель может плохо описывать такие данные. Для преодоления этой трудности А.Бирнбаум ввёл параметр дискриминативности:

,

где - это различительная (дифференцирующая) способность (дискриминативность) задания (однако если тест содержит обратные задания (в которых о наивысшем проявлении способности говорит наиболее неправильный вариант ответа) ).

Параметр определяет наклон (крутизну) ICC i-того задания. Чем больше значение тем круче кривая, и тем выше дифференцирующая способность задания. Эта модель очевидным образом обобщает 1PL модель. В случае, когда все значения , эта модель, естественным образом, становится 1PL моделью. Параметр дискриминативности является "весом" разницы между и , и имеет единицы измерения относительного "веса" задания в тесте.

Важно отметить, что в отличие от 1PL, в 2PL модели ICC разных заданий могут пересекаться (см. рис. ICC в 2PL). Задание с = 0.5 в области положительных значений способности является самым трудным из представленных трёх заданий, то есть вероятность правильного ответа на это задание самая низкая. В области же отрицательных значений способности, это же задание теперь уже самое лёгкое — вероятность правильного ответа на него наибольшая. Получается, что для слабых учащихся это самое лёгкое задание, а для сильных учащихся — самое трудное. Таким образом, в отличие от моделей Раша, иерархия заданий в 2PL выстраивается не на всем континууме способности, а от одного пересечения любых двух ICC до другого, после чего начинается новая иерархия заданий, что лишает анализ этих иерархий всяческих практических соображений.

По этой же причине, введение параметра "дискриминативности респондентов" лишено всякого смысла (см. [30]). Тогда ранжирование респондентов только по "уровню способности" недостаточно, и требует дополнительного ранжирования по их "дискриминативности". В таком случае, более сильные респонденты могут иметь более низкую вероятность решения определенных заданий, чем более слабые, что противоречит идеи ранжирования по респондентов по способности и усложняет интерпретацию.

Такая ситуация с пересечением ICC будет справедлива для всех более общих моделей, чем 1PL. По этой причине, построение т.н. "карт переменных" [31] не имеет смысла в моделях, более общих, чем модели из семейства Раша. Только параллельность характеристических кривых способна привести к свойству специфической объективности, то есть, только модели Раша способны обеспечить достижение независимости параметров респондентов и заданий друг от друга. Тем не менее, это не означает, что специфические проблемы психометрики нельзя решать в 2PL и более общих моделях.

Также, общим для 1PL и 2PL моделей является то, что в точках, где вероятность правильного ответа равна 0.5. То есть, если трудность задания равна уровню подготовленности испытуемого, то он с равной вероятностью может справиться или не справиться с этим заданием.

Трехпараметрическая модель Бирнбаума

Thumb
Характеристические кривые (ICC) трех заданий с одинаковой трудностью и дискриминативностью, но разной вероятностью угадывания в 3PL модели.

Для ещё лучшего согласия модели с эмпирическими данным А. Бирнбаум ввёл третий параметр угадывания:

,

где является третьим параметром задания - нижней асимптотой ICC, отличной от 0, (тем не менее, задания, в которых , считаются плохими). Этот параметр задает вероятность случайного угадывания правильного ответа на задание.

Наличие параметра угадывания приводит к пропорциональному сжатию ICC от до 1. Параметр измеряется напрямую в единицах вероятности. В этой модели, в точках, где , вероятность правильного ответа будет выше 0.5. В случае, когда все параметры , эта модель становится 2PL моделью.

Однако несмотря на свою популярность, 3PL модель не является идентифицированной. Это означает, что при простой фриквентистской оценке параметров модели, нет гарантии, что не существует другого набора значений параметров, которые обеспечивают точно такое же правдоподобие данных. Соответственно, у пользователя нет никаких аргументов для того, чтобы считать, что оцененный набор параметров является достоверным. В качестве решения этой проблемы, была предложена 1PL-G модель, в которой все дискриминативности заданий зафиксированы в значении 1, а все параметры угадывания оцениваются свободно [32].

Четырехпараметрическая модель

Одной из самых общих моделей в этом классе является 4PL модель [33]:

,

где является четвёртым параметром задания - верхней асимптотой ICC, отличной от 1, (тем не менее, задания, в которых , считаются плохими). Этот параметр задает вероятность случайной ошибки при ответе на задание.

В этой модели ICC сжимается подобно 3PL модели, но не от до 1, а от от до . Параметр измеряется напрямую в единицах вероятности. Аналогично 3PL модели, в точках, где , вероятность правильного ответа будет отличаться от 0.5 (за исключением случаев, когда ). В случае, когда все параметры , эта модель становится 3PL моделью. Парадоксальным образом, 4PL модель идентифицирована, в отличие от своего частного случая - 3PL модели [34].

Таким образом, модель 2PL является обобщением модели 1PL на случай с заданиями с разными параметрами дискриминативности, а модель 3PL — обобщением модели 2PL на случай с заданиями с разными параметрами угадывания, и при этом, она в свою очередь является частным случаем 4PL модели.

Также существуют "5PL" модели, описывающие задания с немонотонной ICC — той, которая отражает возрастание вероятности решения задания до определённого уровня способности, а затем её снижение (напр., [35]). Однако называть такие модели 5PL в полном смысле нельзя, потому что ни одна из моделей с немонотонными ICC не является строгим обобщением 4PL.

Remove ads

Теория информации в IRT

Суммиров вкратце
Перспектива

Одним из фундаментальных элементов IRT является ее связь с теорией информации, в частности, использование информации Фишера. Информация Фришера характеризует количество информации, которое наблюдаемая переменная дает о параметре распределения (или, более обще, параметре статистической модели, породившей ). Здесь применяется в общестатистическом смысле, как обозначение неизвестного параметра, который необходимо оценить). Информация Фишера измеряется в абстрактных единицах информации.

Формально, ожидаемая (теоретическая) информация Фишера по всей выборке определяется как ковариационная матрицаскалярном случае — дисперсия) градиента функции логарифмического правдоподобия (т.н. скор‑функции (или скоровой функции, от англ. "score")):

где — логарифм функции правдоподобия, а

гессиан логарифмического правдоподобия, вычисленный на данных (отрицательный гессиан является наблюдаемой информацией Фишера).

Эти равенства справедливы при стандартных регулярных условиях (в частности, и допустим перенос производной под знак интеграла).

Обратите внимание, что зависит от значения и является неотрицательно определённой матрицей: ; при идентифицированной модели положительно определена.

Информация Фишера задаёт границу Крамера—Рао для несмещённых оценок:

.

Соответственно, информация Фишера используется при вычислении стандартных ошибок оценок параметров. При стандартных регулярных условиях для оценок максимального правдоподобия (включая маргинальное максимальное правдоподобие (Marginal Maximum Likelihood) при корректной спецификации модели) выполняется асимптотическая нормальность:

где - это размер выборки.

Соответственно, справедливо приближение:

откуда и стандартные ошибки — корни из диагональных элементов:

На практике истинное значение параметра заменяют на оценку и используют ожидаемую информацию или наблюдаемую информацию . При корректной спецификации модели Если модель может быть неверно специфицирована, используют "сэндвич"‑оценку (один из видов робастных стандартных ошибок):

В случае IRT, информацию Фишера особенно удобно интерпретировать как "ожидаемую скорость изменения вероятности ответа при изменении оценки способности". Основой использования информации Фишера в IRT является информационная функция задания (Item Information Function, IIF). Из-за того, что информация Фишера задается исходя из конкретной IRT модели, для многих IRT моделей выведены закрытые уравнения для вычисления значения IIF.

Например, для 1PL модели, это:

где - это количество информации Фишера, которое задание предоставляет об уровне способности (IIF, здесь используется в психометрическом смысле - как оценка способности респондента),

а

Для вычисления тотального количества информации, которое дает дихотомическое задание в логистической Раш-модели, необходимо проинтегрировать это выражение по :

То есть, в 1PL модели, каждое задание дает одинаковое тотальное количество единиц информации Фишера (1).

Для 2PL это:

Тогда, в 2PL,

Соответственно, в этой модели,

То есть, в 2PL модели, задание дает количество единиц информации Фишера, равное его дискриминативности. Также, для 1PL и 2PL моделей, задание предоставляет наибольшее количество информации для респондентов, способность которых наиболее близка к трудности задания.

Для 3PL это:

В 3PL, из-за наличия параметра угадывания, информационная функция задания является асимметричной.

Далее, вне зависимости от использованной модели, используя свойство аддитивности информации Фишера, можно построить информационную функцию теста (Test Information Function, TIF):

Так же, как в случае информационных функций отдельных заданий, значение зависит от уровня способности. Таким образом, информационная функция теста зависит от распределения заданий в банке заданий и их параметров. Как правило, она не является равномерной - по умолчанию считается, что лучшей формой информационной функции теста является "зеркальное" распределение распределения выборки.

После этого, используя неравенство Крамера—Рао, можно вычислить нижнюю границу для значений ошибки измерения на каждом уровне способности:

То есть, значения стандартных ошибок измерения обратно пропорциональны информационной функции теста. Например, если "зеркально" отражает плотность распределения выборки, то тест предоставляет наибольшее количество информации о средних респондентов (которых больше всего) и наименьшее - о полюсах способности (слабых и сильных - которых меньше). Соответственно, это отражается в размерах их стандартных ошибок измерения - "средние", самая большая часть популяции, измерены точнее всего. Однако это так же показывает, что для специальных инструментов измерения иные формы являются оптимальными. Например, для олимпиад, направленных на отбор самых сильных респондентов, пик должен приходиться на высокие уровни способности, поскольку в них важно наиболее точно измерить и дифференцировать самых сильных респондентов. Это является одним из главных отличий IRT от других теорий (например, Классической Теории Тестирования или линейного Факторного анализа), которые допускают, что все уровни способности измерены с одинаковой точностью.

Соответственно, информация Фишера играет одну из центральных ролей при вычислении надежности инструмента измерения в IRT. В то время как сама по себе надежность является отражением идеи о количестве шума в данных, в отличие от многих подходов к вычислению надежности, IRT эксплицитно описывает отношение между надежностью, формой распределения выборки и тем, какую часть этой выборки наиболее точно измеряет банк заданий [36].

В Раш-моделировании, одной из самых простых форм информационной диагностики банка заданий и его отношений с распределением выборки является анализ т.н. "карты переменных". Сама по себе информация Фишера является одним из критериев выборов заданий в Компьютерном Адаптивном Тестировании (Computerized Adaptive Testing, CAT). Движок CAT динамически переоценивает способность респондента после каждого отдельного ответа, и не-случайно выбирает те задания, которые дают наибольшее количество информации о текущей (промежуточной) оценке способности респондента. Это позволяет предъявлять респонденту не слишком простые для него задания (которые он с высокой вероятностью решит) и не слишком сложные (которые он с высокой вероятностью не решит), а те, которые дают наибольшее количество информации о его способности. Таким образом, каждый респондент получает индивидуальный набор заданий, подстроенный под его способность. Однако из-за того, что в CAT параметры заданий заранее известны, итоговые оценки способности всех респондентов лежат на одной шкале и сравнимы между собой (хотя сырой процент решаемости в для каждого респондента стремится к 50%).

Также, в IRT используется информация Шенона - как для анализа отдельных ответов [37], так и для перевода оценок способности на т.н. "бит-шкалы" [38], измеряющие разницу между респондентами в терминах битов - количества их ожидаемых правильных ответов на задания теста.

Remove ads

Основные допущения современной теории тестирования[39]

Суммиров вкратце
Перспектива

1) Существуют латентные/скрытые параметры респондентов и заданий (которые недоступны для непосредственного наблюдения). Например, в интеллектуальном тестировании — это уровень интеллекта испытуемого и уровень трудности задания (в моделях Раша).

2) Существуют индикаторы, вероятность проявления которых определяется латентными параметрами. Однако, в отличие от параметров, индикаторы доступны для наблюдения. По значениям индикаторов можно судить о значениях латентных параметров.

3) Устаревшая формулировка: Оцениваемый латентный параметр должен быть одномерным (шкала должна измерять одну и только одну переменную). Если условие одномерности не выполняется, то необходимо перерабатывать тест. Все задания, которые нарушают одномерность, должны быть исключены из шкалы или изменены так, чтобы вызывать, потому что это вызывает как нарушение допущений модели, так и загрязняет интерпретацию оценок параметров.

Современная формулировка: Задания должны быть локально независимы на параметрах респондентов. Это означает, что при контроле параметров респондентов, ковариаций между ответами на задания нет. Другими словами — если отобрать всех респондентов с определённым уровнем способности (например, равно 1 логит, и сделать это для каждого возможного значения способности), то их ответы на задания абсолютно случайны. В этом случае, вся информация, связывающая задания — это уровень способности респондентов, который извлекается моделью, и ковариации между остатками (зависимости заданий локально на параметрах респондентов) нет. Эта формулировка обеспечивает большую общность методов преодоления локальной зависимости заданий (неодномерности теста), поскольку позволяет включать в модель дополнительные параметры респондентов (превращая модель в бифакторную или тестлет-модль), отражающие взаимодействие респондентов и тестлетов (групп заданий, демонстрирующих локальную зависимость). В этом случае, дополнительные параметры респондентов выступают как специфические факторы из бифакторных моделей и «впитывают» в себя локальную зависимость. При их контроле, возможно достижение локальной независимости на параметрах респондентов, за счет увеличения количества этих параметров. При этом, это допущение позволяет встроить современную теорию тестирования в т. н. теорию условной ковариации (conditional covariance theory), для всех классов моделей которой характерно это допущение: для любых , где  — ответы на задания. К теории условной ковариации относятся анализ латентных классов, модели когнитивной диагностики, конфирматорный факторный анализ, байесовские сети, и иные методы моделирования латентных переменных.

Remove ads

Сравнение современной и классической теорий тестирования[40]

Подробнее Классическая теория тестирования (КТТ), IRT (модели Раша) ...
Remove ads

См. также

Примечания

Литература

Ссылки

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads