Топ питань
Часова шкала
Чат
Перспективи

Модель Раша

З Вікіпедії, вільної енциклопедії

Remove ads

Моде́ль Ра́ша (англ. Rasch model), названа на честь Ґеорга Раша(інші мови), — це психометрична модель для аналізу категорійних даних, зокрема відповідей на питання в тестах на читання та анкетних відповідей, як функції співвідношення між здібностями, ставленнями чи рисами особистості респондента, та складністю завдань.[1][2] Наприклад, її можна використовувати для оцінювання рівня читацьких навичок учня або ступеня радикальності ставлення людини до смертної кари на основі анкетування. Окрім психометрії та освітніх досліджень, модель Раша та її розширення застосовують в інших галузях, зокрема в охороні здоров'я,[3] сільському господарстві[4] та ринкових дослідженнях.[5][6]

Математична теорія, що лежить в основі моделей Раша, є окремим випадком теорії відгуку завдання (англ. item response theory). Втім, існують важливі відмінності в інтерпретації параметрів моделі та її філософських наслідках,[7] які відмежовують прихильників моделі Раша від традиції моделювання відгуку завдання. Центральним аспектом цієї відмінності є роль специфічної об'єктивності,[8] яку Ґеорг Раш(інші мови) вважав визначальною властивістю моделі Раша й необхідною умовою успішного вимірювання.

Remove ads

Огляд

Узагальнити
Перспектива

Модель Раша для вимірювання

У моделі Раша ймовірність конкретного відгуку (наприклад, правильної чи неправильної відповіді) моделюють як функцію параметрів особи та завдання. Конкретніше, в оригінальній моделі Раша ймовірність правильної відповіді моделюють як логістичну функцію різниці між параметром особи та завдання. Математичний вигляд цієї моделі наведено нижче в цій статті. У більшості контекстів параметри моделі характеризують компетентність респондентів і складність завдань як розташування на неперервній латентній змінній. Наприклад, в освітніх тестах параметри завдань подають їхню складність, тоді як параметри осіб — рівень здібностей чи досягнень тих, кого оцінюють. Що вищий рівень здібностей особи за складність завдання, то вища ймовірність правильної відповіді у цьому завданні. Коли розташування особи на латентній ознаці дорівнює складності завдання, ймовірність правильної відповіді за моделлю Раша становить за визначенням 0,5.

Модель Раша є моделлю в тому сенсі, що вона описує структуру, яку мають проявляти дані для того, щоби з них було можливо отримувати вимірювання; тобто вона пропонує критерій успішного вимірювання. Понад те, рівняння Раша моделюють не лише дані, але й очікувані співвідношення в реальному світі. Наприклад, освіта має на меті підготувати дітей до всього спектру викликів, з якими вони стикнуться в житті, а не лише до завдань у підручниках чи тестах. Вимагаючи незмінності (інваріантності) вимірювань на різних тестах, що оцінюють те саме, моделі Раша дозволяють перевірити гіпотезу про те, що конкретні виклики, подані в навчальній програмі й тестах, узгоджено подають нескінченну сукупність можливих викликів у цій галузі. Модель Раша відтак є моделлю також у сенсі ідеалу або стандарту, який пропонує евристичну вигадку, що слугує корисним організаційним принципом, навіть якщо його насправді ніколи не спостерігають на практиці.

Парадигма, що лежить в основі моделі Раша, відрізняється від парадигми, яка лежить в основі статистичного моделювання. Моделі найчастіше використовують із наміром описати набір даних. Параметри змінюють, приймають або відкидають залежно від того, наскільки добре вони допасовуються до даних. На відміну від цього, при застосуванні моделі Раша метою є отримання даних, допасованих до моделі.[9][10][11] Аргументом на користь такого підходу є те, що модель Раша втілює вимоги, яких необхідно дотримуватись для отримання вимірювання — у тому сенсі, в якому вимірювання зазвичай розуміють у фізичних науках.

Корисною аналогією для розуміння цієї логіки є вимірювання об'єктів за допомогою ваг. Припустімо, що вага об'єкта A одного разу вимірюється як суттєво більша за вагу об'єкта B, а потім одразу же вага об'єкта B вимірюється як суттєво більша за вагу об'єкта A. Властивість, якої ми вимагаємо від вимірювань, полягає в тому, що результат порівняння між об'єктами має залишатися незмінним, або інваріантним, незалежно від інших чинників. Цю ключову вимогу втілено у формальній структурі моделі Раша. Відповідно, модель Раша не змінюють, щоби вона відповідала даним. Натомість змінюють метод оцінювання так, щоби було дотримано цієї вимоги — подібно до того, як слід виправити ваги, якщо вони дають різні порівняння між об'єктами за повторного зважування.

Дані, які аналізують за допомогою цієї моделі, зазвичай є відгуками звичайних завдань у тестах, як-от освітніх тестах із правильними та неправильними відповідями. Проте ця модель загальна, і її можливо застосовувати в будь-яких випадках, коли отримують дискретні дані з метою вимірювання кількісної ознаки або риси.

Шкалювання

Thumb
Рис. 1: Характеристична крива тесту, що показує зв'язок між сумарним балом на тесті й оцінкою розташування особи

Коли всі учасники тестування мають змогу пройти всі завдання одного тесту, кожному сумарному балу на тесті відповідає унікальна оцінка здібностей, і що вищий цей сумарний бал, то вища ця оцінка здібностей. Сумарні бали не мають лінійного зв'язку з оцінками здібностей. Натомість цей зв'язок нелінійний, як показано на рис. 1. Сумарний бал зображено на вертикальній осі, а відповідну оцінку розташування особи — на горизонтальній. Для конкретного тесту, на якому ґрунтується характеристична крива тесту (ХКТ, англ. test characteristic curve, TCC), показана на рис. 1, зв'язок приблизно лінійний у проміжку сумарних балів приблизно від 13 до 31. Форма ХКТ зазвичай дещо сигмоїдна, як у цьому прикладі. Проте точний зв'язок між сумарними балами та оцінками розташування особи залежить від розподілу завдань у тесті. Крива ХКТ крутіша в тих ділянках континууму, де завдань більше, як-от у проміжку навколо 0 на рис. 1 і 2.

При застосуванні моделі Раша розташування завдань зазвичай шкалюють першими, на основі таких методів, як описано нижче. Цей етап процесу шкалювання часто називають калібруванням завдань (англ. item calibration). В освітніх тестах, що менша частка правильних відповідей, то вищою є складність завдання, а отже, і його розташування на шкалі. Після шкалювання завдань вимірюють розташування осіб на тій же шкалі. В результаті, розташування осіб і завдань оцінюють на єдиній шкалі, як показано на рис. 2.

Інтерпретування розташувань на шкалі

Thumb
Рис. 2: Графік із гістограмами розподілу осіб (угорі) та завдань (унизу) на шкалі

Для дихотомних даних, таких як правильні/неправильні відповіді, розташування завдання на шкалі за визначенням відповідає розташуванню особи, за якого ймовірність правильної відповіді на питання становить 0,5. Загалом, імовірність правильної відповіді особою на питання, складність якого менша за розташування особи, перевищує 0,5, тоді як імовірність правильної відповіді особою на питання, складність якого вища за розташування особи, менша за 0,5. Характеристична крива завдання (ХКЗ, англ. Item Characteristic Curve, ICC), або функція відгуку завдання (ФВЗ, англ. Item Response Function, IRF), показує ймовірність правильної відповіді як функцію від здібностей особи. Одну ХКЗ показано й докладніше пояснено у зв'язку з рис. 4 у цій статті (див. також функцію відгуку завдання). Найлівіші ХКЗ на рис. 3 відповідають найлегшим завданням, а найправіші — найскладнішим.

Коли відповіді особи впорядковують за складністю завдань, від найпростішого до найскладнішого, то скоріше за все отримують схему або вектор шкали Ґуттмана(інші мови), тобто {1,1,…,1,0,0,0,…,0}. Проте, хоч така схема і є найімовірнішою за структури моделі Раша, сама модель вимагає лише ймовірнісних ґуттманових схем відповідей, тобто таких, які наближаються до цієї схеми. Незвично, щоби відповіді строго відповідали такій схемі, адже можливі численні варіації. Відповіді не мусять строго відповідати цій схемі, щоби дані відповідали моделі Раша.

Thumb
Рис. 3: Характеристичні криві для низки завдань. ХКЗ підсвічено різними кольорами, щоби показати зміну ймовірності успішної відповіді для особи з розташуванням здібностей на рівні вертикальної лінії. Ця особа, ймовірно, правильно відповість на найпростіші завдання (розташовані лівіше, з вищими кривими), і малоймовірно правильно відповість на складніші завдання (розташовані правіше, з нижчими кривими).

Кожна оцінка здібностей має пов'язану з нею стандартну похибку вимірювання, яка кількісно відображає рівень невизначеності цієї оцінки. Оцінки завдань також мають стандартні похибки. Загалом стандартні похибки оцінок завдань значно менші за стандартні похибки оцінок осіб, оскільки зазвичай для кожного завдання наявно більше даних відповідей, ніж для кожної окремої особи. Тобто, кількість людей, які виконали певне завдання, зазвичай більша, ніж кількість завдань, виконаних певною особою. Стандартні похибки оцінок осіб менші там, де нахил ХКЗ крутіший — зазвичай це середній проміжок балів на тесті. Відповідно, у цьому проміжку точність вища, адже що крутіший нахил кривої, то чіткіше розрізнення між будь-якими двома точками на ній.

Для оцінки відповідності даних цій моделі застосовують статистичні та графічні перевірки. Деякі з них глобальні, а інші зосереджені на окремих завданнях або особах. Окремі перевірки відповідності надають інформацію про те, які завдання можливо використати для підвищення надійності тесту шляхом вилучення або коригування проблемних завдань. У вимірюванні за Рашем замість традиційних індексів надійності використовують індекс розділення осіб (англ. person separation index). Проте він аналогічний індексу надійності. Індекс розділення є співвідношенням фактичного розділення з розділенням з урахуванням похибки вимірювання. Як зазначено раніше, рівень похибки вимірювання не рівномірний над усім діапазоном тесту, а зазвичай більший на крайніх значеннях шкали (низьких і високих).

Remove ads

Властивості моделі Раша

Узагальнити
Перспектива

Цей клас моделей названо на честь Ґеорга Раша(інші мови), данського математика і статистика, який обґрунтував епістемологічну доцільність цих моделей через їхню узгодженість із ключовою вимогою вимірювання у фізиці — вимогою інваріантного порівняння.[1] Це визначальна риса цього класу моделей, докладніше розглянута в наступному розділі. Модель Раша для дихотомних даних має тісний концептуальний зв'язок із законом порівняльного судження(інші мови) (англ. law of comparative judgment, LCJ), моделлю, яку розробив і широко застосовував Л. Л. Терстоун,[12][13] а відтак — і зі шкалою Терстоуна(інші мови).[14]

Перед тим як запровадити модель вимірювання, з якою його найбільше пов'язують, Раш застосовував як модель вимірювання до даних читання розподіл Пуассона, висунувши гіпотезу, що у відповідному емпіричному контексті кількість помилок, зроблених заданою особою, визначається співвідношенням складності тексту та читацьких здібностей цієї особи. Раш називав цю модель мультиплікативною пуассонівською моделлю (англ. multiplicative Poisson model). Модель Раша для дихотомних даних — тобто де відповіді класифікуються на дві категорії — найвідоміша й найуживаніша модель, і основним предметом розгляду тут є вона. Ця модель має вигляд простої логістичної функції.

Стислий виклад вище висвітлює певні відмінні й взаємопов'язані риси підходу Раша до суспільного вимірювання, зокрема такі:

  1. Основною його метою було вимірювання осіб, а не розподілів у сукупностях.
  2. Він прагнув встановити підґрунтя для задоволення апріорних вимог до вимірювання, виведених із фізики, і, відповідно, не вдавався до жодних припущень щодо розподілу рівнів риси в сукупності.
  3. Підхід Раша явним чином визнає, що твердження про кількісність і вимірюваність певної ознаки в конкретному експериментальному контексті є науковою гіпотезою.

Отже, відповідно до підходу, викладеного Томасом Куном у його статті 1961 року «Функція вимірювання у сучасній фізичній науці», вимірювання розглядають водночас як засноване на теорії, і як інструмент для виявляння кількісних аномалій, неузгоджених із гіпотезами ширшої теоретичної системи.[15] Цей підхід контрастує із загальноприйнятим у суспільних науках, де дані, як-от тестові бали, безпосередньо трактують як вимірювання, без потреби в теоретичному обґрунтуванні самого вимірювання. Хоч така відмінність і існує, підхід Раша фактично доповнює використання статистичного аналізу або моделювання, які вимагають вимірювання на рівні проміжків, адже саме для отримання таких вимірювань і застосовують модель Раша. Застосування моделей Раша докладно описано в численних джерелах.[16]

Інваріантне порівняння та достатність

Модель Раша для дихотомних даних часто розглядають як модель теорії відгуку завдання (ТВЗ, англ. item response theory, IRT) з одним параметром завдання. Проте, замість різновиду ТВЗ, прихильники цієї моделі[17]:265 вважають її моделлю, що має властивість, яка відрізняє її від інших моделей ТВЗ. Зокрема, визначальною властивістю моделей Раша є їхнє формальне або математичне втілення принципу інваріантного порівняння. Раш підсумував цей принцип так:

Порівняння між двома стимулами має бути незалежним від того, які саме особи брали участь у порівнянні; і воно також має бути незалежним від того, які інші стимули з розглядуваного класу були або могли бути також порівняні.
Симетрично, порівняння між двома особами має бути незалежним від того, які саме стимули з розглядуваного класу були використані для порівняння; і також воно має бути незалежним від того, які інші особи також були порівнювані, в той самий чи інший час.[18]

Моделі Раша втілюють цей принцип, оскільки їхня формальна структура дозволяє алгебрично відокремити параметри особи та завдання, у тому сенсі, що параметр особи можливо усунути під час статистичного оцінювання параметрів завдань. Цей результат досягають за допомогою оцінювання умовної максимальної правдоподібності, коли простір відповідей поділяють за сумарними балами осіб. Як наслідок, необроблений бал завдання або особи є достатньою статистикою для параметра завдання або особи. Тобто, сумарний бал особи містить усю доступну в зазначеному контексті інформацію про цю особу, а сумарний бал завдання — усю інформацію щодо самого завдання, стосовно відповідної латентної риси. Модель Раша вимагає специфічної структури відповідей, а саме ймовірнісної ґуттманової(інші мови) структури.

Простіше кажучи, моделі Раша забезпечують підґрунтя й обґрунтування для визначення розташувань осіб на континуумі за їхніми сумарними балами в оцінюваннях. Хоча нерідко сумарні бали прямо трактують як вимірювання, насправді вони є підрахунками дискретних спостережень, а не вимірюваннями. Кожне спостереження подає спостережуваний результат порівняння між особою й завданням. Такі результати безпосередньо аналогічні спостереженню за тим, у який бік хиляться важільні терези. Це спостереження вказуватиме, що один з об'єктів має більшу масу, але підрахунки таких спостережень неможливо безпосередньо трактувати як вимірювання.

Раш зазначав, що принцип інваріантного порівняння є характеристикою вимірювання у фізиці, навівши як приклад двосторонню експериментальну систему відліку, у якій кожен інструмент прикладає механічну силу до твердих тіл, спричиняючи їхнє прискорення. Раш[1]:112–3 зауважував у цьому контексті: «Загалом: якщо для будь-якої пари об'єктів ми виявляємо певне співвідношення їхніх прискорень під дією одного інструмента, то те саме співвідношення ми отримаємо і для будь-якого іншого з інструментів». Нескладно показати, що другий закон Ньютона передбачає, що такі співвідношення обернено пропорційні співвідношенню мас цих тіл.

Remove ads

Математичний вигляд моделі Раша для дихотомних даних

Нехай  — дихотомна випадкова змінна, де, наприклад, означає правильну відповідь, а  — неправильну відповідь на певне оцінювальне завдання. У моделі Раша для дихотомних даних імовірність результату подається як:

де  — здібності особи , а  — складність завдання . Отже, у випадку дихотомного завдання на досягнення  — це ймовірність успіху при взаємодії між відповідною особою та оцінювальним завданням. Легко показати, що логарифм шансів (або логіт) правильної відповіді особою на завдання за цією моделлю дорівнює . Якщо взяти двох іспитників із різними параметрами здібностей та і довільне завдання зі складністю , різницю логітів для цих двох осіб обчислюють як . Ця різниця дорівнює . І навпаки, можливо показати, що логарифм шансів правильної відповіді тією самою особою на одне із завдань, за умови правильної відповіді на одне з двох завдань, дорівнює різниці між розташуваннями цих завдань. Наприклад:

де  — сумарний бал особи n за два завдання, що означає правильну відповідь на одне з них.[1][19][20] Отже, умовний логарифм шансів не включає параметр особи , який відтак можливо усунути, обумовивши сумарний бал . Тобто, розбивши відповіді за необробленими балами та обчисливши логарифм шансів правильної відповіді, можливо отримати оцінку без залучення . Загальніше, низку параметрів завдань можливо оцінювати ітеративно, застосовуючи такі процедури як оцінювання умовної максимальної правдоподібності (див. оцінювання моделі Раша). Хоч ці методи оцінювання й складніші, та у своїй основі вони спираються на той самий основний принцип.

Thumb
Рис. 4: Характеристична крива завдання (ХКЗ) для моделі Раша з порівнянням між спостереженими та очікуваними частками правильних відповідей у п'яти проміжках осіб

ХКЗ моделі Раша для дихотомних даних показано на рис. 4. Сіра крива відображає ймовірність дискретного результату (тобто правильної відповіді на запитання) для осіб із різними розташуваннями на латентному континуумі (тобто з різними рівнями здібностей). Розташування завдання визначається як те значення, за якого ймовірність того, що , дорівнює 0,5. На рис. 4 чорні кружечки подають фактичні або спостережені пропорції осіб у класових проміжках, у яких було зафіксовано відповідний результат. Наприклад, у випадку оцінювального завдання в контексті педагогічної психології ці частки можуть показувати пропорцію осіб, які правильно відповіли на завдання. Осіб упорядковують за оцінками їхніх розташувань на латентному континуумі й на основі цього класифікують у класові проміжки, щоби графічно проаналізувати відповідність спостережень моделі. Спостерігається тісна відповідність даних моделі. На додаток до графічного аналізу, застосовують також низку статистичних критеріїв допасованості, щоби оцінювати, чи відхилення спостережень від моделі можливо пояснити лише випадковими чинниками, як це передбачає модель, чи ж існують систематичні відхилення від неї.

Remove ads

Політомні розширення моделі Раша

Існує кілька політомних розширень моделі Раша, які узагальнюють дихотомну модель так, щоби її було можливо застосовувати в контекстах, де послідовні цілі бали подають категорії висхідного рівня або величини латентної риси — як-от висхідних здібностей, рухової функції, згоди з твердженням тощо. Ці політомні розширення, зокрема, застосовні для використання лайкертових шкал, виставляння оцінок в освітньому оцінюванні, та оцінювання виступів суддями.

Remove ads

Інші міркування

Узагальнити
Перспектива

Однією з критик на адресу моделі Раша є те, що вона надто обмежувальна або нормативна, оскільки виходить з рівної розрізнювальності всіх завдань, тоді як на практиці розрізнювальність завдань варіюється, й тому жоден набір даних не покаже ідеальної допасованості даних та моделі. Частим непорозумінням є уявлення, буцімто модель Раша не допускає різної розрізнювальності завдань, проте рівна розрізнювальність — це припущення інваріантного вимірювання, тож різна розрізнювальність не заборонена, а радше вказує, що якість вимірювання не досягає теоретичного ідеалу. Як і у фізичних вимірюваннях, реальні дані ніколи не збігатимуться з теоретичними моделями ідеально, тому доречне питання полягає в тому, чи конкретний набір даних забезпечує достатню якість вимірювання для поставленої мети, а не в тому, чи він ідеально збігається з недосяжним стандартом ідеальності.

Окремою критикою щодо використання моделі Раша для аналізу даних відповідей на завдання з множинним вибором є те, що ця модель не враховує вгадування, оскільки ліва асимптота в моделі Раша завжди прямує до нульової ймовірності. З цього випливає, що особа з низьким рівнем здібностей завжди даватиме неправильну відповідь. Проте особи з низьким рівнем здібностей, які проходять іспит із множинним вибором, мають суттєво вищу ймовірність обрати правильну відповідь випадково (для завдання з k варіантами відповідей ця ймовірність становить близько 1/k).

Трипараметрова логістична модель послаблює обидва ці припущення, а двопараметрова логістична модель (2ПЛ, англ. 2PL) уможливлює варіювання нахилів.[21] Втім, фіксована розрізнювальність і нульова ліва асимптота є необхідними властивостями моделі для забезпечення достатності простого, незваженого сирого бала. На практиці ненульова нижня асимптота, яку виявляють у наборах даних із множинним вибором, є меншою загрозою для вимірювання, ніж заведено вважати, і зазвичай не спричиняє істотних похибок у вимірюванні за розумного застосування належно розроблених завдань.[22]

Фергелст і Глас (1995) виводять рівняння умовної максимальної правдоподібності (УМП, англ. Conditional Maximum Likelihood, CML) для моделі, яку вони називають однопараметровою логістичною моделлю (ОПЛМ, англ. One Parameter Logistic Model, OPLM). В алгебричному вигляді вона виглядає ідентичною моделі 2ПЛ, проте замість оцінюваних параметрів розрізнювальності 2ПЛ, ОПЛМ містить заздалегідь задані індекси розрізнювальності. Як зазначають ці автори, проблемою в оцінюванні з оцінюваними параметрами розрізнювальності є те, що самі розрізнювальності невідомі, тобто зважений сирий бал «не є простою статистикою, а отже, використовувати УМП як метод оцінювання неможливо».[23]:217 Тобто, достатністю зваженого «бала» у 2ПЛ неможливо скористатися відповідно до визначення достатньої статистики. Якщо ж ваги задано замість того, щоби їх оцінювати, як в ОПЛМ, то умовне оцінювання стає можливим, і деякі властивості моделі Раша зберігаються.[24][23] В ОПЛМ значення індексу розрізнювальності обмежено проміжком від 1 до 15. Обмеженням цього підходу є те, що на практиці значення індексів розрізнювальності необхідно задавати наперед як відправну точку. Це означає, що певного вигляду оцінювання розрізнювальності все ж залучено, хоча метою є уникнути його.

Модель Раша для дихотомних даних за своєю природою передбачає єдиний параметр розрізнювальності, який, як зазначав Раш,[1]:121 становить довільний вибір одиниці, в якій виражають або оцінюють величини латентної риси. Водночас модель Раша вимагає, щоби розрізнювальність була сталою в усіх взаємодіях між особами та завданнями в межах заданої системи відліку (тобто в контексті оцінювання за заданих умов для оцінювання).

Застосування цієї моделі забезпечує діагностичну інформацію про те, наскільки дотримано цього критерію. Застосування цієї моделі також може забезпечувати інформацію про те, наскільки добре окремі завдання чи питання працюють для вимірювання здібності чи риси. Наприклад, знаючи частку осіб, залучених до певної поведінки, моделлю Раша можливо скористатися для виведення взаємозв'язків між складністю видів поведінки(інші мови), ставленнями, та видами поведінки.[25] Серед провідних прихильників моделей Раша Бенджамін Дрейк Райт(інші мови), Девід Андріх(інші мови) та Ерлінг Андерсен.

Remove ads

Див. також

Примітки

Література

Посилання

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads