Teória odozvy na položku

V psychometrii je teória odpovede na položku (item response theory – IRT) súborom teórií, ktoré popisujú aplikáciu matematických modelov na údaje z dotazníkov a testov ako základ pre meranie schopností, postojov alebo iných premenných.

Modely IRT používajú matematické funkcie, ktoré špecifikujú pravdepodobnosť diskrétneho výsledku, napríklad správnej odpovede na položku, z hľadiska parametrov osoby a položky. Parametre osoby môžu napríklad predstavovať schopnosti študenta alebo silu postoja osoby. Parametre položky zahŕňajú obtiažnosť (umiestnenie), diskrimináciu (sklon alebo koreláciu) a pseudohodnotu (dolnú asymptotu). Položky môžu byť otázky, ktoré majú nesprávne a správne odpovede, výroky v dotazníkoch, ktoré umožňujú respondentom označiť úroveň súhlasu, alebo symptómy pacienta hodnotené ako prítomné/neprítomné.

Teória IRT okrem iného poskytuje základ pre hodnotenie toho, ako dobre funguje hodnotenie a ako dobre fungujú jednotlivé otázky v hodnotení. V oblasti vzdelávania psychometrici používajú IRT na plnenie úloh, ako je vývoj a zdokonaľovanie skúšok, udržiavanie banky položiek pre skúšky a vyrovnávanie obtiažnosti po sebe nasledujúcich verzií skúšok (napríklad na umožnenie porovnávania výsledkov v priebehu času).

IRT sa často označuje ako teória latentných znakov, teória silného skutočného skóre alebo moderná teória mentálnych testov a odlišuje sa od klasickej teórie testov.

Modely IRT sa používajú ako základ pre štatistický odhad parametrov, ktoré predstavujú „umiestnenie“ osôb a položiek na latentnom kontinuu alebo, presnejšie povedané, veľkosť latentného znaku, ktorý možno priradiť osobám a položkám. Napríklad pri testovaní dosiahnutých výsledkov sa môže odhadovať veľkosť schopnosti osoby v rámci konkrétnej oblasti, ako je napríklad čítanie s porozumením. Po získaní odhadov príslušných parametrov sa zvyčajne vykonávajú štatistické testy na posúdenie rozsahu, v akom parametre predpovedajú odpovede na položky vzhľadom na použitý model. Trochu inak povedané, takéto testy sa používajú na zistenie miery, do akej model a odhady parametrov môžu zohľadniť štruktúru a štatistické vzorce v rámci údajov o odpovediach, buď ako celok, alebo pri zohľadnení špecifických podmnožín údajov, ako sú vektory odpovedí týkajúce sa jednotlivých položiek alebo osôb. Tento prístup umožňuje podrobiť ústrednú hypotézu reprezentovanú konkrétnym modelom empirickému testovaniu, ako aj poskytnúť informácie o psychometrických vlastnostiach daného hodnotenia, a teda aj o kvalite odhadov.

Z pohľadu tradičnejších prístupov, ako je klasická teória testovania, je výhodou IRT to, že potenciálne poskytuje informácie, ktoré umožňujú výskumníkovi zlepšiť spoľahlivosť hodnotenia. To sa dosahuje prostredníctvom získavania sofistikovanejších informácií týkajúcich sa psychometrických vlastností jednotlivých položiek hodnotenia. IRT sa niekedy označuje slovom silná ako v slove silná teória skutočného skóre alebo moderná ako v slove moderná teória mentálnych testov, pretože IRT je novšia teória a explicitnejšie vyjadruje hypotézy, ktoré sú implicitné v klasickej teórii testov.

Modely IRT sa často označujú ako modely latentných znakov. Termín latentný sa používa na zdôraznenie toho, že diskrétne odpovede na položky sa považujú za pozorovateľné prejavy predpokladaného znaku, konštruktu alebo atribútu, ktoré sa nepozorujú priamo, ale musia sa odvodiť z manifestných odpovedí. Modely latentných čŕt boli vyvinuté v oblasti sociológie, ale sú prakticky totožné s modelmi IRT.

Ďalším významným súborom psychometrických teórií, ktoré majú význam pre IRT, je klasická teória testov. Pri úlohách, ktoré možno realizovať pomocou klasickej teórie testov, IRT vo všeobecnosti prináša väčšiu flexibilitu a poskytuje sofistikovanejšie informácie. Niektoré aplikácie, ako napríklad počítačové adaptívne testovanie, sú umožnené IRT a nie je možné ich rozumne vykonať len pomocou klasickej teórie testov.

Funkcia odpovede na položku (charakteristická krivka položky)

Veľká časť literatúry o IRT sa zameriava na modely odpovede na položku. Daný model predstavuje matematizovanú hypotézu, že pravdepodobnosť diskrétnej odpovede na položku je funkciou parametra osoby (alebo v prípade viacrozmernej teórie odpovede na položku vektora parametrov osoby) a jedného alebo viacerých parametrov položky. Napríklad v trojparametrovom logistickom modeli (3PL) je pravdepodobnosť správnej odpovede na položku i:

kde je parameter osoby (schopnosť) a , , a sú parametre položky. Toto sa nazýva funkcia odpovede na položku (IRF) alebo graficky krivka charakteristík položky (ICC). Koncepčne udáva pravdepodobnosť, že osoba s danou úrovňou schopností vyrieši položku správne. Osoby s nižšími schopnosťami (<0,0) majú menšiu šancu, zatiaľ čo osoby s extrémne vysokými schopnosťami majú veľkú pravdepodobnosť.

Parametre položky jednoducho určujú tvar IRF a v niektorých prípadoch nemusia mať priamy výklad. Na obrázku vpravo je znázornený príklad IRF s prekrytým koncepčným vysvetlením parametrov. Parameter predstavuje umiestnenie položky, ktoré sa v prípade testovania úspešnosti označuje ako obťažnosť položky. Je to bod, v ktorom má IRF maximálny sklon. Príkladová položka má strednú obťažnosť, keďže =0,0, čo je blízko stredu rozdelenia. Všimnite si, že tento model škáluje obtiažnosť položky a vlastnosť osoby na to isté kontinuum. Preto je platné hovoriť o tom, že položka je približne rovnako ťažká ako úroveň črty osoby A alebo o tom, že úroveň črty osoby je približne rovnaká ako náročnosť položky Y v tom zmysle, že úspešné vykonanie úlohy spojenej s položkou odráža určitú úroveň schopností.

Doporučujeme:  Tesnenia bez uší

Parameter položky predstavuje diskrimináciu položky, t. j. mieru, do akej položka rozlišuje medzi osobami v rôznych oblastiach latentného kontinua. Tento parameter charakterizuje sklon IRF, kde je sklon maximálny. Príkladová položka má hodnotu =1,0, čo znamená, že diskriminuje pomerne dobre; osoby s nízkymi schopnosťami majú skutočne oveľa menšiu šancu správne odpovedať ako osoby s vyššími schopnosťami.

Pri položkách, ako sú položky s výberom odpovede, sa tento parameter používa na zohľadnenie vplyvu tipovania na pravdepodobnosť správnej odpovede. Udáva pravdepodobnosť, že jednotlivci s veľmi nízkymi schopnosťami dostanú túto položku náhodne správne, matematicky znázornenú ako dolná asymptota. Položka s výberom zo štyroch možností môže mať IRF ako príkladová položka; existuje 1/4 pravdepodobnosť, že kandidát s veľmi nízkymi schopnosťami uhádne správnu odpoveď, takže by bola približne 0,25. Predpokladá sa, že všetky možnosti sú rovnako pravdepodobné, pretože ak by jedna možnosť nedávala zmysel, aj osoba s najnižšími schopnosťami by ju mohla vyradiť.

Logistické a normálne IRT modely

Alternatívna formulácia konštruuje IRF na základe kumulatívnej normálnej distribučnej funkcie pravdepodobnosti alebo normálneho cdf; tieto modely sa niekedy nazývajú normálne ogive modely. Napríklad vzorec pre dvojparametrovú normálnu ogiválnu IRF je:

Model normálneho rozdelenia vychádza z predpokladu normálne rozdelenej chyby merania a na tomto základe je teoreticky atraktívny. Aj v tomto prípade ide o parameter obtiažnosti. Parameter diskriminácie je , štandardná odchýlka chyby merania pre položku i a je porovnateľný s 1/.

Keď má konštanta D hodnotu 1,701, logistická funkcia sa veľmi približuje kumulatívnemu normálnemu uhlu. Zvyčajne sa logistická a normálno-ogigová IRF líšia v pravdepodobnosti najviac o 0,01 v celom rozsahu funkcie. Rozdiel je však najväčší v chvostoch rozdelenia, ktoré majú tendenciu viac ovplyvňovať výsledky.

Model latentnej črty/IRT bol pôvodne vyvinutý pomocou normálnych ogív, ale v tom čase sa to považovalo za výpočtovo náročné. Ako jednoduchšia alternatíva bol navrhnutý logistický model, ktorý sa odvtedy široko používa. Nedávno však Uebersax (1999) dokázal, že pri použití štandardných polynomických aproximácií normálneho cdf (Abramowitz a Stegun, 1972) nie je normálno-ogívny model výpočtovo náročnejší ako logistické modely.

Parameter osoby predstavuje veľkosť latentnej vlastnosti jednotlivca. Odhad parametra osoby sa odvodí z celkového skóre jednotlivca v hodnotení, ktoré je váženým skóre, ak model obsahuje parametre diskriminácie položiek. Latentná vlastnosť je ľudská schopnosť alebo vlastnosť meraná testom. Môže to byť kognitívna schopnosť, fyzická schopnosť, zručnosť, vedomosť, postoj, osobnostná charakteristika atď. V jednorozmernom modeli, ako je vyššie uvedený, je táto vlastnosť analogická jednému faktoru vo faktorovej analýze. V skutočnosti je možné odhadnúť normálno-ogniálny model latentnej črty faktorovou analýzou matice tetrachorických korelácií medzi položkami (Joreskog a Sorbom, 1988). To znamená, že technicky je možné odhadnúť jednoduchý IRT model pomocou univerzálneho štatistického softvéru. Jednotlivé položky alebo jednotlivci môžu mať sekundárne faktory, ale predpokladá sa, že sú vzájomne nezávislé a kolektívne ortogonálne.

Modely IRT možno rozdeliť aj na základe počtu hodnotených odpovedí. Typická položka s výberom odpovede je dichotomická; aj keď môže mať štyri alebo päť možností, stále sa hodnotí len ako správna/nesprávna (správna/nesprávna). Ďalšia trieda modelov sa vzťahuje na polytomické výsledky, kde má každá odpoveď inú bodovú hodnotu. Napríklad polytomický Raschov model je zovšeobecnením Raschovho modelu, ktorý sa uplatňuje na údaje v dvoch alebo viacerých usporiadaných kategóriách. Bežným príkladom sú položky Likertovho typu, napríklad „Ohodnoťte na stupnici od 1 do 5“.

Dichotomické IRT modely sú opísané počtom parametrov, ktoré využívajú. Model 3PL je takto pomenovaný, pretože využíva tri parametre položiek. Dvojparametrový model predpokladá, že údaje majú minimálny odhad, ale že položky sa môžu líšiť z hľadiska umiestnenia () a diskriminácie (). Jednoparametrový model predpokladá, že existuje minimálne hádanie a že položky majú ekvivalentnú diskrimináciu, takže položky sú opísané len jedným parametrom (). Okrem toho teoreticky existuje štvorparametrový model s hornou asymptotou. Ten sa však používa len zriedkavo.

Perspektívy Raschových modelov: vzťah údajov a modelu

Raschov model pre dichotomické údaje sa často považuje za špeciálny prípad dvojparametrického logistického modelu (2PL), a teda modelu 3PL. Andrič (1989) uvádza dva prevládajúce názory na vzťah medzi Lordovým 3PL a Raschovým modelom. Podľa jedného je 3PL zovšeobecnením Raschovho modelu, pretože ak sú príslušné parametre špecifikované ako 0 a 1, 3PL sa redukuje na Raschov model. Podľa druhého názoru 3PL nie je zovšeobecnením Raschovho modelu, pretože 3PL nemôže matematicky vyplývať z Raschových (1960, 1961) špecifikácií pre invariantnosť porovnávaní, ktorá vyplýva zo separability parametrov.

Doporučujeme:  Meyer

Pred identifikáciou všeobecne známeho Raschovho modelu pre dichotomické údaje používal Rasch (1960) ako model merania Poissonovo rozdelenie. Tento model má s dichotomickým modelom spoločnú vlastnosť oddeliteľnosti parametrov osoby a položky. Ak sa Raschove modely definujú z hľadiska tejto rozlišovacej vlastnosti, potom 2PL a 3PL nie sú zovšeobecneniami Raschovho modelu, pretože túto vlastnosť nezachovávajú. V súlade s tým 2PL a 3PL nemajú dobre definovanú súvislosť s Raschovým multiplikatívnym Poissonovým modelom. To, či sa Raschov model považuje za špecifický prípad modelov IRT, je teda vecou definície toho, čo je Raschov model, aj vnímaného účelu používania modelu odozvy na položku.

Modely IRT sa vo všeobecnosti používajú so zámerom čo najlepšie opísať súbor údajov. Parametre sa upravujú a prijímajú alebo zamietajú na základe toho, ako dobre zodpovedajú údajom. Naproti tomu pri použití Raschovho modelu je cieľom získať údaje, ktoré sú v súlade s modelom, aby sa splnili požiadavky merania (Andrich, 2004). Rasch (1960) ukázal zhodu oddeliteľnosti parametrov s meraním vo fyzikálnych vedách. V súlade s tým zástancovia Raschových modelov merania tvrdia, že len údaje, ktoré sú v súlade s Raschovými modelmi, spĺňajú požiadavky základného merania (napr. Wright, 1992). To znamená, že výskumník vymaže všetky údaje, ktoré podľa neho nie sú v súlade s modelom, ktorý chce použiť (Smith, 1990). Odhad parametrov je v Raschových modeloch jednoduchší vďaka prítomnosti dostatočnej štatistiky (napr. Fischer a Molenaar, 1995).

Z hľadiska modelovania údajov je však Raschov model špeciálnym prípadom 2PL, a preto sa často označuje ako model s jedným parametrom. Dôvodom názvu dvojparametrový logistický model je, že diskriminačný parameter je chápaný ako druhý parameter položky. Toto označenie znamená, že diskriminačné parametre sú chápané ako vzťahujúce sa len na položky, zatiaľ čo Rasch (1977) zdôraznil význam referenčného rámca pre meranie ako celok. V Raschovom rámci sa preto diskriminácia nemôže považovať za niečo, čo sa týka len položiek. Ide o ďalší rozdiel medzi perspektívami, ktoré sú neoddeliteľnou súčasťou používania rôznych modelov a terminológie používanej rôznymi autormi.

Jedným z hlavných prínosov teórie odpovede na položku je rozšírenie koncepcie reliability. Tradične sa spoľahlivosť vzťahuje na presnosť merania (t. j. na mieru, do akej je meranie bez chýb). A tradične sa meria pomocou jediného indexu definovaného rôznymi spôsobmi, napríklad ako pomer skutočnej a pozorovanej odchýlky skóre. Tento index je užitočný pri charakterizovaní priemernej reliability testu, napríklad na porovnanie dvoch testov. IRT však jasne ukazuje, že presnosť nie je rovnomerná v celom rozsahu výsledkov testu. Napríklad výsledky na okrajoch rozsahu testu sú vo všeobecnosti spojené s väčšou chybou ako výsledky bližšie k stredu rozsahu.

Teória odozvy na položku rozvíja koncept informácií o položke a teste, ktorý nahrádza spoľahlivosť. Informácie sú tiež funkciou parametrov modelu. Napríklad podľa Fisherovej informačnej teórie je informácia o položke dodávaná v prípade Raschovho modelu pre údaje s dichotomickou odpoveďou jednoducho pravdepodobnosť správnej odpovede vynásobená pravdepodobnosťou nesprávnej odpovede, resp,

Štandardná chyba odhadu (SE) je recipročná hodnota testovacej informácie na danej úrovni znaku, je

Viac informácií teda znamená menšiu chybu merania.

V prípade iných modelov, ako sú modely s dvoma a tromi parametrami, zohráva vo funkcii dôležitú úlohu diskriminačný parameter. Informačná funkcia položky pre dvojparametrový model je

Informačné funkcie položiek majú vo všeobecnosti tendenciu vyzerať zvonovito. Vysoko rozlišujúce položky majú vysoké, úzke informačné funkcie; prispievajú výrazne, ale v úzkom rozsahu. Menej diskriminujúce položky poskytujú menej informácií, ale v širšom rozsahu.

Grafy informácií o položkách sa dajú použiť na zistenie, koľko informácií položka poskytuje a do akej časti rozsahu skóre škály prispieva. Z dôvodu lokálnej nezávislosti sú informačné funkcie položiek aditívne. Informačná funkcia testu je teda jednoducho súčtom informačných funkcií položiek v skúške. Využitím tejto vlastnosti pri veľkej banke položiek možno informačné funkcie testu veľmi presne formovať na kontrolu chyby merania.

Charakteristika presnosti výsledkov testov je pravdepodobne ústredným problémom psychometrickej teórie a je hlavným rozdielom medzi IRT a CTT. Výsledky IRT ukazujú, že koncepcia spoľahlivosti CTT je zjednodušená. Namiesto reliability ponúka IRT informačnú funkciu testu, ktorá ukazuje stupeň presnosti pri rôznych hodnotách theta.

Doporučujeme:  Technika testovania Q sort

Tieto výsledky umožňujú psychometrikom (potenciálne) starostlivo formovať úroveň reliability pre rôzne rozsahy schopností zaradením starostlivo vybraných položiek. Napríklad v situácii certifikácie, v ktorej možno test iba úspešne absolvovať alebo neabsolvovať, kde existuje iba jedno „cut-score“ a kde skutočne úspešné skóre nie je dôležité, možno vytvoriť veľmi účinný test výberom iba položiek, ktoré majú vysokú informovanosť v blízkosti cut-score. Tieto položky vo všeobecnosti zodpovedajú položkám, ktorých obtiažnosť je približne rovnaká ako obtiažnosť skóre.

Po prispôsobení modelu údajom má každá osoba odhad theta. Tento odhad predstavuje ich skóre na skúške. Toto „skóre IRT“ sa počíta a interpretuje úplne iným spôsobom v porovnaní s tradičnými výsledkami, ako je počet alebo percento správnych odpovedí. Pri väčšine testov je však (lineárna) korelácia medzi odhadom theta a tradičným skóre veľmi vysoká (často je to 0,95 alebo viac). Graf výsledkov IRT v porovnaní s tradičnými výsledkami ukazuje ogiválny tvar, čo znamená, že odhady IRT oddeľujú jednotlivcov na hraniciach rozsahu viac ako v strede.

Je potrebné upozorniť na dôsledky IRT pre účastníkov testovania. Testy sú nepresné nástroje a skóre, ktoré jednotlivec dosiahol (pozorované skóre), je vždy skutočným skóre zakrytým určitým stupňom chyby. Táto chyba môže zvýšiť alebo znížiť pozorované skóre.

Nič v týchto modeloch nevyvracia ľudský vývoj alebo zdokonaľovanie. Človek sa môže naučiť zručnostiam, vedomostiam alebo dokonca takzvaným „zručnostiam pri písaní testov“, ktoré sa môžu prejaviť vo vyššom skutočnom skóre.

Porovnanie klasickej teórie a teórie odpovede na položku

Klasická teória testov (CTT) a IRT sa vo veľkej miere zaoberajú rovnakými problémami, ale ide o rozdielne teórie, a preto sa uplatňujú rozdielne metódy. Hoci sú tieto dve paradigmy vo všeobecnosti konzistentné a vzájomne sa dopĺňajú, existuje niekoľko rozdielnych bodov:

Treba spomenúť aj niektoré špecifické podobnosti medzi CTT a IRT, ktoré pomáhajú pochopiť zhodu medzi pojmami. Po prvé, Lord (1980, s. 33) ukázal, že za predpokladu, že je normálne rozdelená, je diskriminácia v modeli 2PL približne monotónnou funkciou bodovo-biseriálnej korelácie. Konkrétne:

kde je bodová biseriálna korelácia položky i. Ak teda predpoklad platí, tam, kde je vyššia diskriminácia, bude vo všeobecnosti vyššia bodová biseriálna korelácia.

Ďalšia podobnosť spočíva v tom, že hoci IRT poskytuje štandardnú chybu každého odhadu a informačnú funkciu, je možné získať aj index pre test ako celok, ktorý je priamo analogický Cronbachovmu alfa, tzv. index separácie. Na tento účel je potrebné začať s rozkladom odhadu IRT na skutočné miesto a chybu, analogicky k rozkladu pozorovaného skóre na skutočné skóre a chybu v CTT. Nech

kde je skutočná poloha a je chyba spojená s odhadom. Potom je odhad štandardnej odchýlky pre osobu s daným váženým skóre a index separácie sa získa takto

kde stredná kvadratická štandardná chyba odhadu osoby poskytuje odhad rozptylu chýb, , medzi osobami. Štandardné chyby sa zvyčajne vytvárajú ako vedľajší produkt procesu odhadu (pozri napríklad odhad Raschovho modelu). Index separácie má zvyčajne veľmi blízku hodnotu Cronbachovej alfy (Andrich, 1982).

Bolo napísaných mnoho kníh, ktoré sa zaoberajú teóriou odpovede na položku alebo obsahujú modely IRT alebo modely podobné IRT. Toto je čiastočný zoznam, ktorý sa zameriava na texty, ktoré poskytujú väčšiu hĺbku.

V tejto knihe je zhrnutá veľká časť Lordovej práce o IRT vrátane kapitol o vzťahu medzi IRT a klasickými metódami, základoch IRT, odhadoch a niekoľkých pokročilých témach. Kapitola o odhadoch je už zastaraná, pretože sa v nej rozoberá predovšetkým spoločná metóda maximálnej vierohodnosti, a nie metóda marginálnej maximálnej vierohodnosti, ktorú zaviedol Darrell Bock a jeho kolegovia.

Táto kniha je prístupným úvodom do IRT, ktorý je určený, ako hovorí názov, psychológom.

Táto úvodná kniha je dielom jedného z priekopníkov v tejto oblasti a je k dispozícii online na adrese

Táto kniha poskytuje komplexný prehľad o rôznych populárnych IRT-modeloch. Je vhodná pre osoby, ktoré už získali základné poznatky o IRT.

Tento zväzok predstavuje ucelený úvod do modelov odozvy na položku, ktorý je určený najmä pre odborníkov z praxe (výskumných pracovníkov a postgraduálnych študentov).