Chyby typu I a typu II

Chyby typu I (chyba α alebo falošne pozitívny výsledok) a chyby typu II (chyba β alebo falošne negatívny výsledok) sú dva termíny používané na opis štatistických chýb.

Štatistická chyba vs. systematická chyba

Vedci rozoznávajú dva rôzne druhy chýb: [1]

Štatistická chyba: Typ I a typ II

Štatistici hovoria o dvoch významných druhoch štatistických chýb. Kontext je taký, že existuje „nulová hypotéza“, ktorá zodpovedá predpokladanému štandardnému „prirodzenému stavu“, napr. že jedinec nie je chorý, že obvinený je nevinný alebo že potenciálny kandidát na prihlásenie nie je oprávnený. Nulovej hypotéze zodpovedá „alternatívna hypotéza“, ktorá zodpovedá opačnej situácii, t. j. že jednotlivec má chorobu, že obvinený je vinný alebo že kandidát na prihlásenie je oprávnený používateľ. Cieľom je presne určiť, či nulovú hypotézu možno zamietnuť v prospech alternatívnej. Vykoná sa nejaký test (krvný test, súdny proces, pokus o prihlásenie) a získajú sa údaje. Výsledok testu môže byť negatívny (to znamená, že nenaznačuje chorobu, vinu alebo oprávnenú identitu). Na druhej strane môže byť pozitívny (to znamená, že môže naznačovať chorobu, vinu alebo identitu). Ak výsledok testu nezodpovedá skutočnému stavu prírody, došlo k chybe, ale ak výsledok testu zodpovedá skutočnému stavu prírody, bolo prijaté správne rozhodnutie. Existujú dva druhy chýb, ktoré sa klasifikujú ako „chyba typu I“ a „chyba typu II“ v závislosti od toho, ktorá hypotéza bola nesprávne identifikovaná ako skutočný stav prírody.

Chyba typu I, známa aj ako „chyba prvého druhu“, chyba α alebo „falošne pozitívna“: chyba zamietnutia nulovej hypotézy, keď je v skutočnosti pravdivá. Jednoducho povedané, nastáva vtedy, keď pozorujeme rozdiel, hoci v skutočnosti žiadny nie je.

Falošná pozitivita zvyčajne znamená, že test tvrdí, že je niečo pozitívne, hoci to tak nie je. Napríklad tehotenský test s pozitívnym výsledkom (čo znamená, že osoba, ktorá test vykonala, je tehotná) je falošne pozitívny v prípade, že osoba tehotná nie je.

Chyba typu II, známa aj ako „chyba druhého druhu“, chyba β alebo „falošne negatívna chyba“: chyba spočívajúca v nezamietnutí nulovej hypotézy, keď alternatívna hypotéza je skutočným stavom prírody. Inými slovami, ide o chybu spočívajúcu v nepozorovaní rozdielu, keď v skutočnosti existuje. Tento typ chyby môže nastať len vtedy, keď štatistik nezamietne nulovú hypotézu.

Ďalšia terminológia je uvedená v časti Rôzne návrhy na ďalšie rozšírenie.

Chápanie chýb typu I a typu II

Testovanie hypotéz je umenie testovať, či sa rozdiel medzi dvoma rozdeleniami vzorky dá vysvetliť náhodou alebo nie. V mnohých praktických aplikáciách sú chyby typu I chúlostivejšie ako chyby typu II. V týchto prípadoch sa zvyčajne dbá na minimalizáciu výskytu tejto štatistickej chyby. Predpokladajme, že pravdepodobnosť chyby typu I je 1 % alebo 5 %, potom existuje 1 % alebo 5 % pravdepodobnosť, že pozorovaná odchýlka nie je pravdivá. Táto hodnota sa nazýva hladina významnosti. Zatiaľ čo 1 % alebo 5 % môže byť prijateľná úroveň významnosti pre jednu aplikáciu, iná aplikácia môže vyžadovať úplne inú úroveň. Napríklad štandardným cieľom šesť sigma je dosiahnuť presnosť o 4,5 štandardnej odchýlky nad alebo pod priemerom. To znamená, že pre normálne rozložený proces je prípustná odchýlka len 3,4 časti na milión. Pravdepodobnosť chyby typu I sa vo všeobecnosti označuje gréckym písmenom alfa.

V roku 1928 Jerzy Neyman (1894-1981) a Egon Pearson (1895-1980), obaja významní štatistici, diskutovali o problémoch spojených s „rozhodovaním o tom, či určitá vzorka môže byť považovaná za náhodne vybranú z určitej populácie“ (1928/1967, s. 1).): a ako poznamenal David, „je potrebné si uvedomiť, že prídavné meno ‚náhodný‘ [v pojme ‚náhodná vzorka‘] by sa malo vzťahovať na spôsob výberu vzorky, a nie na vzorku samotnú“ (1949, s. 28).

V roku 1933 poznamenali, že tieto „problémy sú zriedkavo prezentované v takej forme, aby sme mohli s istotou rozlíšiť medzi pravdivou a nepravdivou hypotézou“ (s. 187). Taktiež poznamenali, že pri rozhodovaní, či prijať alebo zamietnuť konkrétnu hypotézu spomedzi „súboru alternatívnych hypotéz“ (s. 201), je ľahké urobiť chybu:

Vo všetkých prácach, ktoré Neyman a Pearson napísali spoločne, výraz H0 vždy znamená „hypotéza, ktorá sa má testovať“ (pozri napríklad 1933/1967, s. 186).

Tieto príklady ilustrujú nejednoznačnosť, ktorá je jedným z nebezpečenstiev tohto širšieho používania: Mohli by sa použiť aj opačne, ako testovanie neviny, alebo by mohlo ísť o dva testy, jeden na vinu, druhý na nevinu. (Táto nejednoznačnosť je jedným z dôvodov tretieho možného verdiktu škótskeho právneho systému: nedokázané).

Doporučujeme:  Vedenie vlastností

Nasledujúce tabuľky znázorňujú podmienky.

Príklad, použitie výsledkov testov infekčných chorôb:

Príklad, testovanie na vinu/nevinu:

Všimnite si, že v súvislosti s výsledkami testov sa pojmy pravdivý a nepravdivý používajú v dvoch rôznych významoch: stav aktuálneho stavu (pravdivý = prítomný verzus nepravdivý = neprítomný) a presnosť alebo nepresnosť výsledku testu (pravdivý pozitívny, nepravdivý pozitívny, pravdivý negatívny, nepravdivý negatívny). Pre niektorých čitateľov je to mätúce. Na objasnenie uvedených príkladov sme na označenie skutočného stavu, ktorý sa testuje, použili skôr slovné spojenie prítomný/neprítomný než pravdivý/nepravdivý.

Miera falošnej pozitivity je podiel negatívnych prípadov, ktoré boli chybne nahlásené ako pozitívne.

Rovná sa 1 mínus špecifickosť testu. To je ekvivalentné tvrdeniu, že miera falošne pozitívnych výsledkov sa rovná hladine významnosti.

V štatistickom testovaní hypotéz sa tento podiel označuje symbolom α a je definovaný ako špecifickosť testu. Zvyšovanie špecificity testu znižuje pravdepodobnosť chýb typu I, ale zvyšuje pravdepodobnosť chýb typu II (falošne negatívne, ktoré zamietajú alternatívnu hypotézu, hoci je pravdivá)[6].

Falošne negatívna miera je podiel pozitívnych prípadov, ktoré boli chybne nahlásené ako negatívne.

Rovná sa 1 mínus „sila“ testu.[7]

Pri testovaní štatistických hypotéz sa tento podiel označuje symbolom β.

Štatistici štandardne vykonávajú testy, aby zistili, či je možné podporiť „špekulatívnu hypotézu“ týkajúcu sa pozorovaných javov vo svete (alebo jeho obyvateľov). Výsledky takéhoto testovania určujú, či konkrétny súbor výsledkov primerane súhlasí (alebo nesúhlasí) so špekulatívnou hypotézou.

Na základe štatistickej konvencie sa vždy predpokladá, že predpokladaná hypotéza je nesprávna – a že pozorované javy sa vyskytujú jednoducho náhodne (a že v dôsledku toho predpokladaný činiteľ nemá žiadny vplyv) – test určí, či je hypotéza správna alebo nesprávna. Preto sa testovaná hypotéza často nazýva „nulová hypotéza“ (s najväčšou pravdepodobnosťou ju vytvoril Fisher (1935, s. 19)), pretože práve táto hypotéza má byť testom buď zrušená, alebo nezrušená.

Dôsledné uplatňovanie Neymanovej a Pearsonovej konvencie štatistikov, ktorí „testovanú hypotézu“ (alebo „hypotézu, ktorá má byť nulovaná“) predstavujú výrazom Ho, viedlo k tomu, že mnohí chápu výraz „nulová hypotéza“ ako „nulovú hypotézu“ – tvrdenie, že príslušné výsledky vznikli náhodou. Nemusí to tak byť – kľúčovým obmedzením podľa Fishera (1966) je, že „nulová hypotéza musí byť presná, t. j. bez nejasností a dvojznačností, pretože musí poskytnúť základ ‚problému rozdelenia‘, ktorého riešením je test významnosti.“[8] V dôsledku toho je v experimentálnej vede nulová hypotéza vo všeobecnosti tvrdením, že určitý postup nemá žiadny účinok; v observačnej vede je to tvrdenie, že neexistuje rozdiel medzi hodnotou konkrétnej meranej premennej a hodnotou experimentálnej predpovede.

Miera, do akej daný test ukazuje, že „predpokladaná hypotéza“ bola (alebo nebola) vyvrátená, sa nazýva hladina významnosti; a čím je hladina významnosti vyššia, tým je menej pravdepodobné, že daný jav mohol vzniknúť len náhodou. Britský štatistik Sir Ronald Aylmer Fisher (1890 – 1962) zdôraznil, že „nulová hypotéza“:

Pravdepodobnosť, že pozorovaný pozitívny výsledok je falošne pozitívny (na rozdiel od pozorovaného pozitívneho výsledku, ktorý je skutočne pozitívny), možno vypočítať pomocou Bayesovej vety.

Kľúčovým konceptom Bayesovej vety je, že skutočná miera falošne pozitívnych a falošne negatívnych výsledkov nie je funkciou samotnej presnosti testu, ale aj skutočnej miery alebo frekvencie výskytu v testovanej populácii; a často je silnejším problémom skutočná miera výskytu daného stavu v testovanej vzorke.

Rôzne návrhy na ďalšie rozšírenie

Keďže párové pojmy chýb I. typu (alebo „falošne pozitívnych“) a chýb II. typu (alebo „falošne negatívnych“), ktoré zaviedli Neyman a Pearson, sú v súčasnosti široko používané, ich výber terminológie („chyby prvého druhu“ a „chyby druhého druhu“) viedol ostatných k domnienke, že určité druhy chýb, ktoré identifikovali, môžu byť „chybami tretieho druhu“, „štvrtého druhu“ atď.[9]

Žiadna z týchto navrhovaných kategórií sa nestretla so širokým prijatím. Nasleduje stručný opis niektorých z týchto návrhov.

V roku 1948 Frederick Mosteller (1916-)[10] tvrdil, že na opis okolností, ktoré pozoroval, je potrebný „tretí druh chyby“, a to:

Henry F. Kaiser (1927-1992) vo svojej práci z roku 1966 rozšíril Mostellerovu klasifikáciu tak, že chyba tretieho druhu znamená nesprávne rozhodnutie o smere po zamietnutí dvojvýberového testu hypotézy. Vo svojej diskusii (1966, s. 162-163) Kaiser hovorí aj o chybách α, β a γ pre chyby I. typu, II. typu a III. typu.

Doporučujeme:  Matematické premenné

V roku 1957 Allyn W. Kimball, štatistik z Oak Ridge National Laboratory, navrhol iný druh chyby, ktorý by mal stáť vedľa „prvého a druhého typu chyby v teórii testovania hypotéz“. Kimball definoval túto novú „chybu tretieho druhu“ ako „chybu, ktorej sa dopúšťame tým, že dávame správnu odpoveď na nesprávny problém“ (1957, s. 134).

Matematik Richard Hamming (1915-1998) vyslovil názor, že „je lepšie riešiť správny problém nesprávnym spôsobom ako riešiť nesprávny problém správnym spôsobom“.

Známy harvardský ekonóm Howard Raiffa opisuje prípad, keď aj on „padol do pasce práce na nesprávnom probléme“ (1968, s. 264-265)[11].

V roku 1974 Ian Mitroff a Tom Featheringham rozšírili Kimballovu kategóriu a tvrdili, že „jedným z najdôležitejších determinantov riešenia problému je to, ako bol tento problém reprezentovaný alebo formulovaný“.

Chyby typu III definovali buď ako „chybu…, že sme vyriešili nesprávny problém…, keď sme mali vyriešiť správny problém“, alebo ako „chybu…, že sme si vybrali nesprávnu reprezentáciu problému…, keď sme si mali… vybrať správnu reprezentáciu problému“ (1974), s. 383).

V roku 1969 harvardský ekonóm Howard Raiffa vtipne navrhol „kandidáta na chybu štvrtého druhu: príliš neskoré riešenie správneho problému“ (1968, s. 264).

V roku 1970 Marascuilo a Levin navrhli „štvrtý druh chyby“ – „chybu IV. typu“ – ktorú definovali podobne ako Mosteller ako chybu „nesprávnej interpretácie správne zamietnutej hypotézy“; čo je podľa nich ekvivalentom „správnej diagnózy lekára, po ktorej nasleduje predpísanie nesprávneho lieku“ (1970, s. 398).

Prahovú hodnotu možno meniť, aby bol test prísnejší alebo citlivejší; prísnejšie testy zvyšujú riziko odmietnutia pravých pozitívnych výsledkov a citlivejšie testy zvyšujú riziko prijatia falošne pozitívnych výsledkov.

Pojmy „falošne pozitívne“ a „falošne negatívne“ sú v oblasti počítačov a počítačových aplikácií veľmi rozšírené.

Bezpečnostné zraniteľnosti sú dôležitým faktorom pri úlohe zabezpečiť bezpečnosť všetkých počítačových údajov a zároveň zachovať prístup k týmto údajom pre príslušných používateľov (pozri počítačová bezpečnosť, počítačová neistota). Moulton (1983) zdôrazňuje význam:

K falošne pozitívnym správam dochádza vtedy, keď techniky filtrovania alebo blokovania spamu nesprávne klasifikujú legitímnu e-mailovú správu ako spam a v dôsledku toho narušia jej doručenie. Hoci väčšina antispamových taktík dokáže zablokovať alebo odfiltrovať vysoké percento nežiaducich e-mailov, urobiť to bez toho, aby vznikali výrazné falošne pozitívne výsledky, je oveľa náročnejšia úloha.

Falošne negatívny výsledok nastane vtedy, keď sa nevyžiadaná e-mailová správa nezistí ako spam, ale klasifikuje sa ako „nevyžiadaná“. Nízky počet falošne negatívnych výsledkov je ukazovateľom účinnosti metód filtrovania spamu.

Termín falošne pozitívny sa používa aj vtedy, keď antivírusový softvér nesprávne klasifikuje neškodný súbor ako vírus. Nesprávna detekcia môže byť spôsobená heuristikou alebo nesprávnou vírusovou signatúrou v databáze. Podobné problémy sa môžu vyskytnúť aj v prípade antitrojanového alebo antispywarového softvéru.

Vyhľadávanie v počítačovej databáze

Pri vyhľadávaní v počítačových databázach sú falošne pozitívne výsledky vyhľadávania dokumenty, ktoré sú odmietnuté napriek tomu, že sú relevantné pre hľadanú otázku. Falošne negatívne dokumenty sú dokumenty, ktoré sú vyhľadávané napriek ich nerelevantnosti pre vyhľadávaciu otázku. Falošné negatíva sú bežné pri fulltextovom vyhľadávaní, pri ktorom vyhľadávací algoritmus skúma celý text vo všetkých uložených dokumentoch a snaží sa nájsť zhodu s jedným alebo viacerými vyhľadávacími výrazmi, ktoré zadal používateľ. Zvážte, ako to súvisí s filtrovaním nevyžiadanej pošty – je závažnejšie nevyzdvihnúť požadovaný dokument ako vyhľadať dokument, ktorý nechcete.

Väčšinu falošne pozitívnych výsledkov možno pripísať nedostatkom prirodzeného jazyka, ktorý je často nejednoznačný: napr. výraz „domov“ môže znamenať „obydlie osoby“ alebo „hlavná alebo najvyššia úroveň stránky na webovej stránke“[12].

Optické rozpoznávanie znakov (OCR)

Detekčné algoritmy všetkých druhov často vytvárajú falošne pozitívne výsledky. Softvér na optické rozpoznávanie znakov (OCR) môže detekovať písmeno „a“, pričom pre použitý algoritmus sa ako písmeno „a“ javia len niektoré body.

Pri bezpečnostných kontrolách na letiskách sa každý deň bežne zisťujú falošne pozitívne výsledky. Inštalované bezpečnostné alarmy majú zabrániť vnášaniu zbraní do lietadiel; často sú však nastavené na takú vysokú citlivosť, že sa mnohokrát za deň spustí poplach pri drobných predmetoch, ako sú kľúče, spony opaskov, drobné peniaze, mobilné telefóny a cvočky v topánkach (pozri detekcia výbušnín, detektor kovov).

Pomer falošne pozitívnych výsledkov (identifikácia nevinného cestujúceho ako teroristu) a skutočne pozitívnych výsledkov (odhalenie potenciálneho teroristu) je preto veľmi vysoký, a keďže takmer každý poplach je falošne pozitívny, pozitívna prediktívna hodnota týchto skríningových testov je veľmi nízka.

Doporučujeme:  9 príznakov neistoty vo vzťahu

Biometrické overovanie, napríklad odtlačkov prstov, rozpoznávanie tváre alebo
rozpoznávanie dúhovky, je náchylné na chyby typu I a typu II. Štandardné
biometrickej terminológie pre tieto chyby sú:

FAR môže byť aj skratkou pre mieru falošného poplachu v závislosti od toho, či
biometrický systém je určený na povolenie prístupu alebo na rozpoznanie podozrivých osôb. FAR je
považuje za mieru bezpečnosti systému, zatiaľ čo FRR meria
úroveň nepohodlia pre používateľov. V prípade mnohých systémov je FRR do veľkej miery spôsobená nízkou kvalitou
snímok v dôsledku nesprávneho umiestnenia alebo osvetlenia. Niekedy sa používa terminológia FMR/FNMR
sa uprednostňuje pred FAR/FRR, pretože prvý termín meria mieru pre každé biometrické porovnanie, zatiaľ čo druhý
merajú výkonnosť aplikácie (t. j. môžu byť povolené tri pokusy).

V súvislosti s používaním týchto opatrení v biometrických systémoch je potrebné uviesť niekoľko obmedzení:

V medicínskej praxi existuje významný rozdiel medzi použitím skríningu a testovania:

Väčšina štátov v USA napríklad vyžaduje, aby sa novorodenci vyšetrovali okrem iných vrodených porúch aj na fenylketonúriu a hypotyreózu. Aj keď vykazujú vysokú mieru falošne pozitívnych výsledkov, skríningové testy sa považujú za cenné, pretože výrazne zvyšujú pravdepodobnosť odhalenia týchto porúch v oveľa skoršom štádiu[13].

Jednoduché krvné testy, ktoré sa používajú na vyšetrenie možných darcov krvi na HIV a hepatitídu, majú značný podiel falošne pozitívnych výsledkov; lekári však používajú oveľa drahšie a presnejšie testy na určenie, či je osoba skutočne infikovaná niektorým z týchto vírusov.

Asi najviac sa diskutuje o falošne pozitívnych výsledkoch lekárskeho skríningu, ktoré pochádzajú z mamografického vyšetrenia rakoviny prsníka. V USA je miera falošne pozitívnych mamografických vyšetrení až 15 %, čo je najvyššia miera na svete[14], najnižšia miera na svete je v Holandsku, 1 %[15].

Preto ak sa niekto rozhodne použiť lekársky test na účely populačného skríningu, musí byť test navrhnutý tak, aby bol lacný, ľahko sa vykonával a pokiaľ možno nedával žiadne falošne negatívne výsledky. Takéto testy zvyčajne produkujú viac falošne pozitívnych výsledkov, ktoré sa následne dajú vyriešiť sofistikovanejším (a drahším) testovaním.

Falošne negatívne a falošne pozitívne výsledky sú v lekárskom testovaní významným problémom.

Falošne negatívne výsledky môžu pacientom a lekárom poskytnúť falošne upokojujúcu správu, že choroba nie je prítomná, hoci v skutočnosti prítomná je. To niekedy vedie k nevhodnej alebo neadekvátnej liečbe pacienta aj jeho ochorenia. Bežným príkladom je spoliehanie sa na záťažové testy srdca pri zisťovaní koronárnej aterosklerózy, hoci je známe, že záťažové testy srdca zisťujú len obmedzenie prietoku krvi koronárnou tepnou v dôsledku pokročilých stenóz.

Falošne negatívne výsledky spôsobujú vážne a neintuitívne problémy, najmä ak je hľadaný stav bežný. Ak sa test s falošne negatívnou mierou výskytu iba 10 % použije na testovanie populácie so skutočnou mierou výskytu 70 %, mnohé „negatívne“ zistené testom budú falošné. (Pozri Bayesovu vetu)

Falošne pozitívne výsledky môžu tiež spôsobiť vážne a neintuitívne problémy, ak je hľadaný stav zriedkavý, ako je to pri skríningu. Ak je miera falošnej pozitivity testu jedna z desaťtisíc, ale len jedna z milióna vzoriek (alebo ľudí) je skutočne pozitívna, väčšina „pozitívnych“ prípadov zistených týmto testom bude falošná[16].

Pojem falošne pozitívny sa ujal medzi tými, ktorí skúmajú paranormálne javy alebo javy duchov, aby opísali fotografiu, nahrávku alebo iný dôkaz, ktorý sa nesprávne javí ako paranormálny pôvod – v tomto použití je falošne pozitívny dôkaz vyvrátený mediálny „dôkaz“ (obrázok, film, zvuková nahrávka atď.), ktorý má normálne vysvetlenie[17].

Priemer (aritmetický, geometrický) – Medián – Modus – Výkon – Rozptyl – Smerodajná odchýlka

Testovanie hypotéz – Významnosť – Nulová hypotéza/alternatívna hypotéza – Chyba – Z-test – Studentov t-test – Maximálna pravdepodobnosť – Štandardné skóre/Z skóre – P-hodnota – Analýza rozptylu

Funkcia prežitia – Kaplan-Meier – Logrankov test – Miera zlyhania – Modely proporcionálnych rizík

Normálna (zvonová krivka) – Poissonova – Bernoulliho

Zmiešavajúca premenná – Pearsonov koeficient korelácie súčinu a momentu – Korelácia poradia (Spearmanov koeficient korelácie poradia, Kendallov koeficient korelácie poradia tau)

Lineárna regresia – Nelineárna regresia – Logistická regresia