Kategórie
Psychologický slovník

Binárna klasifikácia

Binárna alebo binomická klasifikácia je úloha klasifikovať členov daného súboru objektov do dvoch skupín na základe toho, či majú alebo nemajú nejakú vlastnosť. Niektoré typické úlohy binárnej klasifikácie sú

Štatistická klasifikácia vo všeobecnosti je jedným z problémov, ktoré sa študujú v informatike s cieľom automaticky sa naučiť klasifikačné systémy; niektoré metódy vhodné na učenie binárnych klasifikátorov zahŕňajú rozhodovacie stromy, Bayesove siete, stroje s podpornými vektormi, neurónové siete, probitovú regresiu a logitovú regresiu.

Niekedy sú úlohy klasifikácie triviálne. Ak máme k dispozícii 100 loptičiek, z ktorých niektoré sú červené a niektoré modré, človek s normálnym farebným videním ich ľahko rozdelí na červené a modré. Niektoré úlohy, ako napríklad úlohy v praktickej medicíne a úlohy zaujímavé z hľadiska informatiky, však zďaleka nie sú triviálne, a ak sa vykonajú nepresne, môžu priniesť chybné výsledky.

Pri tradičnom testovaní štatistických hypotéz začína testujúci s nulovou hypotézou a alternatívnou hypotézou, vykoná experiment a potom sa rozhodne, či zamietne nulovú hypotézu v prospech alternatívnej. Testovanie hypotéz je teda binárna klasifikácia skúmanej hypotézy.

Pozitívny alebo štatisticky významný výsledok je taký, ktorý zamieta nulovú hypotézu. Ak sa to urobí, keď je nulová hypotéza v skutočnosti pravdivá – falošne pozitívna – je to chyba typu I; ak sa to urobí, keď je nulová hypotéza nepravdivá, výsledkom je skutočne pozitívna hypotéza. Negatívny alebo štatisticky nevýznamný výsledok je taký, ktorý nezamieta nulovú hypotézu. Ak je nulová hypotéza v skutočnosti falošná – falošne negatívna – ide o chybu typu II; ak je nulová hypotéza pravdivá, ide o pravdivý negatívny výsledok.

Hodnotenie binárnych klasifikátorov

Z matice zámeny môžete odvodiť štyri základné miery

Na meranie výkonnosti lekárskeho testu sa často používajú pojmy citlivosť a špecifickosť; tieto pojmy sú ľahko použiteľné na hodnotenie akéhokoľvek binárneho klasifikátora. Povedzme, že testujeme niekoľko ľudí na prítomnosť choroby. Niektorí z týchto ľudí majú túto chorobu a náš test je pozitívny. Títo ľudia sa nazývajú skutočne pozitívni (TP). Niektorí majú chorobu, ale test tvrdí, že ju nemajú. Títo ľudia sa nazývajú falošne negatívni (FN). Niektorí ochorenie nemajú a test tvrdí, že ho nemajú – praví negatívni (TN). A napokon môžu existovať aj zdraví ľudia, ktorí majú pozitívny výsledok testu – falošne pozitívni (FP). Počet pravých pozitívnych, falošne negatívnych, pravých negatívnych a falošne pozitívnych sa teda sčítava do 100 % súboru.

Špecifickosť (TNR) je podiel osôb, ktoré boli testované negatívne (TN), zo všetkých osôb, ktoré sú skutočne negatívne (TN+FP). Rovnako ako na citlivosť sa na ňu možno pozerať ako na pravdepodobnosť, že výsledok testu je negatívny vzhľadom na to, že pacient nie je chorý. Pri vyššej špecifickosti je menej zdravých ľudí označených za chorých (alebo v prípade továrne tým menej peňazí, ktoré továreň stráca vyradením dobrých výrobkov namiesto ich predaja).

Citlivosť (TPR), známa aj ako recall, je podiel osôb, ktoré boli testované pozitívne (TP), zo všetkých osôb, ktoré sú skutočne pozitívne (TP+FN). Možno ju chápať ako pravdepodobnosť, že test je pozitívny vzhľadom na to, že pacient je chorý. Pri vyššej citlivosti zostáva menej skutočných prípadov ochorenia neodhalených (alebo, v prípade kontroly kvality v továrni, menej chybných výrobkov ide na trh).

Vzťah medzi citlivosťou a špecificitou, ako aj výkonnosť klasifikátora, možno vizualizovať a študovať pomocou krivky ROC.

Teoreticky sú citlivosť a špecifickosť nezávislé v tom zmysle, že je možné dosiahnuť 100 % v oboch prípadoch (ako napríklad vo vyššie uvedenom príklade červenej/modrej lopty). V praktickejších, menej vymyslených prípadoch však zvyčajne dochádza ku kompromisu, takže sú si do určitej miery nepriamo úmerné. Je to preto, lebo málokedy meriame skutočnú vec, ktorú chceme klasifikovať; skôr meriame ukazovateľ veci, ktorú chceme klasifikovať, označovaný ako náhradný ukazovateľ. Dôvod, prečo je v príklade s loptou možné dosiahnuť 100 %, je ten, že červenosť a modrosť sa určuje priamym zisťovaním červenosti a modrosti. Indikátory sú však niekedy kompromitované, napríklad keď neindikátory napodobňujú indikátory alebo keď sú indikátory časovo závislé a prejavia sa až po určitom čase oneskorenia. Nasledujúci príklad tehotenského testu využije takýto indikátor.

Moderné tehotenské testy nevyužívajú na určenie stavu tehotenstva samotné tehotenstvo, ale ako náhradný marker, ktorý indikuje, že žena je tehotná, sa používa ľudský choriový gonadotropín alebo hCG prítomný v moči gravidných žien. Keďže hCG môže byť produkovaný aj nádorom, špecifickosť moderných tehotenských testov nemôže byť 100 % (v tom zmysle, že sú možné falošne pozitívne výsledky). Aj preto, že hCG je v moči prítomný v takej malej koncentrácii po oplodnení a na začiatku embryogenézy, citlivosť moderných tehotenských testov nemôže byť 100 % (v tom zmysle, že sú možné falošne negatívne výsledky).

Okrem citlivosti a špecifickosti možno výkonnosť binárneho klasifikačného testu merať pomocou pozitívnej prediktívnej hodnoty (PPV), známej aj ako presnosť, a negatívnej prediktívnej hodnoty (NPV). Pozitívna prediktívna hodnota odpovedá na otázku „Ak je výsledok testu pozitívny, ako dobre predpovedá skutočnú prítomnosť ochorenia?“. Vypočíta sa ako (skutočne pozitívne výsledky) / (skutočne pozitívne výsledky + falošne pozitívne výsledky); to znamená, že ide o podiel skutočne pozitívnych výsledkov zo všetkých pozitívnych výsledkov. (Hodnota negatívnej predpovede je rovnaká, ale prirodzene pre negatívne výsledky).

Medzi týmito dvoma pojmami je jeden zásadný rozdiel: Citlivosť a špecifickosť sú nezávislé od populácie v tom zmysle, že sa nemenia v závislosti od testovaného podielu pozitívnych a negatívnych výsledkov. Citlivosť testu možno skutočne určiť testovaním len pozitívnych prípadov. Hodnoty predikcie sú však závislé od populácie.

Napokon, presnosť meria podiel všetkých prípadov, ktoré sú správne zaradené do kategórie; je to pomer počtu správnych klasifikácií k celkovému počtu správnych alebo nesprávnych klasifikácií.

Predpokladajme, že existuje test na chorobu s 99 % citlivosťou a 99 % špecificitou. Ak sa testuje 2000 ľudí, 1000 z nich je chorých a 1000 zdravých. Je pravdepodobných približne 990 pravdivých pozitívnych výsledkov 990 pravdivých negatívnych výsledkov, pričom 10 je falošne pozitívnych a 10 falošne negatívnych výsledkov. Hodnoty pozitívnej a negatívnej predpovede by boli 99 %, takže vo výsledok možno mať vysokú dôveru.

Ak je však z 2000 ľudí skutočne chorých len 100, pravdepodobný výsledok je 99 pravdivých pozitívnych výsledkov, 1 falošne negatívny výsledok, 1881 pravdivých negatívnych výsledkov a 19 falošne pozitívnych výsledkov. Z 19 + 99 pozitívne testovaných ľudí má len 99 skutočne chorobu – to intuitívne znamená, že vzhľadom na to, že výsledok testu pacienta je pozitívny, existuje len 84 % pravdepodobnosť, že pacient skutočne má chorobu. Na druhej strane, vzhľadom na to, že výsledok testu pacienta je negatívny, existuje len 1 šanca z 1882, teda 0,05 % pravdepodobnosť, že pacient má chorobu napriek výsledku testu.

Prevod spojitých hodnôt na binárne

Testy, ktorých výsledky majú spojité hodnoty, ako napríklad väčšina krvných hodnôt, sa môžu umelo zmeniť na binárne definovaním hraničnej hodnoty, pričom výsledky testu sa označia ako pozitívne alebo negatívne v závislosti od toho, či je výsledná hodnota vyššia alebo nižšia ako hraničná hodnota.

Takáto konverzia však spôsobuje stratu informácií, pretože výsledná binárna klasifikácia nehovorí o tom, o koľko je hodnota nad alebo pod hraničnou hodnotou. V dôsledku toho je pri konverzii spojitej hodnoty, ktorá je blízko hraničnej hodnoty, na binárnu hodnotu výsledná pozitívna alebo negatívna prediktívna hodnota spravidla vyššia ako prediktívna hodnota daná priamo zo spojitej hodnoty. V takýchto prípadoch označenie testu ako pozitívneho alebo negatívneho vyvoláva dojem neprimerane vysokej istoty, zatiaľ čo hodnota sa v skutočnosti nachádza v intervale neistoty. Napríklad pri koncentrácii hCG v moči ako spojitej hodnote sa tehotenský test v moči, ktorý nameral 52 mIU/ml hCG, môže zobraziť ako „pozitívny“ s hodnotou 50 mIU/ml ako hraničnou hodnotou, ale v skutočnosti je v intervale neistoty, čo môže byť zrejmé len pri znalosti pôvodnej spojitej hodnoty. Na druhej strane, výsledok testu veľmi vzdialený od hraničnej hodnoty má vo všeobecnosti výslednú pozitívnu alebo negatívnu prediktívnu hodnotu, ktorá je nižšia ako prediktívna hodnota uvedená z kontinuálnej hodnoty. Napríklad hodnota hCG v moči 200 000 mIU/ml poskytuje veľmi vysokú pravdepodobnosť tehotenstva, ale prepočet na binárne hodnoty vedie k tomu, že sa ukáže rovnako „pozitívna“ ako hodnota 52 mIU/ml.

Kategórie
Psychologický slovník

Štatistická klasifikácia

Štatistická klasifikácia je štatistický postup, pri ktorom sa jednotlivé položky zaraďujú do skupín na základe kvantitatívnych informácií o jednej alebo viacerých charakteristikách vlastných položkám (označovaných ako črty, premenné, znaky atď.) a na základe trénovacej množiny predtým označených položiek.

Formálne možno problém vyjadriť takto: pri daných trénovaných údajoch vytvorte klasifikátor, ktorý priradí objektu jeho klasifikačnú značku . Napríklad, ak je problémom filtrovanie spamu, potom je nejaká reprezentácia e-mailu a je buď „Spam“ alebo „Non-Spam“.

Štatistické klasifikačné algoritmy sa zvyčajne používajú v systémoch rozpoznávania vzorov.

Poznámka: v ekológii spoločenstiev je pojem „klasifikácia“ synonymom toho, čo sa bežne nazýva (v strojovom učení) zhlukovanie. Viac informácií o čisto nekontrolovaných technikách nájdete v tomto článku.

Štatistické klasifikačné techniky

Hoci existuje mnoho metód klasifikácie, riešia jeden z troch súvisiacich matematických problémov

Prvým je nájsť mapu priestoru príznakov (čo je zvyčajne viacrozmerný vektorový priestor) na množinu značiek. To je ekvivalentné rozdeleniu priestoru príznakov na oblasti a následnému priradeniu značky každej oblasti. Takéto algoritmy (napr. algoritmus najbližšieho suseda) zvyčajne neposkytujú dôveru alebo pravdepodobnosť triedy, pokiaľ sa nepoužije následné spracovanie. Ďalšia skupina algoritmov na riešenie tohto problému najprv aplikuje na priestor príznakov zhlukovanie bez dohľadu a potom sa pokúsi označiť každý zo zhlukov alebo regiónov.

Druhým problémom je uvažovať o klasifikácii ako o probléme odhadu, kde cieľom je odhadnúť funkciu v tvare

kde vstupný vektor príznakov je , a funkcia f je zvyčajne parametrizovaná niektorými parametrami . V bayesovskom prístupe k tomuto problému sa namiesto výberu jedného vektora parametrov , výsledok integruje cez všetky možné thety, pričom thety sa vážia podľa toho, ako sú pravdepodobné vzhľadom na trénované údaje D:

Tretí problém súvisí s druhým, ale problémom je odhadnúť pravdepodobnosti podmienené triedou a potom použiť Bayesovo pravidlo na vytvorenie pravdepodobnosti triedy ako v druhom probléme.

Medzi príklady klasifikačných algoritmov patria:

Zaujímavým problémom v oblasti rozpoznávania vzorov, ktorý ešte nebol vyriešený, je vzťah medzi riešeným problémom (údajmi, ktoré sa majú klasifikovať) a výkonnosťou rôznych algoritmov rozpoznávania vzorov (klasifikátorov). Van der Walt a Barnard (pozri referenčnú časť) skúmali veľmi špecifické súbory umelých údajov, aby určili podmienky, za ktorých niektoré klasifikátory fungujú lepšie a iné horšie.

Výkonnosť klasifikátora do značnej miery závisí od vlastností klasifikovaných údajov. Neexistuje jediný klasifikátor, ktorý by najlepšie fungoval na všetky dané problémy (tento jav možno vysvetliť teorémom No-free-lunch). Na porovnanie výkonnosti klasifikátorov a zistenie vlastností údajov, ktoré určujú výkonnosť klasifikátorov, sa vykonali rôzne emperické testy. Určenie vhodného klasifikátora pre daný problém je však stále viac umením ako vedou.

Najčastejšie používané klasifikátory sú neurónové siete (viacvrstvový perceptron), stroje s podpornými vektormi, k-najbližší susedia, Gaussov model zmesi, Gaussov model, Naive Bayes, rozhodovací strom a klasifikátory RBF.