Vizuálne rozpoznávanie objektov

Tento článok je o vizuálnom rozpoznávaní objektov v kognitívnej neurovede.

Rozpoznávanie objektov je schopnosť vnímať fyzikálne vlastnosti objektu (ako je tvar, farba a textúra) a aplikovať na objekt sémantické atribúty, ktoré zahŕňajú pochopenie jeho použitia, predchádzajúce skúsenosti s objektom a jeho vzťah k iným.

Základné fázy rozpoznávania objektov

Jeden z modelov rozpoznávania objektov, založený na neuropsychologických dôkazoch, poskytuje informácie, ktoré nám umožňujú rozdeliť tento proces do štyroch rôznych fáz.

Je potrebné poznamenať, že v rámci týchto fáz prebiehajú ďalšie špecifické procesy, ktorými sa dokončujú jednotlivé zložky spracovania. Okrem toho iné existujúce modely navrhujú integračné hierarchie (zhora nadol a zdola nahor), ako aj paralelné spracovanie, na rozdiel od tejto všeobecnej hierarchie zdola nahor.

Hierarchické spracovanie rozpoznávania

Na spracovanie vizuálneho rozpoznávania sa zvyčajne nazerá ako na hierarchiu zdola nahor, v ktorej sa informácie spracúvajú postupne so zvyšujúcou sa zložitosťou, pričom kôrové procesory nižšej úrovne, ako napríklad primárna vizuálna kôra, sú na spodku hierarchie spracovania a kôrové procesory vyššej úrovne, ako napríklad inferotemporálna kôra (IT), sú na vrchole, kde sa rozpoznávanie uľahčuje. Najviac uznávanou hierarchickou teóriou zdola nahor je teória videnia Davida Marra. Naopak, čoraz populárnejšou teóriou spracovania rozpoznávania, je teória spracovania zhora nadol. Jeden z modelov, ktorý navrhol Moshe Bar (2003), opisuje metódu „skratky“, pri ktorej sa skoré zrakové vstupy posielajú, čiastočne analyzované, z rannej zrakovej kôry do prefrontálnej kôry (PFC). Možné interpretácie hrubých vizuálnych vstupov sa vytvárajú v PFC a potom sa posielajú do inferotemporálnej kôry (IT), kde sa následne aktivujú príslušné reprezentácie objektov, ktoré sa potom začlenia do pomalšieho procesu zdola nahor. Cieľom tejto „skratky“ je minimalizovať množstvo reprezentácií objektov potrebných na porovnávanie, čím sa uľahčí rozpoznávanie objektov. Štúdie lézií podporili tento návrh zisteniami o pomalších reakčných časoch u jedincov s léziami PFC, čo naznačuje využívanie iba spracovania zdola nahor.

Stálosť objektov a teórie rozpoznávania objektov

Dôležitým aspektom rozpoznávania objektov je stálosť objektu: schopnosť rozpoznať objekt v rôznych podmienkach pozorovania. Tieto meniace sa podmienky zahŕňajú orientáciu objektu, osvetlenie a variabilitu objektu (veľkosť, farba a iné rozdiely v rámci kategórie). Aby zrakový systém dosiahol konštantnosť objektu, musí byť schopný extrahovať spoločnú črtu v opise objektu v rôznych uhloch pohľadu a v opise sietnice. Bolo vytvorených niekoľko teórií, ktoré poskytujú pohľad na to, ako sa môže dosiahnuť stálosť objektu na účely rozpoznávania objektov, vrátane teórií nezávislých od uhla pohľadu, teórií závislých od uhla pohľadu a teórií viacerých pohľadov.

Teórie s variabilným uhlom pohľadu

Teórie invariantnosti pohľadu naznačujú, že rozpoznávanie objektov je založené na štrukturálnych informáciách, ako sú jednotlivé časti, čo umožňuje rozpoznávanie bez ohľadu na pohľad na objekt. Rozpoznávanie je teda možné z akéhokoľvek uhla pohľadu, keďže jednotlivé časti objektu možno otočiť tak, aby sa prispôsobili akémukoľvek konkrétnemu pohľadu. Táto forma analytického rozpoznávania si vyžaduje málo pamäte, pretože je potrebné zakódovať len štrukturálne časti, ktoré môžu vytvárať viacnásobné reprezentácie objektu prostredníctvom vzájomných vzťahov týchto častí a mentálnej rotácie. Preto sa v pamäti nevyžaduje ukladanie viacerých uhlov pohľadu na objekt.

Tento model, ktorý navrhli Marr a Nishihara (1978), uvádza, že rozpoznávanie objektov sa dosahuje porovnávaním reprezentácií 3-D modelov získaných z vizuálneho objektu s reprezentáciami 3-D modelov uloženými v pamäti. Reprezentácie 3-D modelu získané z objektu sa vytvárajú tak, že sa najprv identifikujú konkávnosti objektu, ktoré rozdeľujú podnet na jednotlivé časti. Potom sa nájdu osi každej jednotlivej časti objektu. Identifikácia hlavnej osi objektu pomáha v procese normalizácie prostredníctvom mentálneho otáčania, ktoré je potrebné, pretože v pamäti je uložený len kanonický opis objektu. Rozpoznanie sa získa, keď sa pozorovaný pohľad na objekt mentálne otočí tak, aby zodpovedal uloženému kanonickému opisu.

Obrázok 1. Tento obrázok, vytvorený na základe Biedermanovej (1987) teórie rozpoznávania podľa zložiek, je príkladom toho, ako možno objekty rozdeliť na Geony.

Rozšírenie Marrovho a Nishiharovho modelu, teória rozpoznávania podľa komponentov, ktorú navrhol Biederman (1987), navrhuje, aby sa vizuálne informácie získané z objektu rozdelili na jednoduché geometrické komponenty, ako sú bloky a valce, známe aj ako „geóny“ (geometrické ióny), a potom sa porovnali s najpodobnejšou reprezentáciou objektu, ktorá je uložená v pamäti, aby sa zabezpečila identifikácia objektu (pozri obrázok 1).

Doporučujeme:  Menarché

Teórie závislé od uhla pohľadu

Teórie závislé od uhla pohľadu naznačujú, že rozpoznávanie objektov je ovplyvnené uhlom pohľadu, z ktorého je objekt videný, čo znamená, že objekty videné z nových uhlov pohľadu znižujú presnosť a rýchlosť identifikácie objektov. Táto teória rozpoznávania je založená skôr na celistvejšom systéme než na častiach, čo naznačuje, že objekty sú uložené v pamäti s viacerými uhlami pohľadu a uhlami. Táto forma rozpoznávania si vyžaduje veľa pamäte, pretože každý uhol pohľadu musí byť uložený. Presnosť rozpoznávania závisí aj od toho, nakoľko je pozorovaný pohľad na objekt známy.

Táto teória navrhuje, že rozpoznávanie objektov sa nachádza na kontinuu pohľadu, kde sa každý pohľad využíva na rôzne typy rozpoznávania. Na jednom konci tohto kontinua sa na rozlišovanie v rámci kategórie používajú mechanizmy závislé od uhla pohľadu, zatiaľ čo na druhom konci sa na kategorizáciu objektov používajú mechanizmy nezávislé od uhla pohľadu.

Dorsálny prúd je znázornený zelenou farbou a ventrálny prúd fialovou.

Dorsálny a ventrálny prúd

Vizuálne spracovanie objektov v mozgu možno rozdeliť na dve dráhy spracovania: dorzálny prúd (ako/kde), ktorý sa tiahne od zrakovej kôry k temenným lalokom, a ventrálny prúd (čo), ktorý sa tiahne od zrakovej kôry k inferotemporálnej kôre (IT). Existenciu týchto dvoch oddelených dráh vizuálneho spracovania prvýkrát navrhli Ungerleider a Mishkin (1982), ktorí na základe svojich štúdií lézií navrhli, že dorzálny prúd sa podieľa na spracovaní vizuálnych priestorových informácií, ako je lokalizácia objektu (kde), a ventrálny prúd sa podieľa na spracovaní vizuálnych informácií o identifikácii objektu (čo). Od tohto pôvodného návrhu sa alternatívne navrhlo, aby sa dorzálna dráha nazývala dráha „ako“, keďže vizuálne priestorové informácie, ktoré sa tu spracúvajú, nám poskytujú informácie o tom, ako máme s objektmi komunikovať Na účely rozpoznávania objektov sa nervová pozornosť sústreďuje na ventrálny prúd.

Funkčná špecializácia vo ventrálnom prúde

V rámci ventrálneho prúdu boli v rámci funkčných zobrazovacích štúdií pozorované rôzne oblasti navrhovanej funkčnej špecializácie. Oblasti mozgu, v ktorých sa najdôslednejšie zistila funkčná špecializácia, sú Fusiform Face Area (FFA), ktorá vykazuje zvýšenú aktiváciu pre tváre v porovnaní s objektmi, Parahippocampal Place Area (PPA) pre scény v porovnaní s objektmi, Extrastriate Body Area (EBA) pre časti tela v porovnaní s objektmi, MT+/V5 pre pohyblivé podnety v porovnaní so statickými podnetmi a Lateral Occipital Complex (LOC) pre rozoznateľné tvary v porovnaní so zakódovanými podnetmi. (Pozri tiež: Neurónové spracovanie pre jednotlivé kategórie objektov)

Štrukturálne spracovanie: Laterálny okcipitálny komplex

Zistilo sa, že laterálny okcipitálny komplex (LOC) je mimoriadne dôležitý pre rozpoznávanie objektov na percepčnej štrukturálnej úrovni. V štúdii fMRI súvisiacej s udalosťami, ktorá sa zaoberala adaptáciou neurónov aktivovaných pri vizuálnom spracovaní objektov, sa zistilo, že podobnosť tvaru objektu je potrebná na následnú adaptáciu v LOC, ale špecifické vlastnosti objektu, ako sú hrany a obrysy, nie. To naznačuje, že aktivácia v LOC predstavuje informácie o tvare objektu na vyššej úrovni a nie jednoduché vlastnosti objektu. V súvisiacej štúdii fMRI aktivácia LOC, ktorá nastala bez ohľadu na vizuálne podnety prezentovaného objektu, ako je pohyb, textúra alebo kontrasty jasnosti, naznačuje, že rôzne vizuálne podnety na nízkej úrovni používané na definovanie objektu sa zbiehajú v „oblastiach súvisiacich s objektom“, aby pomohli pri procese vnímania a rozpoznávania. Treba poznamenať, že žiadna zo spomínaných informácií o tvare objektu vyššej úrovne zrejme neposkytuje žiadne sémantické informácie o objekte, keďže LOC vykazuje neuronálnu odozvu na rôzne formy vrátane neznámych, abstraktných objektov.

Ďalšie experimenty navrhli, že LOC sa skladá z hierarchického systému tvarovej selektivity, ktorý naznačuje väčšiu selektívnu aktiváciu v zadných oblastiach pre fragmenty objektov, zatiaľ čo predné oblasti vykazujú väčšiu aktiváciu pre celé alebo čiastočné objekty. To je v súlade s predchádzajúcim výskumom, ktorý naznačuje hierarchickú reprezentáciu vo ventrálnej temporálnej kôre, kde sa primárne spracovanie znakov uskutočňuje v zadných oblastiach a integrácia týchto znakov do celého a zmysluplného objektu sa uskutočňuje v predných oblastiach.

Doporučujeme:  Narcistickí rodičia

Prostredníctvom informácií poskytnutých neuropsychologickými pacientmi boli identifikované disociácie v spracovaní rozpoznávania medzi štrukturálnym a sémantickým spracovaním, keďže štrukturálne, farebné a asociačné informácie môžu byť selektívne narušené. V jednej PET štúdii sa zistilo, že oblasti zapojené do asociatívneho sémantického spracovania zahŕňajú ľavý predný horný/stredný temporálny gyrus a ľavý temporálny pól porovnateľný so štrukturálnymi a farebnými informáciami, ako aj pravý temporálny pól porovnateľný len s úlohami farebného rozhodovania. Tieto výsledky naznačujú, že uložené percepčné vedomosti a sémantické vedomosti zapájajú pri rozpoznávaní objektov samostatné kortikálne oblasti, ako aj to, že v temporálnych oblastiach existujú hemisférické rozdiely.

Výskum tiež poskytol dôkazy, ktoré naznačujú, že vizuálne sémantické informácie sa zbiehajú vo fusiformných gyroch inferotemporálnych lalokov. V štúdii, v ktorej sa porovnávali sémantické znalosti kategórie a atribútov, sa zistilo, že zohrávajú samostatné úlohy v tom, ako prispievajú k rozpoznávaniu. Pri kategoriálnom porovnávaní sa pri živých objektoch aktivovali laterálne oblasti fusiformného gyrusu v porovnaní s neživými objektmi, ktoré aktivovali mediálne oblasti. Pri porovnávaní atribútov sa zistilo, že pravý fusiformný gyrus bol aktivovaný globálnou formou v porovnaní s lokálnymi detailmi, ktoré aktivovali ľavý fusiformný gyrus. Tieto výsledky naznačujú, že typ kategórie objektu určuje, ktorá oblasť fusiformného gyrusu sa aktivuje pri spracovaní sémantického rozpoznávania, zatiaľ čo atribúty objektu určujú aktiváciu buď v ľavom, alebo v pravom fusiformnom gyrusu v závislosti od toho, či sa spracúva globálna forma alebo lokálne detaily.

Okrem toho sa navrhlo, že aktivácia v predných oblastiach fusiformného gyra naznačuje úspešné rozpoznávanie. Zistilo sa však, že úrovne aktivácie závisia od sémantickej relevantnosti objektu. Termín sémantická relevancia sa tu vzťahuje na „mieru príspevku sémantických znakov k ´jadru´ významu pojmu“. Výsledky ukázali, že objekty s vysokou sémantickou relevanciou, ako sú artefakty, vytvárali zvýšenú aktiváciu v porovnaní s objektmi s nízkou sémantickou relevanciou, ako sú prírodné objekty. Je to spôsobené navrhovanou zvýšenou náročnosťou rozlišovania medzi prírodnými objektmi, keďže majú veľmi podobné štrukturálne vlastnosti, čo sťažuje ich identifikáciu v porovnaní s artefaktmi. Preto čím ľahšie sa objekt identifikuje, tým je pravdepodobnejšie, že bude úspešne rozpoznaný.

Ďalšou podmienkou, ktorá ovplyvňuje úspešnosť rozpoznávania objektov, je kontextová facilitácia. Predpokladá sa, že počas úloh rozpoznávania objektov je objekt sprevádzaný „kontextovým rámcom“, ktorý ponúka sémantické informácie o typickom kontexte objektu. Zistilo sa, že keď je objekt mimo kontextu, výkon rozpoznávania objektov je sťažený pomalšími reakčnými časmi a väčšími nepresnosťami v porovnaní s úlohami rozpoznávania, keď bol objekt vo vhodnom kontexte. Na základe výsledkov štúdie s použitím fMRI sa navrhlo, že v mozgu existuje „kontextová sieť“ pre objekty súvisiace s kontextom, pričom aktivita sa vo veľkej miere nachádza v parahipokampálnej kôre (PHC) a retrospleniálnom komplexe (RSC). V rámci PHC sa zistilo, že aktivita v parahipokampálnej oblasti miesta (PPA) je prednostne zameraná na scény a nie na objekty; predpokladá sa však, že aktivita v PHC pre osamotené objekty v úlohách kontextového uľahčenia môže byť spôsobená následným premýšľaním o priestorovej scéne, v ktorej je objekt kontextovo zastúpený. Ďalším experimentovaním sa zistilo, že aktivácia sa v PHC zistila pre nepriestorové aj priestorové kontexty, hoci aktivácia z nepriestorových kontextov bola obmedzená na prednú časť PHC a zadnú časť PHC pre priestorové kontexty.

Keď vidíte nejaký predmet, viete, čo je to za predmet, pretože ste ho už videli v minulosti; to je rozpoznávacia pamäť. Abnormality nielen vo ventrálnom (akom) prúde zrakovej dráhy ovplyvňujú našu schopnosť rozpoznať objekt, ale aj spôsob, akým sa nám objekt prezentuje.

Mechanizmus, ktorý je bez kontextu v tom zmysle, že to, čo rozpoznávame, nám je jednoducho známe, namiesto toho, aby sme trávili čas hľadaním, v akom kontexte tento objekt poznáme. Ventrálna oblasť frontálneho laloku sa podieľa na kódovaní pamäti počas náhodného učenia a neskôr na udržiavaní a vyvolávaní sémantických spomienok.
Známosť môže vyvolať iné procesy vnímania ako pri neznámych predmetoch, čo znamená, že naše vnímanie konečného množstva známych predmetov je jedinečné. Odchýlky od typických pohľadov a kontextov môžu ovplyvniť účinnosť, pre ktorú je objekt rozpoznávaný najúčinnejšie. Zistilo sa, že nielen známe objekty sú rozpoznávané efektívnejšie, keď sú vnímané zo známeho uhla pohľadu v porovnaní s neznámym, ale tento princíp sa uplatňuje aj na nové objekty. To vedie k myšlienke, že reprezentácie objektov v
našom mozgu sú organizované skôr známym spôsobom objektov pozorovaných v prostredí. Rozpoznávanie nie je do veľkej miery riadené len tvarom a/alebo pohľadmi na objekty, ale aj dynamickými informáciami. Znalosť môže byť prospešná pri vnímaní dynamických bodových svetelných zobrazení, pohybujúcich sa objektov, pohlavia tvárí a rozpoznávaní tvárí.

Doporučujeme:  Batérie neuropsychologických testov

Spomienka má veľa spoločného s vedomím, je však závislá od kontextu a vyžaduje si špecifické informácie z vyšetrovanej udalosti.

Účinky lézií vo ventrálnom prúde

Rozpoznávanie objektov je zložitá úloha a zahŕňa niekoľko rôznych oblastí mozgu, nielen jednu. Ak je poškodená jedna oblasť, môže dôjsť k narušeniu rozpoznávania objektov. Hlavná oblasť rozpoznávania objektov sa nachádza v spánkovom laloku. napríklad sa zistilo, že poškodenie perirhinálnej kôry u potkanov spôsobuje poruchy rozpoznávania objektov, najmä pri zvýšení nejednoznačnosti znakov. Zdá sa, že neonatálne aspiračné lézie amygdaloidného komplexu u opíc mali za následok väčšiu stratu pamäti na predmety ako skoré hipokampálne lézie. U dospelých opíc sa však zhoršenie objektovej pamäte lepšie vysvetľuje poškodením perirhinálnej a entorhinálnej kôry ako poškodením amygdaloidných jadier Kombinované amygdalohipokampálne (A + H) lézie u potkanov zhoršili výkon v úlohe rozpoznávania objektov, keď sa intervaly uchovávania predĺžili nad 0 s a keď sa testovacie podnety opakovali v rámci relácie. Poškodenie amygdaly alebo hipokampu nemá vplyv na rozpoznávanie objektov, zatiaľ čo poškodenie A + H spôsobuje jasné deficity. V úlohe rozpoznávania objektov bola úroveň diskriminácie výrazne nižšia pri elektrolytickom poškodení globus pallidus (časť bazálnych ganglií) u potkanov v porovnaní so skupinou Substantia- Innominata/Ventral Pallidum, ktorá bola zase horšia v porovnaní so skupinami Control a Medial Septum/Vertical Diagonal Band of Broca; avšak iba globus pallidus nerozlišoval medzi novými a známymi objektmi. Tieto lézie poškodzujú ventrálnu (akú) dráhu vizuálneho spracovania objektov v mozgu.

Agnózia je zriedkavý jav a môže byť dôsledkom mŕtvice, demencie, poranenia hlavy, infekcie mozgu alebo dedičná.
Apercepčná agnózia je deficit vo vnímaní predmetov, ktorý spôsobuje neschopnosť pochopiť význam predmetov.
Asociatívna agnózia je neschopnosť pochopiť význam predmetov, avšak tentoraz ide o deficit sémantickej pamäte. Obe tieto agnózie môžu ovplyvniť cestu k rozpoznávaniu objektov, podobne ako Marrova teória videnia. Konkrétnejšie na rozdiel od apercepčnej agnózie sú pacienti s asociatívnou agnóziou úspešnejší v kreslení, kopírovaní a priraďovaní takov; títo pacienti však preukazujú, že dokážu vnímať, ale nie rozpoznávať.
Integratívna agnózia (podtyp asociatívnej agnózie) je neschopnosť integrovať jednotlivé časti do celku. Pri týchto typoch agnózií dochádza k poškodeniu ventrálneho (akého) prúdu dráhy vizuálneho spracovania.
Agnózia orientácie objektu je neschopnosť určiť orientáciu objektu napriek adekvátnemu rozpoznávaniu objektu. Pri tomto type agnózie dochádza k poškodeniu dorzálneho (kde) prúdu dráhy vizuálneho spracovania.
To môže mať vplyv na rozpoznávanie objektov z hľadiska známosti a ešte viac z hľadiska neznámych objektov a pohľadov.
Prozopagnóziou možno vysvetliť ťažkosti pri rozpoznávaní tvárí. Osoba s prozopagnóziou nedokáže identifikovať tvár, ale stále je schopná vnímať vek, pohlavie a emocionálny výraz. Oblasť mozgu, ktorá sa špecifikuje pri rozpoznávaní tváre, je fusiformná oblasť tváre. Prozopagnózia sa tiež delí na apercepčný a asociačný podtyp. Rozpoznávanie jednotlivých stoličiek, áut, zvierat môže byť tiež narušené, preto majú tieto objekty podobné percepčné znaky s tvárou, ktoré sa rozpoznávajú vo fusiformnej oblasti tváre.

Rozdiel medzi kategóriou a atribútom v sémantickej reprezentácii môže byť základom pre hodnotenie sémantickej funkcie pri starnutí a chorobných stavoch ovplyvňujúcich sémantickú pamäť, ako je Alzheimerova choroba (AD). Z dôvodu deficitu sémantickej pamäte majú osoby trpiace Alzheimerovou chorobou problémy s rozpoznávaním objektov, keďže je známe, že sémantická pamäť sa používa na získavanie informácií na pomenovanie a kategorizáciu objektov. V skutočnosti sa veľmi diskutuje o tom, či deficit sémantickej pamäte pri Alzheimerovej chorobe odráža stratu sémantických vedomostí o konkrétnych kategóriách a pojmoch alebo stratu vedomostí o percepčných vlastnostiach a atribútoch.