Chybovosť slov

Chybovosť slov (WER) je bežnou metrikou výkonnosti systému rozpoznávania reči.

Všeobecný problém merania výkonnosti spočíva v tom, že rozpoznaná postupnosť slov môže mať inú dĺžku ako referenčná postupnosť slov (údajne správna). WER sa odvodzuje od Levenshteinovej vzdialenosti, pričom sa pracuje na úrovni slova namiesto úrovne foném.

Tento problém sa rieši tak, že sa najprv zarovná rozpoznaná sekvencia slov s referenčnou (hovorenou) sekvenciou slov pomocou dynamického zarovnania reťazcov.

Chybovosť slova sa potom vypočíta ako:

Pri uvádzaní výkonnosti systému rozpoznávania reči sa niekedy namiesto toho používa miera rozpoznávania slov (WRR):

Jedným z problémov pri použití všeobecného vzorca, ako je uvedený vyššie, je však to, že sa nezohľadňuje vplyv, ktorý môžu mať rôzne typy chýb na pravdepodobnosť úspešného výsledku, napr. niektoré chyby môžu byť rušivejšie ako iné a niektoré sa môžu opraviť ľahšie ako iné. Tieto faktory budú pravdepodobne špecifické pre testovanú syntax. Ďalším problémom je, že aj pri najlepšom zarovnaní vzorec nedokáže rozlíšiť chybu substitúcie od kombinovanej chyby vymazania a vloženia.

Hunt (1990) navrhol použitie váženej miery presnosti výkonu, kde chyby substitúcie majú váhu jednotku, ale chyby vymazania a vloženia majú váhu iba 0,5, teda:

Existujú však určité diskusie o tom, či sa Huntov vzorec môže správne použiť na hodnotenie výkonnosti jedného systému, keďže bol vyvinutý ako prostriedok na spravodlivé porovnanie viacerých konkurenčných systémov. Ďalšiu komplikáciu spôsobuje to, či daná syntax umožňuje opravu chýb, a ak áno, do akej miery je tento proces pre používateľa jednoduchý. Argument, že výkonnostné metriky by sa mali vyvíjať tak, aby vyhovovali konkrétnemu meranému systému, má teda svoje opodstatnenie.

Bez ohľadu na použitú metriku je však jedným z hlavných teoretických problémov pri hodnotení výkonnosti systému rozhodnutie, či bolo slovo „nesprávne vyslovené“, t. j. či je chyba na strane používateľa alebo rozpoznávača. To môže byť obzvlášť dôležité v systéme, ktorý je navrhnutý tak, aby si poradil s osobami, pre ktoré daný jazyk nie je rodným jazykom, alebo so silným regionálnym prízvukom.

Doporučujeme:  Oneskorený míľnik

Všeobecne sa uznáva, že presnosť výkonu nižšia ako 95 % nie je prijateľná, ale to môže byť opäť špecifické pre syntax a/alebo doménu, napr. či je na používateľov vyvíjaný časový tlak na dokončenie úlohy, či existujú alternatívne metódy dokončenia a pod.

Pojem „chybovosť jednotlivých slov“ sa niekedy používa na označenie percenta nesprávnych rozpoznaní pre každé slovo v slovníku systému.