Po parametrizácií je reč daná postupnosťou vektorov príznakov, napr. MFCC. Hrubo povedané proces rozpoznávania potom zoberie vzorky alebo modely známej reči (jej časti: fonémy, slabiky atď.) a porovnáva ich s neznámym prehovorením. Potom sú vzorky alebo modely s najväčšou zhodou prehlásené za rozpoznané slová. Kvôli špecifickým vlastnostiam reči ako napr.: rôzne prehovorenia rovnakého slova sa líšia v dĺžke ako aj vo frekvencií, atď. Navyše táto dĺžková variabilita sa nerovnomerne mení v rámci slova, preto niektoré časti môžu byť kratšie alebo dlhšie. Jednoduché lineárne natiahnutie (lineárna interpolácia) alebo skrátenie neprináša požadovaný efekt. Výsledné prehovorenie je dané ako reťazec jednotlivých častí (modelov) reči, ktoré musia na seba nadväzovať. Tieto špecifické vlastnosti dali vznik metódam rozpoznávania (porovnávania vzorov) vhodných práve pre reč. Najznámejšie z nich sú Dynamické ohýbanie času (DTW) a Skryté Markovové Modely (HMM). Samozrejme existuje veľa modifikácií, či dokonca kombinácií vhodných pre tú ktorú aplikáciu. V ďalšej časti budú stručne opísané práve tieto dve základné metódy, t.j. DTW a HMM
DTW je skratka pre dynamické ohýbanie času, ktoré slúži na akustické porovnanie dvoch vo všeobecnosti rôzne dlhých sekvencií príznakov. Je založené na nelineárnom ohýbaní časových indexov referenčnej ako aj neznámej postupnosti tak, aby vyhovovali štruktúre reči a dosahovali čo najmenšiu vzdialenosť medzi sebou. Tým dochádza k nelineárnej kompenzácií rozdielov medzi dĺžkami oboch postupností.
Logickou podmienkou je to, aby začiatočné a koncové vektory obidvoch postupností boli zarovnané na seba. To si vyžaduje použitie algoritmu detekcie začiatku a konca prehovorenia, čo môže byť samo o sebe pomerne zložitou úlohou. Samozrejme existujú modifikácie, ktoré túto striktnú podmienku presne nevyžadujú.
V stručnosti, táto metóda sa snaží nájsť mapovanie medzi dvoma sekvenciami tak, aby každý vektor z jednej postupnosti mal priradený jeden vektor z druhej postupnosti. To vedie k záveru, že niektoré vektory jednej postupnosti môžu byť namapované viackrát na rôzne vektory druhej postupnosti a naopak. Samozrejme tento proces sa musí riadiť istými základnými logickými obmedzeniami, najmä: začiatočné a koncové vektory jednej postupnosti musia byť namapované na svoje partnerské vektory druhej postupnosti, ohýbacia funkcia nesmie byť klesajúca (nedôjde k zmene poradia vektorov) a je stanovená maximálna rozdielnosť v polohe, ktorá ešte môže byť preklenutá. Pri výpočte DTW sa používajú dve matice (matica lokálnych a matica globálnych vzdialeností). V matici lokálnych vzdialeností sa nachádzajú akustické vzdialenosti medzi jednotlivými vektormi príznakov referenčného a neznámeho prehovorenia. Globálna matica slúži na výpočet akumulovanej minimálnej vzdialenosti a nájdenie cesty medzi obidvomi postupnosťami. Teda pre každý element globálnej matice existuje minimálna vzdialenosť a cesta spájajúca tento bod so začiatkom matice (začiatočné vektory jednej a druhej postupnosti), ktorý sa nachádza vľavo dole. Táto situácia je objasnená na obr. 3.6. Samozrejme sú stanovené prirodzené pravidlá ako sa dá dostať z jedného bodu matice globálnych vzdialenosti do druhého, napr. cesta nesmie klesať. Keď sa proces dostane do konca (pravý horný roh), porovnanie skončilo a najmenšia vzdialenosť bola nájdená. Spätným sledovaním sa dá zistiť ako vyzerá minimálna cesta. Tento proces sa vykonáva pre každé slovo zo slovníka a to, ktoré má najmenšiu vzdialenosť s neznámym je prehlásené za rozpoznané prehovorenie. Ako je z výkladu zrejmé, táto metóda je priamo predurčená pre úlohy rozpoznávania izolovaných slov najlepšie závislých na hovoriacom.
DTW malo významné postavenie v oblasti rozpoznávania reči najmä pre problémy izolovaných slov nezávisle od hovoriaceho. Ako sa však požiadavky zväčšovali (nezávislosť od hovoriaceho, plynulá reč) strácala svoje významné postavenie a bola nahradená metódou HMM.
Skryté Markovové modely patria do štatistických modelovacích techník zväčša používaných v oblasti rozpoznávania reči. Tie z princípu ich konštrukcie jednoducho zahŕňajú požiadavku nezávislosti na hovoriacom, ako aj ľahké spájanie jednotlivých modelov (napr. hlások) do väčších celkov opisujúcich plynulú reč. Navyše tento princíp je pomerne dobre matematicky opísateľný.
Pre každú zvolenú rečovú jednotku (fonému, slabiku, slovo,...) je vytvorený HMM model vhodnej štruktúry. Zvyčajne modely základných časti jazyka ako sú fonémy majú rovnakú štruktúru a líšia sa len nastavením svojich voľných parametrov. V procese trénovania sa tieto voľné parametre nastavia tak, aby čo najlepšie opisovali vzorky z trénovacej databázy reči, ktorá musí byť dostatočne pestrá a veľká, aby pokryla všetky štatisticky významné variácie reči. Jednotlivé vyhovorenia sú popísané, teda je zrejmé aké postupnosti slov sa v nich nachádzajú. Najčastejšie sa modely nastavujú tak, aby trénovacie vzorky dosahovali na príslušných modeloch čo najvyššiu pravdepodobnosť. Tento postup sa nazýva aj trénovanie pomocou maximálnej vierohodnosti. Používajú sa aj iné kritéria ako: čo najväčšia separácia medzi správnymi a nesprávnymi modelmi, minimalizácia chyby, (takéto postupy sa označujú ako diskriminatívne trénovanie) atď., ktoré môžu dosahovať ešte lepšie výsledky.
Každý model sa skladá z niekoľkých stavov, ktoré sú navzájom vhodne prepojené. Každé spojenie má pridelenú prechodovú pravdepodobnosť (p). Ďalej existuje počiatočná pravdepodobnosť (π) a to, že sa model nachádza na začiatku práve v danom stave. Potom sa takýmto modelom dá opísať pravdepodobnosť nastania sekvencie stavov S1, S2, S3,.. SN na danom modeli, a to nasledovne:
Navyše je daná dodatočná pravdepodobnosť prislúchajúca ku každému stavu, ktorá opisuje pravdepodobnosť výskytu vektora príznakov X v danom stave S, teda P(X/S). Tou je dané prepojenie medzi stavmi a vektormi rečových príznakov. Potom pravdepodobnosť pozorovania sekvencie príznakov X1,…, XM a stavov S1, S2, .. SN sa dá jednoducho vyjadriť ako:
Príklad 4 stavového ľavo-pravého HMM modelu je zobrazený na obr. 3.7.
Potom sa v procese rozpoznávania počítajú pravdepodobnosti neznámej sekvencie príznakov na všetkých HMM modeloch slov v slovníku (vzniknú zreťazením základných HMM modelov) a vyberie sa ten model (postupnosť modelov), ktorý dosahoval najväčšiu pravdepodobnosť. Tento proces je schematicky zobrazený na obr. 3.8.
V súčasnosti vyspelé systémy dosahujúce najmenšiu slovnú chybu (WER), založené na HMM, používajú diskriminatívne stratégie trénovania ako: maximálna vzájomná informácia (MMI), Minimálna klasifikačná chyba (MCE), atď. Nakoniec sa používajú hybridné spojenia HMM systémov a iných klasifikačných techník ako sú najmä systémy s podpornými vektormi a neurónové siete (hlboké). Tie v súčasnosti predstavujú špičku v oblasti rozpoznávania reči a dosahujú najnižšie WER pre najzložitejšie typy úloh.
Viac podrobnejších informácií ohľadom rozpoznávania reči a používaných metódach sa dá nájsť napr. v [7].