Po parametrizaci je řeč daná posloupností vektorů základních příznaků řeči, např. MFCC. Zjednodušeně řečeno proces rozeznávání poté vezme vzorky nebo modely známé řeči (její části: fonémy, slabiky atd.) a porovná je s neznámou promluvou. Následně jsou vzorky, nebo modely s největší shodou prohlášeny za rozpoznaná slova. Díky specifickým vlastnostem řeči, jako jsou např.: různé promluvy stejného slova, se mohou tyto promluvy lišit délkou a frekvencí, atd. Navíc tato délková variabilita se nerovnoměrně mění i v rámci slova, proto mohou být některé části kratší nebo delší. Jednoduché lineární natáhnutí (lineární interpolace), resp. zkrácení pak nepřináší požadovaný efekt. Dále, výsledná promluva je daná jako řetězec jednotlivých častí (modulů) řeči, které musí na sebe navazovat. Tyto specifické vlastnosti dali vzniknout metodám rozeznávání (porovnávání vzorů) vhodných právě pro řeč. Nejznámějšími z nich jsou metody dynamické ohýbání času DTW (Dynamic Time Warping) a skryté Markovovské modely HMM. Samozřejmě existuje spousta modifikací či dokonce kombinací vhodných pro konkrétní aplikaci. V další části proto budou stručně popsány právě tyto dvě základní metody, tj. DTW a HMM.
DTW je zkratkou pro dynamické ohýbání času, které slouží pro akustické porovnání dvou všeobecně různě dlouhých sekvencí příznaků. Je založeno na nelineárním ohýbání časových indexů referenční a neznámé posloupnosti tak, aby vyhovovaly struktuře řeči, a dosahovaly co nejmenší vzdálenosti mezi sebou. Tím dochází k nelineární kompenzaci rozdílů mezi délkami obou posloupností.
Logickou podmínkou je to, aby počáteční a koncové vektory obou posloupností byly vzájemně na sebe zarovnány. To si vyžaduje využití algoritmu detekce začátku a konce promluvy, což může být samo o sobě poměrně složitou úlohou. Samozřejmě existují modifikace, které tuto striktní podmínku přesně nevyžadují.
Ve stručnosti se tato metoda snaží najít mapování mezi oběma sekvencemi tak, aby každý vektor z jedné posloupnosti měl přiřazen jeden vektor z druhé posloupnosti. To vede k závěru, že některé vektory jedné posloupnosti mohou být namapovány vícekrát na různé vektory druhé posloupnosti a naopak. Samozřejmě se tento proces musí řídit jistými základními logickými omezeními, zejména počáteční a koncové vektory jedné postupnosti musí být namapovány na svoje partnerské vektory druhé posloupnosti, ohýbací funkce nesmí být klesající (tj. nedojde ke změně pořadí vektorů) a je stanoven maximální rozdíl v jejich poloze, který ještě může být překlenut. Při výpočtu DTW se využívají dvě matice (matice lokálních vzdáleností a matice globálních vzdáleností). V matici lokálních vzdáleností se nacházejí akustické vzdálenosti mezi jednotlivými vektory příznaků referenční a neznámé promluvy. Globální matice vzdáleností slouží pro výpočet akumulované minimální vzdálenosti a nalezení cesty mezi oběma posloupnostmi. Tedy pro každý element globální matice vzdáleností existuje minimální vzdálenost a cesta spojující tento bod se začátkem matice (počáteční vektory jedné a druhé posloupnosti), který se nachází vlevo dole. Tato situace je graficky znázorněna na obr. 3.6. Samozřejmě jsou stanovena přirozená pravidla, jakým způsobem se lze dostat z jednoho bodu matice globálních vzdáleností do druhého, např. cesta nesmí klesat. Pokud se proces dostane do konce (pravý horní roh), porovnání skončilo a nejmenší vzdálenost byla nalezena. Zpětným sledováním lze zjistit, jak vypadá minimální cesta. Tento proces je prováděn pro každé slovo ze slovníku a to, které má nejmenší vzdálenost s neznámým je prohlášeno za rozeznanou promluvu. Jak je z výkladu zřejmé, tato metoda je přímo předurčena pro úlohy rozeznávání izolovaných slov nejlépe závislých na mluvčím.
Metoda DTW měla významné postavení v oblasti rozeznávání řeči zejména v problematice izolovaných slov závislých na mluvčím. Jak se však požadavky zvyšovaly (nezávislost na mluvčím, plynulá řeč) ztrácela postupně svoje významné postavení a byla nahrazena metodou HMM.
Skryté Markovovské modely patří do statistických modelovacích technik většinou používaných v oblasti rozeznávání řeči. Tyto metody z principu své konstrukce zahrnují jednoduše požadavky nezávislosti na mluvčím, stejně jako lehké spojení jednotlivých modelů (např. hlásek) do větších celků popisujících plynulou řeč. Navíc je tento princip poměrně snadno matematicky popsatelný.
Pro každou zvolenou hovorovou jednotku (fonému, slabiku, slovo,…) je vytvořen HMM model vhodné struktury. Obyčejně mají modely základních částí jazyka, jako jsou fonémy, srovnatelnou strukturu a liší se jen nastavením svých volných parametrů. V procesu trénování se tyto volné parametry nastaví tak, aby co nejlépe popisovaly vzorky z tréninkové databáze řeči, která musí být dostatečně pestrá a velká, aby pokryla všechny statisticky významné variace řeči. Jednotlivé promluvy jsou popsané, tedy je zřejmé, jaké posloupnosti slov se v nich nachází. Nejčastěji se modely nastavují tak, aby tréninkové vzorky dosahovaly na příslušných modelech co nejvyšší pravděpodobnosti. Tento postup je nazýván jako trénování pomocí maximální věrohodnosti. Používají se i jiná kritéria jako např. co největší separace (odstup) mezi správnými a nesprávnými modely, minimalizace chyby, (takové postupy jsou označovány jako diskriminativní trénování) atd., které mohou dosahovat ještě lepších výsledků.
Každý model se skládá z několika stavů, které jsou navzájem vhodně propojeny. Každému spojení je přidělena tzv. přechodová pravděpodobnost (p). Dále existuje tzv. počáteční pravděpodobnost (π), kdy se model nachází na začátku právě v daném stavu. Potom lze tímto modelem popsat pravděpodobnost vzniku sekvence stavů S1, S2, S3,… SN pro daný model, a to následovně:
Nejvýše je daná dodatečná pravděpodobnost přináležející ke každému stavu, která popisuje pravděpodobnost výskytu vektoru příznaků X v daném stavu S, tedy P(X/S). Touto pravděpodobností je dáno propojení mezi stavy a vektory řečových příznaků. Potom pravděpodobnost pozorování sekvence příznaků X1,…, XM a stavů S1, S2,… SN lze jednoduše vyjádřit vztahem:
Příklad 4-stavového levo-pravého HMM modelu je zobrazen na obr. 3.7.
Následně se v procesu rozeznávání počítají pravděpodobnosti neznámé sekvence příznaků na všech HMM modelech slov ve slovníku (vzniknou zřetězením základních HMM modelů) a vybere se ten model (posloupnost modelů), který vykazoval největší pravděpodobnost. Tento proces je schematicky znázorněn na obr. 3.8.
V současnosti jsou vyspělé systémy vykazující nejnižší slovní chybovost WER (Word Error Rate) založeny právě na principu metody HMM, a dále využívají diskriminativní strategie trénování, jako jsou maximální vzájemná informace MMI (Maximum Mutual Information), minimální klasifikační chyba MCE (Minimum Classification Error), atd. Nakonec se využívají hybridní spojení HMM systémů a dalších klasifikačních technik jakými jsou zejména systémy s podpůrnými vektory a neuronové sítě (hluboké). Ty v současnosti představují špičku v oblasti rozeznávání řeči a dosahují nejnižších hodnot WER i pro ty nejsložitější typy úloh.
Podrobnější informace ohledně rozeznávání řeči a používaných metodách najdete např. v [7].