Rozpoznávanie hlasu má v interakcii s koncovými zariadeniami stúpajúci trend [2]. Hlas predstavuje najprirodzenejšiu formu komunikácie medzi ľuďmi a obsahuje najväčšie množstvo komunikovanej informácie.
Hlasové príkazy sú hodnotným nástrojom na ovládanie zariadení a systémov vtedy, keď nie je vhodné použiť ovládanie gestami alebo dotykom. Možno ich použiť v širokom spektre situácií od ovládania zábavného systému cez ovládanie informačného systému auta až po rozhranie pre fyzicky znevýhodnené osoby.
Proces rozpoznávania hlasu sa delí na dve oblasti, a to na identifikáciu hovoriaceho a rozpoznávanie hlasových príkazov. Práve druhá oblasť sa teší veľkému záujmu výskumníkov a tvorcov vďaka rozmachu technológií neurónových sietí.
Vo všeobecnosti systém rozpoznávania hlasu funguje v týchto dvoch režimoch:
Počas učenia sa systém učí všetky možné vstupy a ich význam. Toto sa zvyčajne deje na úrovni parametrov; či už ide o parametre jednotlivých hlasových príkazov alebo parametre konkrétneho hovoriaceho. Počas rozpoznávania sa neznámy vstupný vzor priradí k naučenému vzoru, na ktorý sa najviac podobá. Oba tieto kroky pracujú lepšie s narastajúcim množstvom a kvalitou vstupných dát.
Rozpoznávanie hlasu je náchylné na nesprávne rozpoznanie ak je vo zvuku prítomný šum alebo viacero hovorcov hovoriacich súčasne.
Čím viac dát musí systém spracovať, tým viac času to zaberie. Pri snahe o dosiahnutie jednoduchej a plynulej interakcie je však čas tým najpodstatnejším faktorom.
Ak sa pozrieme pár rokov do minulosti, väčšina systémov na rozpoznávanie reči umožňovala rozpoznať iba obmedzené množstvo izolovaných príkazov alebo hovoriacich z obmedzenej databázy. To viedlo k sadám príkazov špecializovaných na obmedzené použitie.
S nárastom dostupnosti a znížením nákladnosti cloudových služieb môžu systémy na rozpoznávanie reči využívať technológie rýchlych serverov. V kombinácii so široko dostupným vysokorýchlostným pripojením k Internetu môžu súčasné používateľské rozhrania spracúvať oveľa zložitejšie rečové vstupy (vo všeobecnosti sa to týka akéhokoľvek typu dát). Táto kombinácia umožňuje používať komplexné rozhodovacie procesy zabezpečené neurónovými sieťami na strane servera, čím sa znižuje potreba výkonného hardvéru a softvéru na strane používateľa. Okrem toho neurónové siete dokážu rozpoznávať izolované príkazy tak efektívne, že sa dajú použiť aj na rozpoznávanie komplexných príkazov skladajúcich sa z viacerých príkazov alebo typov príkazov.
Postupné širšie využívanie neurónových sietí na stále výkonnejšom hardvéri umožňuje zlepšovanie vo viacerých oblastiach. Po prvé, systém je menej závislý od prostredia nahrávky [15]. Hlboké rečové parametre, ktoré neurónové siete v reči objavujú, sú rozpoznateľné v meniacich sa zvukových podmienkach. Po druhé, rozpoznávacie systémy dokážu rozpoznať nielen slová alebo krátke frázy, ale celé vetné vyhovorenia, vrátane rečových nuáns a variácií použitých slov. Po tretie, s využitím predtým rozpoznanej reči systémy dokážu predpokladať význam vety alebo príkazu, aj keď je tento vágny alebo viacvýznamový. Systémy začínajú rozumieť kontextu, v rámci ktorého bola reč rozpoznaná, takže môžu reagovať oveľa vhodnejšie. To znamená, že rozpoznávače začínajú rozumieť nie samotnej reči, ale myšlienkam schovaným za slovami.