Rozpoznávání hlasu zaznamenává vzestupný trend v interakci se spotřebními zařízeními [2]. Hlas je nejpřirozenější formou komunikace člověk-člověk a obsahuje většinu sdělovaných informací.
Hlasové příkazy jsou cenným nástrojem pro ovládání zařízení a systémů, kdy gesta nebo dotyková rozhraní nejsou vhodné. Jejich využívání se pohybuje od systémů domácí zábavy přes ovládání infotainmentu vozidel až po pro kontrolu tělesně postižených.
Rozpoznávání hlasu zahrnuje několik dílčích polí, jmenovitě identifikace mluvčího a rozpoznávání hlasových příkazů. Tato technologie je v centru pozornosti díky výraznému pokroku výzkumným pracovníkům v oblasti technologií neuronových sítí.
Obecně funguje systém rozpoznávání hlasu v těchto dvou režimech:
Během učení se systém dozví o všech možných vstupech a jejich významu. To se obvykle děje v parametrické doméně; zda jsou parametry pro jednotlivé hlasové příkazy nebo specifické informace mluvčího. Během rozpoznávání je neznámý vzorec přiřazen nejbližší shodě naučených parametrických vzorů. Oba tyto kroky mají lepší výkon s vyšší kvalitou a množstvím vstupních dat.
Rozpoznávání řeči je náchylné k nesprávnému rozpoznávání v důsledku přítomnosti šumu nebo jiných mluvčí, kteří mluví současně.
Nicméně, čím více dat musí systém zpracovávat, tím více času zpracování trvá. A čas je rozhodující, když chceme dosáhnout příjemného, hladkého rozpoznávání řeči.
Pokud se podíváme zpátky o několik let, většina systémů rozpoznávání řeči dovolovala rozpoznat pouze omezenou množinu izolovaných příkazů nebo řečníka z omezené databáze. To by vedlo k vysoce specializovaným sadám s příkazy.
Díky službám založeným na cloudových službách, které jsou široce dostupné a cenově dosažitelné, mohou systémy rozpoznávání řeči využívat rychlé řešení pro servery. Toto, v kombinaci s široce dostupným vysokorychlostním připojením k internetu, umožňuje současným uživatelským rozhraním zpracovávat složitější hlasové vstupy (obecně se jedná o jakýkoli typ vstupního signálu). Kombinace umožňuje využití komplexních rozhodnutí prováděných neuronovými sítěmi na straně serveru, což eliminuje potřebu výkonného uživatelského hardwaru a softwaru. Navíc neuronové sítě dělají rozpoznávání izolovaných příkazů tak účinně, že mohou už nyní být používány k rozpoznání složitých příkazů, které obsahují více příkazů nebo typů příkazů.
Pokrok ve využívání neuronových sítí společně se stále výkonnějším hardwarem umožňuje vylepšení v několika oblastech. Za prvé, systém se stává více nezávislým na prostředí. Hluboké parametry řeči jsou rozpoznatelné při měnících se podmínkách přenosu zvuku [15]. Systém je pak schopen rozpoznat nejen slova nebo konkrétní fráze, ale rozpoznat celé věty, s nuancemi a variacemi použitých slov. Navíc, začleněním dříve rozpoznané řeči, mohou systémy odvodit význam současné věty nebo příkazu, i když jsou nejasné a neurčité. Systémy nyní začínají chápat skutečný kontext, v němž je řeč rozpoznána, a umožňují lépe reagovat. To znamená, že systémy začínají chápat nejen vlastní řeč, ale nápad skrytý za slovy.