Komunikace pomocí hlasových povelů spadá do rozsáhlé vědecké oblasti označované termínem automatické rozeznávání řeči ASR (Automatic Speech Recognition).
Tento termín označuje automatický (strojový) přepis mluveného slova. Vstupem je digitální hovorový signál, přitom na výstupu je textový řetězec označující rozpoznaná slova daného jazyka, která se nacházejí v automatem používaném slovníku. Slovník celého jazyka je však obrovský, proto se obyčejně používají jen jeho omezené verze určené pro konkrétní oblast nasazení. Výstupní text vyhovuje předepsané gramatice nebo běžně používaným slovním spojením existujícím v zvoleném jazyce.
ASR se odlišuje od úlohy porozumění obsahu hovoru, které pracuje na vyšší úrovni. Oblast, která se tímto problémem zaobírá, se nazývá umělá inteligence. Jejím vstupem je naopak text po zpracování systémem ASR.
V průběhu několika posledních desetiletí probíhá intenzivní výzkum v oblasti konstrukce ASR systémů, které se využívají v následujících oblastech: systémy poskytování informací, dialogové systémy, pomůcky pro hendikepované, přepisy mluveného slova, pro účely archivace atd. I přesto je to teprve nedávno, kdy byly předvedeny první použitelné systémy, které se dají využít i mimo kontrolované prostředí laboratoří. Zvětšuje se jejich komplexnost a aplikace přepisu diktovaného slova nebo dokonce i plynulé řeči či běžné konverzace už nejsou úplnou raritou. Tato problematika je velmi složitá a musí řešit problémy zasahující do většího počtu vědních oborů a disciplín. Praktické systémy musí být schopny pracovat i v nepříznivých podmínkách (změna pozadí a prostředí, změna nahrávacích zařízení, atd.), musí podporovat rozsáhlou gramatickou pestrost jazyka, variabilitu mluvčích (akustické podoby), rozsáhlé slovníky, atd. Navíc běžný uživatel vyžaduje okamžitou reakci systému, není ochoten měnit svůj způsob přirozeného projevu, omezit se na danou slovní zásobu a také rychle ztrácí trpělivost v případě možných chyb ASR systému.
Tak jako existuje rozličné množství ASR aplikací s různým stupněm složitosti stanovených požadavky a omezeními, tak byly vytvořeny klasifikace těchto systémů dle specifických kritérií. Tím nejdůležitějším z nich je velikost podporovaného slovníku. Rozlišují se následující dělení:
Toto dělení se přirozeně s růstem technologie mění.
Systémy mohou být dále závislé nebo nezávislé na mluvčím. To znamená, že systém nezávislý na mluvčím musí pracovat nezávisle na tom, který mluvčí právě hovoří. To si žádá existenci vzniku všeobecných modelů získaných z velkého množství mluvčích. Systémy závislé na mluvčím jsou přizpůsobeny pro konkrétního uživatele, a proto obvykle dosahují lepších výsledků, ale jen v kontextu pro daného mluvčího. Systémy, které poskytují okamžitou odpověď, se nazývají systémy pracující v reálném čase. Významnou roli zde hraje i to, v jakém tvaru je řeč očekávaná na vstupu. Podle toho je možné odlišit následující scénáře:
Nakonec je možné systémy dělit podle toho, jakou část řeči modelují (fonémy, slabiky, slova, fráze, atd.) a jakým způsobem ji modelují, např. statistický přístup pomocí skrytých Markovovských modelů HMM (Hidden Markov Models).
Hovorový signál je produkován hlasovými orgány člověka a je pozorovatelný jako vibrování zvuku. Mimo jiné nese lexikální informaci (tj. význam toho, co bylo řečeno). Ta je reprezentovaná sekvencí vhodných zvuků, které mají specifické akustické formy. Ty akustické jednotky, které stačí na vytvoření daného jazyka, se nazývají fonémy. Jejich počet se může měnit a pohybuje se od 40 do 60 v závislosti na konkrétním jazyce. Samozřejmě jejich aktuální akustická podoba se mění od mluvčího k mluvčímu a je významně ovlivněna okolními hláskami, které vytváří tzv. koartikulační efekt.
Na potlačení té části informace obsažené v promluvě, která neobsahuje lexikální informaci, je třeba použít metodu extrakce vhodných příznaků. Nadbytečná informace může totiž značně zhoršit samotný způsob rozeznání jednotlivých slov. Informace o mluvčím (jeho náladě, zdravotním a aktuálním fyzickém a emočním stavu) je tedy na překážku. Primární úlohou systémů extrakce vhodných příznaků je tedy výběr jen těch nejlepších lexikálních informací v promluvě, což ve skutečnosti není úplně jednoduché. Hovorový signál obsahuje cca 100 kbit/s informací, pro porovnání lexikální obsah obsahuje jen cca 10 bit/s informace. Proto algoritmy extrakce vhodných příznaků pracují jako účinné kompresory informací.
Dobrou ideou je tedy modelování sluchového aparátu člověka, matematicky ho popsat, zjednodušit pro praktické použití a adaptovat jej pro snadnou spolupráci s nadřízenými systémy rozeznání řeči.
Existuje mnoho úspěšných metod modelujících buď sluchový aparát člověka (kritická pásma, křivka hlasitosti, atd.) nebo proces predikce řeči (buzení, hlasový trakt,…). Výhodou metod modelujících sluchový aparát člověka je však v tom, že mají v sobě průběhem jejich evoluce zakomponovány vhodné mechanizmy pro zvýraznění řeči v porovnání s ostatními běžnými nepříznivými vlivy okolního prostředí. Potlačují tedy běžné šumy pozadí a zkreslení prostředí.
V průběhu výzkumu se zjistilo, že podstatná část lexikální informace je ukryta v obálce frekvenčního spektra signálu.Ta např. slouží ke klasifikaci jednotlivých foném mezi sebou. Přesněji je tato informace ukrytá v poloze, počtu a tvaru dominantních frekvenčních složek. Pro lepší demonstraci tohoto faktu je na obr. 3.1 zobrazeno spektrum samohlásky “E”, obálka spektra a polohy tzv. formantových frekvencí (dominantních frekvencí, které souvisí s rezonancemi v hlasovém traktu). Na obr. 3.2 je zobrazen časový průběh stejné hlásky.
Aby byl rozdíl v hláskách patrný, je na obr. 3.3 zobrazeno spektrum hlásky “T” a na obr. 3.4 její časový průběh.
Kvůli sumarizaci je v následující tabulce zobrazeno rozložení prvních 2 formantových frekvencí pro slovenské samohlásky, a to odděleně pro muže a ženy, a stanovené průměrem z populace. Tato tabulka poskytuje velmi hrubý a jednoduchý způsob jak klasifikovat samohlásky na základě jejich frekvenční podoby.
samohláska |
Muži |
Ženy |
||
F1 [Hz] |
F2 [Hz] |
F1 [Hz] |
F2 [Hz] |
|
A |
730 |
1100 |
850 |
1200 |
E |
530 |
1850 |
600 |
2350 |
I |
400 |
2000 |
430 |
2500 |
O |
570 |
850 |
590 |
900 |
U |
440 |
1000 |
470 |
1150 |
Vybrané příznaky by tedy měly být schopny odhadnout rozdíly v polohách formantových frekvencí. Na druhé straně musí být „hluché“ vůči změnám, které jsou přirozené a neslyšitelné. V následující tabulce jsou uvedeny nejslyšitelnější a nejméně slyšitelné změny spektra odlišitelné sluchem.
Typy změny |
|
Slyšitelné |
Neslyšitelné |
Počet formantových frekvencí |
Celkový sklon spektra |
Poloha formantových frekvencí |
Frekvence pod první formantovou frekvencí |
Šířka formantových frekvencí |
Frekvence nad třetí formantovou frekvencí |
- |
Úzko-pásmové filtrování |
Navíc intenzita zvuku je vnímána nelineárně, což lze aproximovat pomocí logaritmické funkce.
Z pohledu rušení by měli být příznaky odolné vůči aditivnímu stejně jako konvolučnímu šumu. V neposlední řadě se musí dát příznaky jednoduše implementovat, matematicky popsat, mít kompaktní vyjádření atd. Obyčejně je dobré, pokud jsou příznaky mezi sebou lineárně nezávislé, a to kvůli redukci informačního obsahu a následnému snadnějšímu způsobu modelování.