Komunikácia pomocou rečových príkazov spadá do rozsiahlej vednej oblasti nazvanej automatické rozpoznávanie reči (ASR).
Tento termín označuje automatický (strojový) prepis hovoreného slova. Vstupom je digitálny rečový signál, pričom na výstupe je textový reťazec označujúci rozpoznané slová daného jazyka, ktoré sa nachádzajú v strojom používanom slovníku. Keďže slovník celého jazyka je obrovský, zvyčajne sa používajú len obmedzené verzie pre konkrétnu oblasť nasadenia. Výstupný text vyhovuje predpísanej gramatike alebo bežne používaným slovným spojenia existujúcim v jazyku.
ASR sa odlišuje od úlohy porozumieť vyhovoreniu, ktoré pracuje na vyššej úrovni. Oblasť, ktorá sa týmto problémom zaoberá sa volá umelá inteligencia. Jej vstupom je text po aplikácií ASR systému.
Počas niekoľkých posledných desaťročí prebieha intenzívny výskum v oblasti konštrukcie ASR systémov, ktoré sa využívajú v nasledovných oblastiach: systémy poskytovania informácií, dialógové systémy, pomôcky pre hendikepovaných, prepisy hovoreného slova pre archiváciu atď. Napriek tomu je to len nedávno kedy sa ukázali prvé použiteľné systémy, ktoré sa dajú použiť aj mimo kontrolované prostredia laboratórií. Zväčšuje sa aj ich komplexnosť a aplikácie prepisu diktovaného slova alebo dokonca aj plynulej reči či bežnej konverzácie nie sú úplnou raritou. Táto úloha je veľmi zložitá a musí riešiť problémy spadajúce do viacerých vedných oblastí. Praktické systémy musia pracovať v nepriaznivých prostrediach (zmena pozadia a prostredia, nahrávacích zariadení, atď.), musia podporovať veľkú gramatickú pestrosť jazyka, variabilitu hovoriacich (akustickej podoby), veľké slovníky, atď. Navyše bežný používateľ vyžaduje okamžitú odpoveď systému, nie je ochotný meniť svoj spôsob rozprávania, obmedziť sa na danú slovnú zásobu a rýchlo stráca trpezlivosť pri možných chybách ASR systému.
Tak ako existuje veľké množstvo ASR aplikácií rôznych zložitostí, požiadaviek a obmedzení, tak sa zaužívali rôzne klasifikácie takýchto systémov podľa rôznych kritérií. To najhlavnejšie z nich je veľkosť podporovaného slovníka. Rozlišujú sa nasledovné delenia:
Toto delenie sa prirodzene s rastom technológie mení.
Systémy môžu byť ďalej závislé alebo nezávislé od hovoriaceho. To znamená, že systém nezávislý od hovoriaceho musí pracovať nezávisle od toho aký hovoriaci rozpráva. To si vyžaduje existenciu všeobecných modelov získaných z veľkého množstva hovoriacich. Systémy závislé na hovoriacom sú prispôsobené pre konkrétneho používateľa, a preto zvyčajne dosahujú lepšie výsledky, ale len pre daného hovoriaceho. Systémy, ktoré poskytujú okamžitú odpoveď sa nazývajú systémy pracujúce v reálnom čase. Významnú úlohu hrá aj to, v akom tvare je reč očakávaná na vstupe. Podľa toho sa rozlišujú nasledovné scenáre:
Nakoniec sa delia systémy podľa toho, akú časť reči modelujú (fonémy, slabiky, slová, frázy, atď.) a ako ju modelujú, napr. štatistický prístup pomocou skrytých Markovových modelov (HMM).
Rečový signál je produkovaný hlasovými orgánmi človeka a je pozorovaný ako vibrovanie zvuku. Okrem iného nesie lexikálnu informáciu (čo bolo povedané). Tá je reprezentovaná sekvenciou vhodných zvukov, ktoré majú špecifické akustické formy. Tie akustické jednotky, ktoré stačia na vytvorenie daného jazyka sa nazývajú fonémy. Ich počet sa môže meniť a pohybuje sa od 40 do 60, a to v závislosti od jazyka. Samozrejme ich aktuálna akustická podoba sa mení od hovoriaceho k hovoriacemu a je významne ovplyvnená okolitými hláskami, tzv. koartikulačný efekt.
Na potlačenie tej časti informácie obsiahnutej v reči, ktorá neobsahuje lexikálnu informáciu je potrebné použiť metódy extrakcie vhodných príznakov. Zvyšná informácia totiž môže značne zhoršiť samotný spôsob rozpoznania slov. Teda informácia o hovoriacom (jeho nálade, zdravotnom a aktuálnom fyzickom a emočnom stave) je na prekážku. Je to teda primárna úloha systémov extrakcie príznakov vybrať len tie najlepšie, čo v skutočnosti nie je úplne dobre možné. Rečový signál obsahuje cca 100kb/s informácie, naproti tomu lexikálny obsah má len cca 10b/s informácie, preto algoritmy extrakcie príznakov pracujú ako účinné kompresory informácie.
Dobrou voľbou je teda simulovať sluchový systém človeka, matematicky ho opísať, zjednodušiť pre praktické použitie a adaptovať ho pre ľahkú kooperáciu s nadradenými systémami rozpoznania reči.
Existuje veľa úspešných metód simulujúcich buď sluchový systém človeka (kritické pásma, krivka hlasitosti, atď.) alebo proces produkcie reči (budenie, hlasový trakt, ...). Výhoda metód simulujúcich sluchový systém je však v tom, že majú počas evolúcie v sebe zakomponované vhodné mechanizmy na zvýraznenie práve reči medzi ostatným bežnými nepriaznivými vplyvmi reálneho prostredia. Potláčajú teda bežné šumy pozadia a skreslenie prostredia.
Počas výskumu sa zistilo, že podstatná lexikálna informácia je ukrytá v obálke frekvenčného spektra signálu. Tá napr. slúži na klasifikáciu jednotlivých foném medzi sebou. Presnejšie táto informácia je ukrytá v polohe, počte a tvare dominantných frekvenčných zložiek. Pre lepšiu demonštráciu tohto faktu je na obr. 3.1 zobrazené spektrum samohlásky “e”, obálka spektra a polohy tzv. formantových frekvencií (dominantných frekvencií, ktoré súvisia s rezonanciami v hlasovom trakte). Na obr. 3.2 je zobrazený časový priebeh tej iste hlásky.
Aby bol rozdiel v hláskach zrejmý je na obr. 3.3 zobrazené spektrum hlásky “t” a na obr. 3.4 jej časový priebeh.
Kvôli sumarizácií je v nasledujúcej tabuľke zobrazené rozloženie prvých 2 formantových frekvencií pre slovenské samohlásky, a to oddelene pre mužov a ženy získane ako priemer z populácie. Táto tabuľka poskytuje veľmi hrubý a jednoduchý spôsob ako klasifikovať spoluhlásky na základe ich frekvenčnej podoby.
samohláska |
Muži |
Ženy |
||
F1 [Hz] |
F2 [Hz] |
F1 [Hz] |
F2 [Hz] |
|
a |
730 |
1100 |
850 |
1200 |
e |
530 |
1850 |
600 |
2350 |
i |
400 |
2000 |
430 |
2500 |
o |
570 |
850 |
590 |
900 |
u |
440 |
1000 |
470 |
1150 |
Preto vybrané príznaky by mali byť schopné odhadnúť rozdiely v polohách formantových frekvencií. Na druhej strane musia byť „hluché“ voči zmenám, ktoré sú prirodzené a nepočuteľné. V nasledujúcej tabuľke sú uvedené najpočuteľnejšie a najmenej počuteľné modifikácie spektra ľudským uchom.
Typy zmeny |
|
Počuteľné |
Nepočuteľné |
Počet formantových frekvencií |
Celkový sklon spektra |
Poloha formantových frekvencií |
Frekvencie pod prvou formantovou frekvenciou |
Šírka formantových frekvencií |
Frekvencie nad treťou formantovou frekvenciou |
- |
Úzko-pásmové filtrovanie |
Navyše intenzita zvuku je vnímaná nelineárne, čo sa dá aproximvať pomocou funkcie logaritmu.
Z pohľadu rušenia by mali byť príznaky odolné voči aditívnym ako aj konvolutórnym šumom. V neposlednom rade sa musia dať príznaky jednoducho implementovať, matematicky opísať, mať kompaktné vyjadrenie atď. Zvyčajne je dobré, keď príznaky sú medzi sebou lineárne nezávislé, kvôli redukcií informácie a ľahšiemu následnému modelovaniu.