3 Komunikácia pomocou hlasových príkazov
3.1 Parametre pre rozpoznanie reči

Na úvod treba poznamenať, že zatiaľ neexistuje parametrizácia reči, ktorá by spĺňala všetky vlastnosti potrebné pre optimálnu parametrizáciu uvedenú v predošlej časti. Preto je výskum v tejto oblasti stále aktívny a bolo nájdených veľa rôznych druhov. Tie najznámejšie a najlepšie sú Melovo frekvenčné kepstráe koeficienty (MFCC) a perceptuálna lineárna predikcia (PLP). PLP a MFCC sa snažia simulovať sluchový systém človeka, čo vedie k dobrým výsledkom v oblasti rozpoznávania reči. Obidve sú schopné vystihnúť polohu, počet a šírku formantových frekvencií, ktoré sú vnímateľné. Napriek podobnosti sa líšia v psychoakustických princípoch, ktoré obsahujú.

MFCC filtruje signál horno-priepustným filtrom (potlačenie vplyvu vyžarovania zvuku z úst), segmentuje reč Hamingovým oknom, z ktorého sa počíta spektrum pomocou FFT. Následne sa spektrum nelineárne upravuje, a to do Melovej škály (psychoakustická škála zodpovedá vnemu frekvencií človekom), ktorá sa rovnomerne rozdelí na prekrývajúce sa pásma s 50% prekrytím, s ktorých sa vypočíta výkon. Tým sa simuluje banka filtrov (psychoakustická), viď obr. 3.5. V poslednej fáze sa aplikuje logaritmus a diskrétna kosínusová transformácia (DCT). Logaritmus upravuje intenzitu zvuku tak, ako ju približne vníma človek a DCT zmenšuje závislosti koeficientov medzi sebou- kompresia.

image
Obrázok 3.5. Rozdelenie spektra do bánk filtrov v Melovej škále s použitím trojuholníkových okien.

PLP príznaky sa líšia v niekoľkých aspektoch: používajú Barkovu frekvenčnú mierku, vyhladzujú spektrum a vzorkujú ho v intervaloch 1 Bark, čím simulujú kritické pásma pre ľudský vnem (rozlíšenie), váhovanie krivkou rovnomernej hlasitosti, transformácia energie do hlasitosti, výpočet koeficientov modelu reči a ich transformácia na kepstum.

Ako je vidno PLP je zložitejšie a obsahuje viac psychoakustických princípov ako MFCC, ale v priaznivých a laboratórnych podmienkach obidve metódy dosahujú podobné výsledky.

Dynamické príznaky a energia

Reč je postupnosť rôznych zvukov, preto je vhodne vyhodnocovať ich vývoj v čase a zmeny, ktoré nastávajú. Najbežnejšia metóda ako to robiť je pomocou rozdielových a akceleračných koeficientov, ktoré sa počítajú v čase zo základných príznakov. Môže sa to vykonať ako jednoduchý rozdiel susedných blokov, ale častejšie je to dané ako lineárna kombinácia rozdielov pokrývajúca širší časový úsek. Ďalej sa ukázalo, že jednoduchá energia môže dobre lokalizovať polohu samohlások vďaka ich veľkej energií, čo zvyšuje celkovú diskriminačnú schopnosť príznakov. Preto sa energia (normalizovaná) často pridáva do výsledného vektora príznakov.