3 Komunikace pomocí hlasových povelů
3.1 Parametry pro rozeznání řeči

Na úvod je třeba poznamenat, že zatím neexistuje parametrizace řeči, která by splňovala všechny vlastnosti potřebné pro optimální parametrizaci uvedenou v předešlé části. Právě proto je výzkum v této oblasti stále aktivní a bylo nalezeno velmi mnoho různých způsobů a metod parametrizace. Mezi ty nejznámější a nejlepší patří Melovy frekvenční kepstrální koeficienty MFCC (Mel-Frequency Cepstral Coefficients) a perceptuální lineární predikce PLP (Perceptual Linear Prediction). PLPMFCC se snaží modelovat sluchový aparát člověka, což vede k dobrým výsledkům v oblasti rozeznávání řeči. Obě dvě metody jsou schopny postihnout polohu, počet a šířku formantových frekvencí, které jsou vnímatelné (slyšitelné). I přes jistou podobnost se však liší v psychoakustických principech, které v sobě integrují.

Metoda MFCC filtruje signál filtrem typu horní propust (potlačení vlivu radiace (zakřivení) zvuku z úst), segmentuje řeč tzv. Hammingovým oknem, a následně počítá spektrum pomocí rychlé Fourierovy transformace FFT (Fast Fourier Transform). Poté se spektrum nelineárně upravuje, a to do Melovy stupnice (psychoakustická stupnice odpovídající vnímání jednotlivých frekvencí člověkem), která se rovnoměrně rozdělí na překrývající se pásma s 50% překryvem, ze kterých se následně vypočítá výkon. Tím se modeluje psychoakustická banka filtrů, viz obr. 3.5. V poslední fázi se aplikuje logaritmická aproximace a diskrétní kosinová transformace DCT (Discrete Cosine Transform). Logaritmická aproximace upravuje intenzitu zvuku tak, jak ji přibližně vnímá člověk a DCT snižuje závislost koeficientů mezi sebou – komprese.

image
Obrázek 3.5. Rozdělení spektra do bank filtrů v Melové stupnici s použitím trojúhelníkových oken

PLP příznaky se liší v několika aspektech: používají Barkovu frekvenční míru, vyhlazují spektrum a vzorkují ho v intervalech 1 Bark, čímž modelují kritická pásma pro lidské vnímání (rozlišení), váhování křivkou rovnoměrné hlasitosti, transformace energie do hlasitosti, výpočet koeficientů modelu řeči a jejich transformace na kepstrum.

Jak je vidět, metoda PLP je složitější, a obsahuje víc psychoakustických principů než metoda MFCC, ale v příznivých laboratorních podmínkách dosahují obě metody srovnatelných výsledků.

Dynamické příznaky a energie

Řeč je posloupností různých zvuků, a proto je vhodné vyhodnocovat jejich vývoj v čase a sledovat změny, které vznikají. Nejběžnější metodou jak toto zajistit, je sledování a vyhodnocování rozdílových a akceleračních koeficientů, které se počítají v čase ze základních příznaků řeči. V principu lze toto realizovat jako jednoduchý rozdíl sousedních bloků, ale častěji je to uskutečněno jako lineární kombinace rozdílů pokrývajících širší časový úsek. Dále se prokázalo, že jednoduchá energie může dobře lokalizovat polohu samohlásek díky jejich velké energii, což zvyšuje celkovou diskriminační schopnost základních příznaků řeči. Proto se (normalizovaná) energie často přidává do výsledného vektoru základních příznaků řeči.