2 Identifikace hovořícího
2.3 Extrakce příznaků řeči

S ohledem na množství problémů naznačených v předchozím textu a k vlastnostem řeči, bylo nalezeno mnoho metod parametrizujících řeč. Dobré příznaky pro identifikaci však musí splňovat následující vlastnosti:

Protože existuje mnoho rozdílných příznaků, které sledují parametry různých fyzikálních vlastností, dělí se příznaky pro identifikaci hovořícího do několika úrovní:

Na akustické úrovni se extrahují příznaky z krátkých časových intervalů (10-30ms), které mají za cíl popsat akustickou stránku zvuku. Obvykle se jedná o modifikované obálky spektra apod. Takové příznaky tedy souvisí s fyzickými vlastnostmi hlasových orgánů jedince. Navíc tyto příznaky zahrnují různé psychoakustické fenomény, tak jako to dělá sluchový systém člověka. To zvyšuje robustnost vůči šumům a vlivu prostředí. V současnosti nejpoužívanější a nejúspěšnější jsou Melovy frekvenční kepstrální koeficienty (MFCC), perceptuální lineární predikce (PLP)kepstrální lineární predikční koeficienty (CLPC). MFCC a PLP se snaží vystihnout modifikovanou obálku spektra využívající psychoakustické principy jako je odlišné vnímané výšky tónu lidmi, kritická pásma, křivka shodné hlasitosti, atd. Tyto příznaky jsou schopné zachytit počet, polohu i tvar formantových frekvencí, které jsou nutné pro správný vjem zvuku. Proto jsou důležité zejména pro oblast rozpoznávání řeči. Při identifikaci řečníka však též hrají významnou úlohu, jelikož jsou schopné postihnout i menši změny formantových frekvencí v závislosti na hovořícím. Polohy formantových frekvencí se totiž neliší jen od hlásky ke hlásce, ale i mezi hovořícími. CLPC příznaky se na druhou stranu snaží popsat (odhadnout) parametry modelu produkce řeči, čím by bylo možné modelovat (určit) konkrétního hovořícího (jeho hlasový trakt). K zmíněným akustickým příznakům se často konstruují dynamické parametry, které mají za cíl vystihnout jejich vývoj v čase, který je též specifický pro konkrétní hovořící. Na to se používají diferenční nebo akcelerační koeficienty počítané z většího časového rámce.

Příznaky na prozodické úrovni se spíše zaměřují na charakter řeči, způsob hovoření, návyky při hovoření, fyzický a zdravotný stav, atd. Samozřejmě je tato informace rozprostřená v širším časovém úseku v rozmezí několika sekund. Nejvíc preferované rysy na této úrovni jsou: rytmus, dynamika řeči, rychlost hovoření, modulace hlasivkové frekvenci, tvorba pauz, atd. Na druhé straně jsou tyto příznaky hůře extrahovatelné a kvantifikovatelné jako na akustické úrovni. Proto existuje vícero metod na jejich získání. Nejběžnější pro detekci hlasivkové periody jsou: průměrná magnituda diferenční funkce (AMDF), autokorelační funkce, inverzní filtrování, apod. Pro dynamiku řeči je to průběh energie v čase atd. Samozřejmě kromě základních metod existuje množství jejich modifikací.