2 Identifikácia hovoriaceho
2.3 Extrakcia príznakov reči

Vzhľadom na množstvo problémov spomenutých v predošlom texte a vlastnosti reči, bolo nájdených veľa metód parametrizujúcich reč. Dobré príznaky pre identifikáciu však musia spĺňať nasledovné vlastnosti:

Pretože existuje veľa rozdielnych príznakov, ktoré sledujú parametre rôznych fyzikálnych vlastností, príznaky pre identifikáciu hovoriaceho sa delia do viacerých úrovní:

Na akustickej úrovni sa extrahujú príznaky z krátkych časových intervalov (10-30 ms), ktoré majú za cieľ opísať akustickú stránku zvuku. Zvyčajne sa jedná o modifikované obálky spektra a pod. Takéto príznaky teda súvisia s fyzickými vlastnosťami hlasových orgánov jedinca. Navyše tieto príznaky v sebe zhŕňajú rozličné psychoakustické fenomény, tak ako to robí sluchový systém človeka. To zvyšuje odolnosť voči šumom a vplyvu prostredia. V súčasnosti najpoužívanejšie a najúspešnejšie sú Melovo frekvenčné kepstrálne koeficienty (MFCC), perceptuálna lineárna predikcia (PLP)kepstrálne lineárne predikčné koeficienty (CLPC). MFCC a PLP sa snažia vystihnúť modifikovanú obálku spektra využívajúc psychoakustické princípy ako odlišné vnímanie výšky tónu ľuďmi (iná frekvenčná stupnica ako Hz), kritické pásma, krivka rovnakej hlasitosti, atď. Tieto príznaky sú schopné zachytiť počet, polohu aj tvar formantových frekvencií, ktoré sú nevyhnutné na správny vnem zvuku. Preto sú dôležité najmä pre oblasť rozpoznávania reči. Pri identifikácií rečníka však tiež hrajú významnú úlohu, keďže sú schopné vystihnúť aj menšie zmeny formantových frekvencií v závislosti od hovoriaceho ku hovoriacemu. Polohy formantových frekvencií sa totiž nelíšia len od hlásky ku hláske ale aj medzi hovoriacimi. CLPC príznaky sa na druhú stranu snažia opísať (odhadnúť) parametre modelu produkcie reči, čím by bolo možné modelovať (určiť) konkrétneho hovoriaceho (jeho hlasový trakt). K spomenutým akustickým príznakom sa často konštruujú dynamické parametre, ktoré majú za cieľ vystihnúť ich vývoj v čase, ktorý je tiež špecifický pre konkrétnych hovoriacich. Na to sa používajú diferenčné alebo akceleračné koeficienty počítané z väčšieho časového rámca.

Príznaky na prozodickej úrovni sa skôr zameriavajú na charakter reči, spôsob hovorenia, návyky pri hovorení, fyzický a zdravotný stav, atď. Samozrejme táto informácia je rozprestretá v širšom časovom úseku v rozmedzí niekoľkých sekúnd. Najviac preferované črty na tejto úrovni sú: rytmus, dynamika reči, rýchlosť hovorenia, modulácia hlasivkovej frekvencie, tvorba páuz, atď. Na druhej strane tieto príznaky sú ťažšie extrahovateľné a kvantifikovateľné ako na akustickej úrovni. Preto existuje viacero metód na ich získanie. Najbežnejšie sú pre detekcie hlasivkovej periódy: priemerná magnitúda diferenčnej funkcie (AMDF), autokorelačná funkcia, inverzné filtrovanie, a pod.. Pre dynamiku reči je to priebeh energie v čase atď. Samozrejme okrem základných metód existuje množstvo ich modifikácií.