Spracovanie multimédií
Syntéza reči

Pod syntézou reči rozumieme vytváranie reči, ktorá je čo najpodobnejšia ľudskej, za pomoci stroja, ktorý je označovaný aj ako syntetizátor.

Existuje viacero typov syntetizátorov, avšak cieľom každého z nich je v zásade to isté: reprodukovať zadaný text v čo najzrozumiteľnejšej a najprirodzenejšej forme.

Existujú štyri základné prístupy:

Na obrázku (Obr. 6.1) je blokový diagram všeobecného syntetizátora. Samozrejme, tento diagram je značne zjednodušený pre naše potreby a niektoré elementy (ako napríklad spätné väzby nachádzajúce sa v niektorých učiacich sa syntetizátoroch) sú vynechané. Avšak v podstate každý syntetizátor pozostáva z nasledovných častí:

Obr. 6.1: Bloková schéma všeobecného syntetizátora

Pre dosiahnutie čo najprirodzenejšej syntézy reči musia syntetizátory plniť komplexné úlohy ako predspracovanie a následné spracovanie (postprocessing). Pre čo najdokonalejšie podanie reči by tieto systémy mali byť adaptívne a schopné učiť sa. Taký systém by pozostával zo štyroch základných modulov: fonetický preklad slov, určenie slovného druhu (týka sa predovšetkým germánskych a slovanských jazykov používajúcich skloňovanie), fonetického prekladu skratiek a modulu modifikácie prozódie.

Obr. 6.2: Modulárna architektúra syntetizátora

V nasledujúcom príklade sa zameriame na difónovú syntézu.

Príklad difónovej syntézy reči

Nasledujúci príklad opisuje využitie difónového syntetizátora. Hlavnou výhodou tohto riešenia je prirodzene znejúci hlas a malá databáza. Slovenský jazyk má iba 1550 difón, a práve to robí nasledujúce riešenie veľmi praktickým (najmä v porovnaní s inými druhmi syntéz, kde je veľkosť databázy oveľa väčšia, ako napr. pri korpusovej syntéze).

Difóna je hneď po fonéme jedna zo základných jednotiek v reči. Fonéma je najmenšia komplexná jednotka zvukového systému jazyka. Jednu difónu tvoria dve po sebe nasledujúce fonémy. Hranice difóny sú v polovici týchto foném, takže jej dĺžka v časovej oblasti nie je dvojnásobná oproti fonémam, ale približne rovnaká. Výhodou difón oproti fonémam je, že lepšie sledujú prechodovú zmenu zvuku medzi jednotlivými hláskami a majú hranice v ich strede, kde sú časové priebehy najstabilnejšie.

Vo všeobecnosti je počet difón v reči rovný počtu druhej mocniny foném. Tým dostaneme všetky kombinácie. V skutočnosti je ale počet difón menší, lebo nie všetky kombinácie dokážeme povedať, resp. v jazyku sa nenachádzajú. Reálny počet difón zistíme iba dôkladným študovaním jazyka. Difónová databáza obsahuje reálne nahrávky reči, ktoré sú rozdelené na menšie časti – difóny. Je viacero možností, ako vytvoriť a nahrať databázu, napríklad výber takých slov, aby v nich boli obsiahnuté všetky difóny zo slovníka. Slová v slovníku nemusia mať žiaden význam alebo súvis, dôraz je kladený na čo najmenší počet nahrávok.

Návrh rečového syntetizátora je na obrázku (Obr. 6.3). Princíp syntézy je tam znázornený veľmi zjednodušene.

Obr. 6.3: Návrh rečového syntetizátora

Vstupný text sa musí zosyntetizovať na reč. Najskôr sa musí text prepísať do SAMPA abecedy. Preto sa v prvom kroku syntézy všetky znaky prepíšu do SAMPY. V druhom kroku je prepis v SAMPE prepísaný podľa pravidiel výslovnosti pre konkrétny jazyk (v našom prípade slovenský jazyk). Potom sa pre zodpovedajúce difóny vyberú nahrávky z databázy a pospájajú sa. Výstupom je zosyntetizovaný text.

Uvádzame niekoľko príkladov využitia syntézy v praxi: osobní rečoví asistenti, asistenti v mobilných telefónoch pre nevidiacich, mestskí sprievodcovia, dopravný grafikon a navigačný systém, internetové multimodálne služby, aplikácie pre dokumentáciu nehôd, služby manažovania času alebo inventár. V posledných rokoch sa stali veľmi populárne syntéza v slovníkoch priamo na internete (online), alebo čítačky kníh s implementovanou syntézou textu, najmä pre anglický jazyk.