Fonetiikan Päivät 2002

Suomenkielisen tekstin syntetisointi on pääosin suoravivaista, mutta eräiltä kohdin vaativaakin, esim.:

1) Anna palaa!
2) XII olympialaisissa.
3) GSM 040 1234567

Todellisuudessa kirjoitus ja puhe eroavat mm. äng-äänteen, assimilaation ja alkukahdennuksen suhteen. Alkukahdennuksessa esimerkin 1 p-äänteen kesto riippuu siitä tulkitaanko "Anna" nimeksi (lyhyt) vai käskyksi (pitkä). Muut kirjainten ääntämyksen erot ovat synteesissä helposti korjattavissa, mutta alkukahdennuksen tunnistamiseksi tarvitaan lingvististä analyysiä.

Lingvistisen analyysin avulla voidaan myös tunnistaa ja merkitä tekstistä sisältö- ja merkityssanoja. Esimerkiksi pronomineja on tuskin tarkoitus puheessa painottaa, mutta toisaalta -kin -morfeemiin päättyvät sanat tulisi painottaa. Samaten lingvistisin työkaluin löydetään teksteistä kohtia, joihin tauout voidaan sijoittaa.

Kirjoituksessa esiintyi myös merkkijonoja, joita ei voi lukea sellaisenaan, kuten numerot ja lyhenteet. Tällaiset merkkijonot pitää laventaa hyödyntäen oikeinkirjoitussääntöjä, lingvististä tietoa ja maailmatietoa. Numeroita lukiessa pitää päättää luetaanko numero numeromerkki kerrallaan vaiko yhtenä lukuna. Lisäksi numero voi kongruoida pääsanansa kanssa. Esimerkissa 2 roomalainen numero "XII" perii pääsanansa sijamuodon (inessiivi) ja luvun (monikko) eli sen oikein lavennettu muoto olisi "kahdensissatoista".

Lyhenteet pitää tunnistaa, jotta ne voidaan lukea oikein. Oikea lukutapa olisi joko kirjain kerrallaan (esimerkki 3) tai lyhenteen aukilukeminen. Myös osa lyhenteistä kongruoi pääsanansa kanssa (mm. "ns." ja "em.").

Esimerkin 3 puhelinnumero luetaan numero kerrallaan. Puhelinnumeroa lukiessaan ihminen ei lue kaikkia numeroita peräperää, vaan pilkkoo numerosarjan pienemmiksi, ymmärtämistä ja muistamista helpottaviksi, kokonaisuuksiksi.

Hyödyntämällä SABLEa tai muuta puhesynteesin merkkauskieltä voidaan raakatekstistä kuljettaa puheen laadun kannalta oleellinen informaatio puhesyntetisaattorille. Demonstroimme puhesynteesiä, jossa teksti ensin rikastetaan ja viedään sitten XML-muotoisena puhesyntetisaattorillemme. Syntetisoinnissa äännekestoja kontrolloidaan päätöspuiden avulla; intonaatiota ohjataan ns. Fujisakin mallin avulla. Synteesi hyödyntää rikastetusta tekstistä saamiaan lausekerajoja (fraasikomponentti) ja tietoja sanojen aksentoitumisesta (aksenttikomponentti).

Demonstroitu puhesyntetisaattori on kehitetty Tekesin "Finnish Speech Technology: A Multidisciplinary Project" USIX-hankkeessa (No. 40238/02). Syntetisaattori pohjautuu Edinburghin yliopistossa kehitettyyn Festival-puhesynteesijärjestelmään.