Nicholas Volk (HY, Yleisen kielitieteen laitos)
Martti Vainio (HY, Fonetiikan laitos)
Stefan Werner, Juhani Järvikivi & Jarmo Välikangas
(JoY, Yleinen kielitiede ja kieliteknologia)
Antti Suni & Janos Honkonen (HY, Yleisen kielitieteen laitos)
Suomenkielisen tekstin syntetisointi on pääosin suoravivaista,
mutta eräiltä kohdin vaativaakin, esim.:
1) Anna palaa!
2) XII olympialaisissa.
3) GSM 040 1234567
Todellisuudessa kirjoitus ja puhe eroavat mm. äng-äänteen,
assimilaation ja alkukahdennuksen suhteen. Alkukahdennuksessa
esimerkin 1 p-äänteen kesto riippuu siitä tulkitaanko "Anna" nimeksi
(lyhyt) vai käskyksi (pitkä). Muut kirjainten ääntämyksen erot ovat
synteesissä helposti korjattavissa, mutta alkukahdennuksen
tunnistamiseksi tarvitaan lingvististä analyysiä.
Lingvistisen analyysin avulla voidaan myös tunnistaa ja merkitä
tekstistä sisältö- ja merkityssanoja. Esimerkiksi pronomineja
on tuskin tarkoitus puheessa painottaa, mutta toisaalta -kin
-morfeemiin päättyvät sanat tulisi painottaa. Samaten lingvistisin
työkaluin löydetään teksteistä kohtia, joihin tauout voidaan sijoittaa.
Kirjoituksessa esiintyi myös merkkijonoja, joita ei voi lukea
sellaisenaan, kuten numerot ja lyhenteet. Tällaiset merkkijonot
pitää laventaa hyödyntäen oikeinkirjoitussääntöjä, lingvististä tietoa
ja maailmatietoa. Numeroita lukiessa pitää päättää luetaanko numero
numeromerkki kerrallaan vaiko yhtenä lukuna. Lisäksi numero voi kongruoida
pääsanansa kanssa. Esimerkissa 2 roomalainen numero "XII" perii
pääsanansa sijamuodon (inessiivi) ja luvun (monikko) eli sen oikein
lavennettu muoto olisi "kahdensissatoista".
Lyhenteet pitää tunnistaa, jotta ne voidaan lukea oikein. Oikea
lukutapa olisi joko kirjain kerrallaan (esimerkki 3) tai lyhenteen
aukilukeminen. Myös osa lyhenteistä kongruoi pääsanansa kanssa
(mm. "ns." ja "em.").
Esimerkin 3 puhelinnumero luetaan numero kerrallaan.
Puhelinnumeroa lukiessaan ihminen ei lue kaikkia
numeroita peräperää, vaan pilkkoo numerosarjan pienemmiksi,
ymmärtämistä ja muistamista helpottaviksi, kokonaisuuksiksi.
Hyödyntämällä SABLEa tai muuta puhesynteesin merkkauskieltä
voidaan raakatekstistä kuljettaa puheen laadun kannalta
oleellinen informaatio puhesyntetisaattorille. Demonstroimme
puhesynteesiä, jossa teksti ensin rikastetaan ja
viedään sitten XML-muotoisena puhesyntetisaattorillemme.
Syntetisoinnissa äännekestoja kontrolloidaan päätöspuiden avulla;
intonaatiota ohjataan ns. Fujisakin mallin avulla. Synteesi
hyödyntää rikastetusta tekstistä saamiaan lausekerajoja
(fraasikomponentti) ja tietoja sanojen aksentoitumisesta
(aksenttikomponentti).
Demonstroitu puhesyntetisaattori on kehitetty Tekesin
"Finnish Speech Technology: A Multidisciplinary Project"
USIX-hankkeessa (No. 40238/02). Syntetisaattori pohjautuu
Edinburghin yliopistossa kehitettyyn Festival-puhesynteesijärjestelmään.
|
|
|