Fonetiikan Päivät 2002

Synteettisen prosodian parantamista TTS-järjestelmissä pidetään yleisesti tärkeänä. Kehittämistyö koskee erityisesti intonaatiomalleja. Vaikka intonaation laatu onkin tärkeä tekijä tiellä mahdollisimman luonnolliseen synteettiseen puheeseen, ei sen vaikutusta muiden synteesikomponenttien, kuten segmentaaliseen synteesin, suorituskykyyn ole tutkittu kunnolla. Esittelemme tuloksia kahdesta hyväksyttävyyskokeesta, joissa tutkittiin intonaation luonnollisuuden ja subjektiivisen segmentaalisen laadun suhdetta suomenkielisessä synteesissä. Koe 1 osoitti, että intonaation havaitseminen on riippuvainen objektiivisesta segmentaalisesta laadusta (difonisynteesi vs. luonnollinen puhe). Koe 2 osoitti, että havaittu segmentaalinen hyväksyttävyys riippui merkitsevästi intonaation suhteellisesta luonnollisuudesta. Näiden tulkintojen perusteella parempi intonaatio TTS-järjestelmissä ei ole kokonaislaadun kannalta pelkästään toivottavaa, vaan sen on osoitettu vaikuttavan suoraan segmentaaliseen hyväksyttävyyteen, joka on synteettisen puheen perustavanlaatuinen piirre.