FONETIIKAN PÄIVÄT 2002


    PUHUJAN PRAGMAATTISEN TEMPORAALISEN ÄÄNIALAN VISUALISOINTIMENETELMÄ JA -OHJELMISTO

    Antti Iivonen (antti.iivonen@helsinki.fi) [1],
    Tapio Seppänen (tapio.seppanen@ee.oulu.fi) [2],
    Kai Noponen (kai.noponen@ee.oulu.fi)[2] &
    Juhani Toivanen (juhani.toivanen@ee.oulu.fi) [2]

    [1]
    University of Helsinki, Department of Phonetics
    Vironkatu 1 B (PL 35),
    00014 Helsingin yliopisto

    [2]
    University of Oulu, Department of Electrical Engineering
    MediaTeam/Oulun yliopisto
    PL 4500,
    4SOINFO
    90014 Oulun yliopisto


    Puhujan temporaalinen ääniala kuvaa puhujan käyttämien perustaajuuskontuurien alan aika/taajuuskoordinaatistossa (Iivonen 1999 ja 2001). Äänialajakauman aikapisteiden kohdalta voidaan laskea ajankohdan prosentuaalinen F0- tai ST-jakauma, ja jakauman tilastollisia ominaisuuksia voidaan esittää näyttöruudulla harmaansävyjen avulla. Tällainen esitystapa havainnollistaa tehokkaasti puheen eri tyylien prosodisia ominaispiirteitä sekä esim. erilaisia puhefunktioita toteuttavien tai erilaisia emotionaalisia sisältöjä ilmentävien puhunnosten prosodisia eroja. Tässä artikkelissa selostetaan temporaalisen äänialan visualisoinnin tämänhetkistä kehitystyötä; koska puheaineisto voidaan ottaa luonnollisesta puheesta, voidaan menetelmää kuvata pragmaattiseksi. Temporaalisen äänialan visualisoinnissa lähdettiin liikkeelle perustaajuuskontuurien laskennasta Praat-ohjelman PitchTier-tiedostoista, jotka ovat ohjelman syötteinä. Visualisoinnin apuvälineeksi kehitettiin joustava työkaluohjelma, joka mahdollistaa puhunnosten interaktiivisen visualisoinnin ja analysoinnin. Visualisointiohjelman tuottama äänialakuva muodostaa taustan, jota vasten jokaisen yksittäisen ilmauksen perustaajuuskontuuri voidaan esittää. Ääniala on mahdollista kuvata useilla erilaisilla visualisaatioilla. Se voidaan esittää piirtämällä päällekkäin joko useiden puhunnosten perustaajuuskontuureja, niiden vaihteluväli minimi ja maksimi käyrillä tai kontuurien persentiilijakauma eri ajanhetkillä. Lisäksi on mahdollista piirtää haluttujen puhunnosten perustaajuuskontuurihistogrammi. Samassa kuvassa voidaan visualisoida useita äänialoja yhtä aikaa, ja näin vertailla esimerkiksi puhujien välisiä eroja. Haluttujen puhunnosten kontuurit voidaan piirtää äänialaa vasten eri väreillä. Kukin kontuuri on helposti valittavissa visualisoitavaksi joko äänialasta tai listasta poimimalla. Näin voidaan suhteuttaa kontuurin ominaisuudet äänialaan ja ilmauksen funktioihin. Kontuuri voidaan esittää myös niin, että vain tavujen representatiiviset F0-pisteet esitetään äänialataustaa vasten. Tässä voidaan käyttää Praatin TextGrid-ominaisuuksia. Visualisointi voi tapahtua joko hertsi- tai semitoniasteikolla halutulla aikavälillä. Ohjelma keskittää kaikki puhunnokset alkamaan samasta ajanhetkestä mahdollistaen äänidatan löyhemmän segmentoinnin. Syntyneet visualisaatiot voidaan tallentaa tiff-muotoisiksi kuvatiedostoiksi halutulla tarkkuudella, josta riippuen ohjelma tarpeen mukaan automaattisesti joko desimoi tai interpoloi perustaajuuskontuurien dataa. Interpolointiin on valittavissa joko spline- tai lineaarinen interpolaatio. Vaihtoehtoisesti on mahdollista piirtää vain datapisteet ilman yhtenäisiä kontuurikäyriä. Menetelmällä on sovelluksia ainakin seuraavilla alueilla: puheen prosodian tutkimus, kielten vertailu, puhujantunnistus, äänitutkimus ("ääni" merkityksessä 'voice').

    Viitteet:
    - Iivonen, Antti (1999) F0 contours of utterances superimposed on the temporal voice range profile of the speaker. Proceedings of the XIV International Congress of Phonetic Sciences 1999, San Francisco 1-7 Aug., 953-956.
    - Iivonen, Antti (2001) Pragmatic temporal voice range profile as a tool in the research of speech styles. VII Eurospeech 2001 Scandinavia, Aalborg 3-7.9.2001. Vol. I, 103-106.