Antti Iivonen (antti.iivonen@helsinki.fi) [1],
Tapio Seppänen (tapio.seppanen@ee.oulu.fi) [2],
Kai Noponen (kai.noponen@ee.oulu.fi)[2] &
Juhani Toivanen (juhani.toivanen@ee.oulu.fi) [2]
[1] University of Helsinki, Department of Phonetics
Vironkatu 1 B (PL 35),
00014 Helsingin yliopisto
[2] University of Oulu, Department of Electrical Engineering
MediaTeam/Oulun yliopisto
PL 4500,
4SOINFO
90014 Oulun yliopisto
Puhujan temporaalinen ääniala kuvaa puhujan käyttämien
perustaajuuskontuurien alan aika/taajuuskoordinaatistossa (Iivonen 1999
ja 2001). Äänialajakauman aikapisteiden kohdalta voidaan laskea
ajankohdan prosentuaalinen F0- tai ST-jakauma, ja jakauman tilastollisia
ominaisuuksia voidaan esittää näyttöruudulla harmaansävyjen avulla.
Tällainen esitystapa havainnollistaa tehokkaasti puheen eri tyylien
prosodisia ominaispiirteitä sekä esim. erilaisia puhefunktioita
toteuttavien tai erilaisia emotionaalisia sisältöjä ilmentävien
puhunnosten prosodisia eroja. Tässä artikkelissa selostetaan
temporaalisen äänialan visualisoinnin tämänhetkistä kehitystyötä; koska
puheaineisto voidaan ottaa luonnollisesta puheesta, voidaan menetelmää
kuvata pragmaattiseksi. Temporaalisen äänialan visualisoinnissa
lähdettiin liikkeelle perustaajuuskontuurien laskennasta Praat-ohjelman
PitchTier-tiedostoista, jotka ovat ohjelman syötteinä. Visualisoinnin
apuvälineeksi kehitettiin joustava työkaluohjelma, joka mahdollistaa
puhunnosten interaktiivisen visualisoinnin ja analysoinnin.
Visualisointiohjelman tuottama äänialakuva muodostaa taustan, jota
vasten jokaisen yksittäisen ilmauksen perustaajuuskontuuri voidaan
esittää. Ääniala on mahdollista kuvata useilla erilaisilla
visualisaatioilla. Se voidaan esittää piirtämällä päällekkäin joko
useiden puhunnosten perustaajuuskontuureja, niiden vaihteluväli minimi
ja maksimi käyrillä tai kontuurien persentiilijakauma eri ajanhetkillä.
Lisäksi on mahdollista piirtää haluttujen puhunnosten
perustaajuuskontuurihistogrammi. Samassa kuvassa voidaan visualisoida
useita äänialoja yhtä aikaa, ja näin vertailla esimerkiksi puhujien
välisiä eroja. Haluttujen puhunnosten kontuurit voidaan piirtää äänialaa
vasten eri väreillä. Kukin kontuuri on helposti valittavissa
visualisoitavaksi joko äänialasta tai listasta poimimalla. Näin voidaan
suhteuttaa kontuurin ominaisuudet äänialaan ja ilmauksen funktioihin.
Kontuuri voidaan esittää myös niin, että vain tavujen representatiiviset
F0-pisteet esitetään äänialataustaa vasten. Tässä voidaan käyttää
Praatin TextGrid-ominaisuuksia. Visualisointi voi tapahtua joko hertsi-
tai semitoniasteikolla halutulla aikavälillä. Ohjelma keskittää kaikki
puhunnokset alkamaan samasta ajanhetkestä mahdollistaen äänidatan
löyhemmän segmentoinnin. Syntyneet visualisaatiot voidaan tallentaa
tiff-muotoisiksi kuvatiedostoiksi halutulla tarkkuudella, josta riippuen
ohjelma tarpeen mukaan automaattisesti joko desimoi tai interpoloi
perustaajuuskontuurien dataa. Interpolointiin on valittavissa joko
spline- tai lineaarinen interpolaatio. Vaihtoehtoisesti on mahdollista
piirtää vain datapisteet ilman yhtenäisiä kontuurikäyriä. Menetelmällä
on sovelluksia ainakin seuraavilla alueilla: puheen prosodian tutkimus,
kielten vertailu, puhujantunnistus, äänitutkimus ("ääni" merkityksessä
'voice').
Viitteet:
- Iivonen, Antti (1999) F0 contours of utterances superimposed on the
temporal voice range profile of the speaker. Proceedings of the XIV
International Congress of Phonetic Sciences 1999, San Francisco 1-7
Aug., 953-956.
- Iivonen, Antti (2001) Pragmatic temporal voice range profile as a tool
in the research of speech styles. VII Eurospeech 2001 Scandinavia,
Aalborg 3-7.9.2001. Vol. I, 103-106.
|
|
|