Tässä artikkelissa esitellään tutkimusta, jonka avulla pyritään
kehittämään automaattinen tunnistin puhutussa suomessa ilmeneville
emootioille. Laajaa suomenkielistä emootiopuhetietokantaa (MediaTeam
Emotional Speech Database) ja sen avulla saatuja alustavia
tutkimustuloksia jatkuvassa puheessa esiintyvien emootioiden akustisista
korrelaateista esitellään. Tutkimusta varten laadittiin 120 sanaa
sisältävä, semanttiselta sisällöltään mahdollisimman neutraali teksti.
14 ammattinäyttelijää (puolet naisia, puolet miehiä) luki tekstin
nauhalle ensin neutraalilla äänensävyllä ja sen jälkeen iloisesti,
vihaisesti, surullisesti, pelokkaasti, inhoten ja kyllästyneesti.
Koehenkilöt saivat valmistautua kutakin tunnetilaa varten haluamansa
ajan; äänitykset tehtiin kaiuttomassa tilassa
(radioantennitutkimuslaboratoriossa) DAT-nauhurilla, minkä jälkeen
tallenteet siirrettiin tietokoneen kovalevylle (näytteenottotaajuus 48
kHz, 16 bittiä). F0-mittaukset toteutettiin Matlab-ympäristössä itse
kehitetyllä ohjelmistolla. Signaalista eroteltiin soinnilliset ja
soinnittomat osat; soinnilliset osat määritettiin kepstripohjaisesti.
F0-kontuuri määritettiin aaltomuotosovitustekniikalla interpoloiden, ja
virheet F0-käyrästä poistettiin automaattisten operaatioiden avulla.
F0:n etsimisalue rajattiin välille 50-800 Hz. Signaalista laskettiin mm.
seuraavat parametrit: F0:n keskiarvo, F0:n mediaani, F0:n maksimi, F0:n
minimi, F0:n vaihteluväli, F0:n 5%:n sekä 95%:n fraktiili, em.
fraktiilien määrittämä F0:n vaihteluväli, maksimaalinen, kahden
mittauskohdan välinen F0:n nousujyrkkyys, maksimaalinen, kahden
mittauskohdan välinen F0:n laskujyrkkyys, keskimääräinen F0:n nousu
puheen yhtäjaksoisen soinnillisen osan aikana, keskimääräinen F0:n lasku
em. aikana, maksimaalinen F0:n nousu em. aikana, maksimaalinen F0:n
lasku em. aikana, keskimääräinen F0:n nousujyrkkyys em. aikana,
keskimääräinen F0:n laskujyrkkyys em. aikana, F0-pisteiden varianssi,
F0:n jitter, puheen soinnillisten osien sisäinen taajuusnormalisoitu
dynamiikka, keskimääräinen intensiteetti, mediaani-intensiteetti,
maksimi-intensiteetti, minimi-intensiteetti, intensiteetin vaihteluväli,
intensiteetin 95%:n fraktiili, intensiteetin 5%:n fraktiili, em.
fraktiilien määrittämä intensiteetin vaihteluväli, intensiteetin
varianssi, shimmer, puheen soinnillisten osien sisäinen keskimääräisen
intensiteetin suhteen normalisoitu dynamiikka, puheen yhtäjaksoisen
soinnillisen osan keskimääräinen kesto, puheen yhtäjaksoisen
soinnillisen osan maksimaalinen kesto, yhtäjaksoisen hiljaisuuden
maksimaalinen kesto, puheen yhtäjaksoisen soinnittoman osan
maksimaalinen kesto, puheen yhtäjaksoisen soinnittoman osan
keskimääräinen kesto, puheen soinnillisten osien suhde soinnittomiin
osiin, hiljaisuuden suhde puheen soinnillisiin osiin, hiljaisuuden suhde
puheen soinnittomiin osiin sekä matalalla taajuudella olevan energian
(alle 500Hz ja alle 1000 Hz) osuus kokonaisenergiasta. Kuuntelukokeissa
(14 koehenkilöä) perusemootioiden (neutraali, suru, viha, ilo)
tunnistusprosentti oli 84,7%. Kaikkien emootioiden osalta
tunnistusprosentti oli 71,2% (18 koehenkilöä). Luokittelutyökaluna
käytettiin SPSS 10.1.4 -ohjelman Fisherin lineaarista
diskriminantti-analyysiä. Perusemootioiden osalta luokittelun
onnistumisprosentti oli ristiinvalidoitaessa 80,4%; kaikkien emootioiden
osalta onnistumisprosentti oli 68,4%. Analyysi suoritettiin lisäksi
siten, että puhenäytteet jaettiin viiteen saman kestoiseen osaan, jotka
luokiteltiin kukin erikseen, minkä jälkeen koko puhenäytteen luokittelu
suoritettiin ns. enemmistöpäätöksellä. Luokittelun onnistumisprosentti
oli 82,1% seitsemälle emootiolle ja 68,4% perusemootioille. Piirteiden
valintaan käytettiin molemmissa analyyseissä selittämättömän varianssin
menetelmää, jolloin analyysissä oli mukana 20 ja 24 parhaiten
erottelevaa piirrettä. Erottelukykyisimmät parametrit olivat puheen ja
hiljaisuuden suhde, puheen yhtäjaksoisen soinnittoman osan
keskimääräinen kesto, puheen yhtäjaksoisen soinnillisen osan
maksimaalinen kesto, alle 500 Hz:n taajuudella olevan energian osuus,
shimmer, jitter, alle 1000 Hz:n taajuudella olevan energian osuus sekä
puheen yhtäjaksoisen soinnillisen osan keskimääräinen kesto.