FONETIIKAN PÄIVÄT 2002


    Emootioiden automaattinen tunnistaminen puhutussa suomessa

    Juhani Toivanen (juhani.toivanen@ee.oulu.fi)
    Tapio Seppänen (tapio.seppanen@ee.oulu.fi)
    Eero Väyrynen (eero.vayrynen@ee.oulu.fi)

    MediaTeam / Oulun yliopisto
    PL 4500, 4SOINFO
    90014 Oulun yliopisto

    Tässä artikkelissa esitellään tutkimusta, jonka avulla pyritään kehittämään automaattinen tunnistin puhutussa suomessa ilmeneville emootioille. Laajaa suomenkielistä emootiopuhetietokantaa (MediaTeam Emotional Speech Database) ja sen avulla saatuja alustavia tutkimustuloksia jatkuvassa puheessa esiintyvien emootioiden akustisista korrelaateista esitellään. Tutkimusta varten laadittiin 120 sanaa sisältävä, semanttiselta sisällöltään mahdollisimman neutraali teksti. 14 ammattinäyttelijää (puolet naisia, puolet miehiä) luki tekstin nauhalle ensin neutraalilla äänensävyllä ja sen jälkeen iloisesti, vihaisesti, surullisesti, pelokkaasti, inhoten ja kyllästyneesti. Koehenkilöt saivat valmistautua kutakin tunnetilaa varten haluamansa ajan; äänitykset tehtiin kaiuttomassa tilassa (radioantennitutkimuslaboratoriossa) DAT-nauhurilla, minkä jälkeen tallenteet siirrettiin tietokoneen kovalevylle (näytteenottotaajuus 48 kHz, 16 bittiä). F0-mittaukset toteutettiin Matlab-ympäristössä itse kehitetyllä ohjelmistolla. Signaalista eroteltiin soinnilliset ja soinnittomat osat; soinnilliset osat määritettiin kepstripohjaisesti. F0-kontuuri määritettiin aaltomuotosovitustekniikalla interpoloiden, ja virheet F0-käyrästä poistettiin automaattisten operaatioiden avulla. F0:n etsimisalue rajattiin välille 50-800 Hz. Signaalista laskettiin mm. seuraavat parametrit: F0:n keskiarvo, F0:n mediaani, F0:n maksimi, F0:n minimi, F0:n vaihteluväli, F0:n 5%:n sekä 95%:n fraktiili, em. fraktiilien määrittämä F0:n vaihteluväli, maksimaalinen, kahden mittauskohdan välinen F0:n nousujyrkkyys, maksimaalinen, kahden mittauskohdan välinen F0:n laskujyrkkyys, keskimääräinen F0:n nousu puheen yhtäjaksoisen soinnillisen osan aikana, keskimääräinen F0:n lasku em. aikana, maksimaalinen F0:n nousu em. aikana, maksimaalinen F0:n lasku em. aikana, keskimääräinen F0:n nousujyrkkyys em. aikana, keskimääräinen F0:n laskujyrkkyys em. aikana, F0-pisteiden varianssi, F0:n jitter, puheen soinnillisten osien sisäinen taajuusnormalisoitu dynamiikka, keskimääräinen intensiteetti, mediaani-intensiteetti, maksimi-intensiteetti, minimi-intensiteetti, intensiteetin vaihteluväli, intensiteetin 95%:n fraktiili, intensiteetin 5%:n fraktiili, em. fraktiilien määrittämä intensiteetin vaihteluväli, intensiteetin varianssi, shimmer, puheen soinnillisten osien sisäinen keskimääräisen intensiteetin suhteen normalisoitu dynamiikka, puheen yhtäjaksoisen soinnillisen osan keskimääräinen kesto, puheen yhtäjaksoisen soinnillisen osan maksimaalinen kesto, yhtäjaksoisen hiljaisuuden maksimaalinen kesto, puheen yhtäjaksoisen soinnittoman osan maksimaalinen kesto, puheen yhtäjaksoisen soinnittoman osan keskimääräinen kesto, puheen soinnillisten osien suhde soinnittomiin osiin, hiljaisuuden suhde puheen soinnillisiin osiin, hiljaisuuden suhde puheen soinnittomiin osiin sekä matalalla taajuudella olevan energian (alle 500Hz ja alle 1000 Hz) osuus kokonaisenergiasta. Kuuntelukokeissa (14 koehenkilöä) perusemootioiden (neutraali, suru, viha, ilo) tunnistusprosentti oli 84,7%. Kaikkien emootioiden osalta tunnistusprosentti oli 71,2% (18 koehenkilöä). Luokittelutyökaluna käytettiin SPSS 10.1.4 -ohjelman Fisherin lineaarista diskriminantti-analyysiä. Perusemootioiden osalta luokittelun onnistumisprosentti oli ristiinvalidoitaessa 80,4%; kaikkien emootioiden osalta onnistumisprosentti oli 68,4%. Analyysi suoritettiin lisäksi siten, että puhenäytteet jaettiin viiteen saman kestoiseen osaan, jotka luokiteltiin kukin erikseen, minkä jälkeen koko puhenäytteen luokittelu suoritettiin ns. enemmistöpäätöksellä. Luokittelun onnistumisprosentti oli 82,1% seitsemälle emootiolle ja 68,4% perusemootioille. Piirteiden valintaan käytettiin molemmissa analyyseissä selittämättömän varianssin menetelmää, jolloin analyysissä oli mukana 20 ja 24 parhaiten erottelevaa piirrettä. Erottelukykyisimmät parametrit olivat puheen ja hiljaisuuden suhde, puheen yhtäjaksoisen soinnittoman osan keskimääräinen kesto, puheen yhtäjaksoisen soinnillisen osan maksimaalinen kesto, alle 500 Hz:n taajuudella olevan energian osuus, shimmer, jitter, alle 1000 Hz:n taajuudella olevan energian osuus sekä puheen yhtäjaksoisen soinnillisen osan keskimääräinen kesto.