FONETIIKAN PÄIVÄT 2002


    Äännemallien vertailua jatkuvassa suuren sanaston puheentunnistuksessa

    Vesa Siivola, Teemu Hirsimäki ja Mikko Kurimo

    Teknillinen korkeakoulu
    Informaatiotekniikan laboratorio

    Vesa.Siivola@hut.fi
    Teemu.Hirsimaki@hut.fi
    Mikko.Kurimo@hut.fi

    Tässä työssä on verrattu erilaisia äännemalleja jatkuvassa suomenkielisessä puheentunnistuksessa. Käytetyt mallit ovat tavallinen foneemimalli (monofonimalli), kontekstiherkkä foneemimalli (trifonimalli) ja tavumalli. Lähtökohtana on foneemimalli, jossa jokaiselle suomen kielen foneemille on oma akustinen mallinsa. Käytännössä foneemin ääntämiseen vaikuttavat merkittävästi sitä ympäröivät foneemit, joten tarkempaa mallinnusta varten tehdään joka foneemille useita kontekstiriippuvia malleja. Tällainen trifonimalli on käytössä useimmissa moderneissa puheentunnistimissa. Suomen kielessä on lisäksi selkeä tavurakenne, joka on kuultavissa myös esimerkiksi foneemien painotuksessa. Tässä työssä rakennettiin joka tavulle oma mallinsa ja kokeiltiin, toimivatko nämä vielä trifonimallejakin paremmin. Mallien toimintaa verrattiin sekä jatkuvasta puheesta poimittujen yksittäisten sanojen että jatkuvan puheen tunnistuksessa. Jatkuvan puheen testit tehtiin sekä kielioppimallin kanssa että ilman. Puheaineistona käytettiin ääneen luettua kirjaa.