FONETIIKAN PÄIVÄT 2002


  Äännemallien vertailua jatkuvassa suuren sanaston puheentunnistuksessa

  Vesa Siivola, Teemu Hirsimäki ja Mikko Kurimo

  Teknillinen korkeakoulu
  Informaatiotekniikan laboratorio

  Vesa.Siivola@hut.fi
  Teemu.Hirsimaki@hut.fi
  Mikko.Kurimo@hut.fi

  Tässä työssä on verrattu erilaisia äännemalleja jatkuvassa suomenkielisessä puheentunnistuksessa. Käytetyt mallit ovat tavallinen foneemimalli (monofonimalli), kontekstiherkkä foneemimalli (trifonimalli) ja tavumalli. Lähtökohtana on foneemimalli, jossa jokaiselle suomen kielen foneemille on oma akustinen mallinsa. Käytännössä foneemin ääntämiseen vaikuttavat merkittävästi sitä ympäröivät foneemit, joten tarkempaa mallinnusta varten tehdään joka foneemille useita kontekstiriippuvia malleja. Tällainen trifonimalli on käytössä useimmissa moderneissa puheentunnistimissa. Suomen kielessä on lisäksi selkeä tavurakenne, joka on kuultavissa myös esimerkiksi foneemien painotuksessa. Tässä työssä rakennettiin joka tavulle oma mallinsa ja kokeiltiin, toimivatko nämä vielä trifonimallejakin paremmin. Mallien toimintaa verrattiin sekä jatkuvasta puheesta poimittujen yksittäisten sanojen että jatkuvan puheen tunnistuksessa. Jatkuvan puheen testit tehtiin sekä kielioppimallin kanssa että ilman. Puheaineistona käytettiin ääneen luettua kirjaa.