University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Puheteknologian tutkimus Joensuussa Pasi Fränti Tietojenkäsittelytieteen laitos Joensuun yliopisto
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Joensuun yliopisto Perustettu kampusta: Joensuu, Savonlinna 6 tiedekuntaa, 9 muuta yksikköä Yhteensä 7200 opiskelijaa
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Tietojenkäsittelytiede 5 professoria, kokonaishenkilöstö FM-tutkintoa (v. 2002) 3-5 Väitöskirjaa (2004--) 80 uutta perusopiskelijaa ja 20 kansainvälistä maisteriopiskelijaa. Ohjelmistosuunnittelijoiksi, erikoisalojen asiantuntijoiksi, tietotekniikan kouluttajiksi.
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Laitoksen kehitys
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Päätutkimusalat Ohjelmistotuotanto Opetusteknologia Signaalinkäsittely –Spektrikuvat (InFotonics Center) –Hahmontunnistus –Kuva-analyysi –Data Mining –Puheteknologia
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Julkaisut
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Puheteknologian tutkimus Joensuussa yleisen kielitieteen ja tietojenkäsittelytieteen yhteistyötä Kielitiede: perustutkimusta, fonetiikka, prosodia, synteesi, puhujantunnistus TKT: puhetekniikan menetelmät –Hahmontunnistusmenetelmät –Datafuusio –Automaattinen tunnistus, reaaliaikaisuus –TKT:lla osaamista myös suomenkielisessä puheentunnistuksessa
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Historia SUOPUHE-projekti –Kielitiede mukana –Tulos: laadukas suomen puhesynteesi TKT:lla yllättäviä tuloksia: –puhujantunnistus onnistuu automaattisilla menetelmillä, ilman lingvistiikkaa –Useita graduja: Kinnunen (’99), Kilpeläinen (’02), Karpov (’03), Pulkrabek (’03). –Väitöskirjatason tutkimusta: Kinnunen ja Karpov sekä muita sivuavista aiheista.
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Mistä puhe koostuu? Sisältö: puhujan tarkoittama viesti Puhujan ominaisuudet: ääntöväylä, puhetapa Siirtoväylä: Puheympäristön akustiikka, sähköiset laitteet Aikariippuvat puhujaparametrit: tunnetila, terveydentila Kieli, murre
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Mitä on puhetekniikka? Puhesynteesi Puheentunnistus Puhujantunnistus Puhujan tunnetilan tunnistus Sovellukset –sähköpostinlukijat, puheohjaus, henkilövarmennus, rikostutkinta, näkö- ja kuulovammaisten palvelut
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Puhesignaalin analyysi Yleisesti käytetty menetelmä: –digitaalisesta puhesignaalivirrasta lasketaan jatkuvasti lokaaleja spektrejä –spektrien käyttö riippuu sovelluksesta –usein spektriä jalostetaan edelleen helpommin numeerisesti analysoitavaksi Muitakin menetelmiä on: –suodatus ja analyysi aika-alueessa –perustaajuuden ja formanttien mallintaminen
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Puhujantunnistus Mallinnetaan puhujan ominaisuudet –signaalista etsitään ja mallinnetaan puhujia erottelevia ominaisuuksia –muut ominaisuudet sivuseikka Mallin avulla päätellään kuka puhui –puhujantunnistus –puhujanvarmennus Opetusaineisto: puhenäytteitä puhujilta joita halutaan tunnistaa
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Puhujantunnistus: pääpiirteet Piirreirrotus ? Hahmontunnistus Päätöslogiikka Tunnistustulos / Varmennustulos PiirreirrotusMallin luonti Puhujatietokanta... Puhuja N Opetus Tunnistus Puhuja 1
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Esimerkki: Spektrit Tunnistus: kuka puhuu tässä? “Puhetietokanta”
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Ongelma: puhujakohtainen vaihtelu
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Signaalivirran käsittely Kehys 1 Kehys 2 Kehys iKehys 3 Kehyksen pituus Päällekkäisyys Ikkunafunkio... Piirrevektori x i Spektrianalyysi Piirreirrotus
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Esimerkki piirrejoukkoista Vektorikvantisointi (VQ) Gaussin mikstuura (GMM)
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Puhujaprofiilin muodostuminen
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Mallien vertailu Kahden puhujan vertailu: piirrejakaumien vertailu Lasketaan diskreettien jakaumien etäisyyksiä Puhujan no. 1 piirrevektorit Puhujan no. 2 piirrevektorit Puhujan no. 3 piirrevektorit tunnistettava puhuja
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Painotettu luokittelu Kullekin piirrevektorille annetaan painoarvo erottelukyvyn mukaan ”Huonoja” ”Hyviä” vektoreita puhujan #2 erotteluun ”Hyviä” vektoreita puhujan #1 erotteluun
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Puhujien karsinta Tehostaa tunnistusta reaaliaikasovelluksiin
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Piirrefuusio Parantaa tunnistustarkkuutta
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Akustiikan vaikutus Petkuttajan piirrejakauma Todellisen puhujan piirrejakauma Score Frekvenssi Päätösraja Laboratorio-oloissa nauhoitettu opetusaineisto Score Frekvenssi Meluisa käyttöympäristö HyväksyttyHylätty Todellisen henkilön piirrejaauma Petkuttajan piirrejakauma Seuraus: kaikki puhujat hyväksytään! Nykymenetelmillä esimerkiksi käyttöympäristön vaihtelu on ongelma Joensuussa tutkitaan kuinka tästä voidaan päästään eroon
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Puheentunnistus Mallinnetaan puheen sisältö –Samat spektripohjaiset signaalinkäsittelyn menetelmät kuin puhujantunnistuksessa. –Spektrien luokittelu Markov-ketjun tiloihin sanoina tai äänteinä (monofoni tai trifoni) –Tarvitaan kielimalli, joka rajoittaa tilasiirtymiä Opetusaineisto: paljon puhetta –vähintään sana-annotointi –paljon puhujia => puhujariippumaton puheentunnistin –vähän puhujia => puhujariippuva tunnistin
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax PUMS-projekti Puhetekniikan Uudet Menetelmät ja Sovellukset ( ) Tekes-projekti, jossa useita yritys- ja yhteisöosapuolia, korkeakouluista TTY, TY, TKK, TaY, HY, JoY, sekä VTT. 1. vuosi: Joensuussa kaksi henkilö- työvuotta puhujantunnistukseen. On-line tunnistus (Nokia, Lingsoft) 1,5 v. Off-line tunnistus (ProfMatch) 0,5 v.
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Projektin tavoitteet Totetuttaa tehokkaimmat puhujantunnistustekniikat –Puhujaprofiilien hallinta sekä puhujantunnistus –Signaali: kepstrit, Delta-kert, CMS, optimisuodinpankki –Profiilitietokanta ja luokittelumenetelmät: VQ, GMM Toteutuksen siirto yhteistyötahojen sovellusalustoille –PC-ohjelmisto: puhujaprofiilien hallinta ja tunnistus –Matkapuhelimessa toimiva puhujantunnistus Systemaattinen testaus eri käyttöoloissa ja laitteissa Pitkällä aikavälillä uusia tehokkaampia menetelmiä –Eri piirteiden yhtaikainen käyttö (fuusio) –Segmentoinnin hyödyntäminen: erotteleva piirreirrotus –Optimaalisesti erottelevat opetus-ja tunnistusmenetelmät –Kunnollinen luotettavuusestimaatti puhujanvarmennukseen –Reaaliaikasovellukset
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Tutkimusryhmä Pasi FräntiJuhani SaastamoinenEvgeny Karpov Ville HautamäkiTomi KinnunenIsmo Kärkkäinen
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Kehitettävät ohjelmistot Profmatch –PC-ohjelmisto (ANSI-C konsoli) –Perusalgoritmit off-line tunnistukseen ja kehittyneempiä menetelmiä kuten piirrefuusio Sprofiler –PC-ohjelmisto (ANSI-C konsoli), mikrofonituki –profiilitietokannan hallinta, on-line tunnistus –sisältää kehittyneempiä menetelmiä kuten karsinta Uudet ohjelmat reaaliaikatunnistukseen –Windows, ”Sprofiler-yhteensopiva”
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax DB small Entry Level Top of the Line DB large FE UI ID CLASS. Technology Components ID = Identification technology, consists of CLASS.: Speaker Modeling and Classification F.E.: Feature Extractor DB = Speaker Model Database U.I. = User Interface CLIENT Media UI FE Part of application SERVER Speaker Modeling and Classification Speaker Database Part of application ClientServer TCP/IP Application Concepts
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Mahdollisuudet ja haasteet Puhujantunnistuksen teknologiasiirto PUMS-projektin puitteissa. Periaatteessa muut tunnistustehtävät: puhujaryhmä, mielentila, kulttuuritausta, akustinen tausta Puheentunnistus –Osaamispohja löytyy –Samat signaalinkäsittelymenetelmät –Rajoittuminen suomenkieleen helpottaa
University of Joensuu Dept. of Computer Science P.O. Box 111 FIN Joensuu Tel fax Yhteystiedot Web: