SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012 TTY/Signaalinkäsittelyn laitos Katariina Mahkonen
Kurssin sisältö? Miksi olet täällä? Mitä haluat oppia tällä kurssilla? Name/Title of the presentation to be changed on the master page 5.12.2007
Kurssijärjestelyt (2) Materiaali: Pääasiallisena materiaalina luentomoniste Osalla luentokerroista luentokalvot (Lisälukemista kaipaaville: kurssikirja T.F. Quatieri, Discrete-Time Speech Signal Processing: Principles and Practice, Prentice Hall PTR, 2002) Harjoitustehtävät (5 tehtävää / harjoituskerta) Tentissä pärjää osaamalla luentojen, harjoitusten, prujun ja kalvojen asiat Tähän toteutuskertaan liittyvät 3 tenttiä: 5.3.2012, 6.4.2012 ja viimeisen ajankohta on vielä avoin, mutta ilmestyy kyllä POP:iin aikanaan.
Harjoitusryhmät Ryhmät: Harjoitusryhmiin ei tarvitse ilmoittautua Pe 10-12, TC303 Pe 12-14, TC303 Harjoitusryhmiin ei tarvitse ilmoittautua
Harjoituskäytäntö Harjoituksia 5 x 2h = 10h (alkavat viikolla 50) Pisteitä jaossa kullakin kerralla 5p (eli yhteensä 25 p) Hyväksyttyyn tenttiin saa lisäpisteitä seuraavasti: 10 harjoituspistettä tai enemmän (40 %) => 1 piste 15 harjoituspistettä tai enemmän (60 %) => 2 pistettä 20 harjoituspistettä tai enemmän (80 %) => 3 pistettä l. arvosanan korotus Tehtäviä ei tarvitse ratkaista etukäteen, mutta on suositeltavaa tutustua tehtäviin ja käsiteltäviin aiheisiin ennen harjoituksiin tuloa.
Kurssi on aiempina toteutuskertoina sisältänyt: Jotakin ihmisen puheentuottoelimistöstä Artikulatorista fonetiikkaa eli äänteiden luokittelua Vähän fyysisestä puheentuoton mallintamisesta: suoran putken akustiikkaa Akustisten piirteiden signaalinkäsittelyllisiä määritysmenetelmiä: Lineaariprediktio, Autokorrelaatiomenetelmä Yleiskatsaus puhesynteesiin Name/Title of the presentation to be changed on the master page 5.12.2007
Matemaattisia esitietoja Osaatko vastata seuraaviin kysymyksiin? Mikä on suodattimen impulssivaste/taajuusvaste? Miten signaaleiden konvoluutio lasketaan? Mitä eroa on FIR- ja IIR-suodattimilla? Miten FFT lasketaan? Entä z-muunnos? Mitä ovat suodattimen nollat ja navat? Asioita voi kerrata esim. kurssin SGN-1200 prujusta
Mitä puheenkäsittely on? Tarkoittaa (loogisesti) puhesignaalin käsittelyä Sovelluksia: Koodaus (esim. matkapuhelimet) Tunnistus (puheesta tekstiksi) Synteesi (tekstistä puheeksi) Ehostus (laadun parannus) Muokkaus (muokataan äänestä toisenlainen) Puhujantunnistus (kuka puhuu) Käytetään signaalinkäsittelyn menetelmiä Fourier-muunnos, ikkunointi, autokorrelaatio,... Myös erityisesti puheelle soveltuvia menetelmiä LPC-analyysi, Markovin piilomallit, pitch-synchronous overlap-add,...
Puhesignaalinkäsittely on esimerkiksi: koodausta (esim. matkapuhelimet) laadun parantamista: ymmärrettävyys, häiriöiden poisto muokkausta (tehdään äänestä toisenlainen) syntetisointia (tekstistä puheeksi) puhujan tunnistusta (kuka puhuu) kielellisen sisällön tunnistus eli puheentunnistus (puheesta tekstiksi) Name/Title of the presentation to be changed on the master page 5.12.2007
Puheenkoodaus Digitaalisen puheen ‘pakkaaminen’ siirtoa tai tallennusta varten (esim. matkapuhelimissa), kaupallisesti tärkein puheenkäsittelyn sovellus Tavoitteet: Hyvä subjektiivinen laatu Pieni määrä bittejä Pieni viive Nopea laskenta Virhesietoinen Kestää useamman peräkkäisen koodauksen GSM-verkossa käytössä AMR (adaptive multirate)-puhekoodekki Bittinopeudet 4.75...12.2 kbps Käsitellään kurssilla SGN-4050 Puheenkoodaus
Laadun parannus Mitä on puheen laatu? -subjektiivista SNR (Signal to Noise Ratio) on melko huono mittari. Esimerkki: ABE – (Lähde: Juho Kontio, diplomityö, TKK 2004) Name/Title of the presentation to be changed on the master page 5.12.2007
Muokkaus Imitointi voice conversion Name/Title of the presentation to be changed on the master page 5.12.2007
Puhesynteesi Tekstistä puheeksi Tarvitaan tietoa puheesta ja kielestä Stephen Hawkins using TTS Puhesynteesi Tekstistä puheeksi Tarvitaan tietoa puheesta ja kielestä Useita eri lohkoja Tekstianalyysi: syntaktinen analyysi (subjekti, predikaatti yms.), numeroiden ja lyhenteiden laajennus Foneettinen analyysi: tekstistä foneemeiksi (ääntämyksen mukaiseen muotoon) Prosodia: painot, äänteiden kesto, f0:n generointi Synteesi: puhesignaalin generointi edellä olevan avulla Eri synteesimenetelmiä: Sääntöpohjainen synteesi (formanttisynteesi) Konkatenatiivinen synteesi (difonisynteesi, unit selection –synteesi) ’Tilastollinen parametrinen’ synteesi (HMM-pohjainen) Artikulatorinen synteesi
Puhujantunnistus Name/Title of the presentation to be changed on the master page 5.12.2007
Puheentunnistus Puheesta tekstiksi Pitkät perinteet mutta vieläkin osin ratkaisematon ongelma Perustuu todennäköisyyslaskentaan Millä todennäköisyydella = “a”? Myös kieli mallinnetaan tilastollisesti P(”melko todennäköinen lause”)? Nämä todennäköisyydet yhdistetään Käsitellään kursseilla SGN-4106 Speech Recognition ja SGN-4507 Speech Recognition Laboratory
Puheen tuottaminen ja sen mallintaminen Quatieri: Discrete –Time Speech Signal Processing Principles and Practice
Puheen tuottaminen ja sen mallintaminen Quatieri: Discrete –Time Speech Signal Processing Principles and Practice
Ikkunointi Puhetta käsitellään kehyksittäin (frame) eli ikkunoittain Toimii seuraavasti:
Sovellus: puheen perustaajuuden muuttaminen Idea: muutetaan puhujan perustaajuutta Nk. PSOLA-algoritmi (pitch-synchronous overlap-add): Etsitään puheen perustaajuus soinnillisista kohdista (ei helppoa) Otetaan jaksoja hitaammin tai tiheämmin Summataan jaksot
PSOLA
Praat: doing phonetics by computer Boersma, Paul & Weenink, David (2008). Praat: doing phonetics by computer (Version 5.0.42) [Computer program]. Retrieved November 26, 2008, from http://www.praat.org/ Käytetään viikon 02/2009 harkoissa (siis 3. harkoissa) Suomenkielinen Praat-opas: Mietta Lennes, Praat-opas 2004 http://www.helsinki.fi/puhetieteet/atk/praat/
Linkkejä MATLAB-oppaita: Praat: Fonetiikka: http://www.helsinki.fi/~mjlaine/matlab/ (suomenkielinen) http://www.helsinki.fi/~mjlaine/matlab/matlab-primer.html Praat: http://www.praat.org/ (ohjelma) http://www.helsinki.fi/puhetieteet/atk/praat/ (suomenkielinen opas) Fonetiikka: Suomenkilinen fonetiikkasanasto: http://www.opiskelijakirjasto.lib.helsinki.fi/fonterm/ IPA: http://www2.arts.gla.ac.uk/IPA/fullchart.html