Lataa esitys
Esittely latautuu. Ole hyvä ja odota
1
SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012
TTY/Signaalinkäsittelyn laitos Katariina Mahkonen
2
Kurssin sisältö? Miksi olet täällä? Mitä haluat oppia tällä kurssilla?
Name/Title of the presentation to be changed on the master page
3
Kurssijärjestelyt (2) Materiaali:
Pääasiallisena materiaalina luentomoniste Osalla luentokerroista luentokalvot (Lisälukemista kaipaaville: kurssikirja T.F. Quatieri, Discrete-Time Speech Signal Processing: Principles and Practice, Prentice Hall PTR, 2002) Harjoitustehtävät (5 tehtävää / harjoituskerta) Tentissä pärjää osaamalla luentojen, harjoitusten, prujun ja kalvojen asiat Tähän toteutuskertaan liittyvät 3 tenttiä: , ja viimeisen ajankohta on vielä avoin, mutta ilmestyy kyllä POP:iin aikanaan.
4
Harjoitusryhmät Ryhmät: Harjoitusryhmiin ei tarvitse ilmoittautua
Pe 10-12, TC303 Pe 12-14, TC303 Harjoitusryhmiin ei tarvitse ilmoittautua
5
Harjoituskäytäntö Harjoituksia 5 x 2h = 10h (alkavat viikolla 50)
Pisteitä jaossa kullakin kerralla 5p (eli yhteensä 25 p) Hyväksyttyyn tenttiin saa lisäpisteitä seuraavasti: 10 harjoituspistettä tai enemmän (40 %) => 1 piste 15 harjoituspistettä tai enemmän (60 %) => 2 pistettä 20 harjoituspistettä tai enemmän (80 %) => 3 pistettä l. arvosanan korotus Tehtäviä ei tarvitse ratkaista etukäteen, mutta on suositeltavaa tutustua tehtäviin ja käsiteltäviin aiheisiin ennen harjoituksiin tuloa.
6
Kurssi on aiempina toteutuskertoina sisältänyt:
Jotakin ihmisen puheentuottoelimistöstä Artikulatorista fonetiikkaa eli äänteiden luokittelua Vähän fyysisestä puheentuoton mallintamisesta: suoran putken akustiikkaa Akustisten piirteiden signaalinkäsittelyllisiä määritysmenetelmiä: Lineaariprediktio, Autokorrelaatiomenetelmä Yleiskatsaus puhesynteesiin Name/Title of the presentation to be changed on the master page
7
Matemaattisia esitietoja
Osaatko vastata seuraaviin kysymyksiin? Mikä on suodattimen impulssivaste/taajuusvaste? Miten signaaleiden konvoluutio lasketaan? Mitä eroa on FIR- ja IIR-suodattimilla? Miten FFT lasketaan? Entä z-muunnos? Mitä ovat suodattimen nollat ja navat? Asioita voi kerrata esim. kurssin SGN-1200 prujusta
8
Mitä puheenkäsittely on?
Tarkoittaa (loogisesti) puhesignaalin käsittelyä Sovelluksia: Koodaus (esim. matkapuhelimet) Tunnistus (puheesta tekstiksi) Synteesi (tekstistä puheeksi) Ehostus (laadun parannus) Muokkaus (muokataan äänestä toisenlainen) Puhujantunnistus (kuka puhuu) Käytetään signaalinkäsittelyn menetelmiä Fourier-muunnos, ikkunointi, autokorrelaatio,... Myös erityisesti puheelle soveltuvia menetelmiä LPC-analyysi, Markovin piilomallit, pitch-synchronous overlap-add,...
9
Puhesignaalinkäsittely on esimerkiksi:
koodausta (esim. matkapuhelimet) laadun parantamista: ymmärrettävyys, häiriöiden poisto muokkausta (tehdään äänestä toisenlainen) syntetisointia (tekstistä puheeksi) puhujan tunnistusta (kuka puhuu) kielellisen sisällön tunnistus eli puheentunnistus (puheesta tekstiksi) Name/Title of the presentation to be changed on the master page
10
Puheenkoodaus Digitaalisen puheen ‘pakkaaminen’ siirtoa tai tallennusta varten (esim. matkapuhelimissa), kaupallisesti tärkein puheenkäsittelyn sovellus Tavoitteet: Hyvä subjektiivinen laatu Pieni määrä bittejä Pieni viive Nopea laskenta Virhesietoinen Kestää useamman peräkkäisen koodauksen GSM-verkossa käytössä AMR (adaptive multirate)-puhekoodekki Bittinopeudet kbps Käsitellään kurssilla SGN-4050 Puheenkoodaus
11
Laadun parannus Mitä on puheen laatu? -subjektiivista SNR (Signal to Noise Ratio) on melko huono mittari. Esimerkki: ABE – (Lähde: Juho Kontio, diplomityö, TKK 2004) Name/Title of the presentation to be changed on the master page
12
Muokkaus Imitointi voice conversion
Name/Title of the presentation to be changed on the master page
13
Puhesynteesi Tekstistä puheeksi Tarvitaan tietoa puheesta ja kielestä
Stephen Hawkins using TTS Puhesynteesi Tekstistä puheeksi Tarvitaan tietoa puheesta ja kielestä Useita eri lohkoja Tekstianalyysi: syntaktinen analyysi (subjekti, predikaatti yms.), numeroiden ja lyhenteiden laajennus Foneettinen analyysi: tekstistä foneemeiksi (ääntämyksen mukaiseen muotoon) Prosodia: painot, äänteiden kesto, f0:n generointi Synteesi: puhesignaalin generointi edellä olevan avulla Eri synteesimenetelmiä: Sääntöpohjainen synteesi (formanttisynteesi) Konkatenatiivinen synteesi (difonisynteesi, unit selection –synteesi) ’Tilastollinen parametrinen’ synteesi (HMM-pohjainen) Artikulatorinen synteesi
14
Puhujantunnistus Name/Title of the presentation to be changed on the master page
15
Puheentunnistus Puheesta tekstiksi
Pitkät perinteet mutta vieläkin osin ratkaisematon ongelma Perustuu todennäköisyyslaskentaan Millä todennäköisyydella = “a”? Myös kieli mallinnetaan tilastollisesti P(”melko todennäköinen lause”)? Nämä todennäköisyydet yhdistetään Käsitellään kursseilla SGN-4106 Speech Recognition ja SGN-4507 Speech Recognition Laboratory
16
Puheen tuottaminen ja sen mallintaminen
Quatieri: Discrete –Time Speech Signal Processing Principles and Practice
17
Puheen tuottaminen ja sen mallintaminen
Quatieri: Discrete –Time Speech Signal Processing Principles and Practice
18
Ikkunointi Puhetta käsitellään kehyksittäin (frame) eli ikkunoittain
Toimii seuraavasti:
19
Sovellus: puheen perustaajuuden muuttaminen
Idea: muutetaan puhujan perustaajuutta Nk. PSOLA-algoritmi (pitch-synchronous overlap-add): Etsitään puheen perustaajuus soinnillisista kohdista (ei helppoa) Otetaan jaksoja hitaammin tai tiheämmin Summataan jaksot
20
PSOLA
21
Praat: doing phonetics by computer
Boersma, Paul & Weenink, David (2008). Praat: doing phonetics by computer (Version ) [Computer program]. Retrieved November 26, 2008, from Käytetään viikon 02/2009 harkoissa (siis 3. harkoissa) Suomenkielinen Praat-opas: Mietta Lennes, Praat-opas
22
Linkkejä MATLAB-oppaita: Praat: Fonetiikka:
(suomenkielinen) Praat: (ohjelma) (suomenkielinen opas) Fonetiikka: Suomenkilinen fonetiikkasanasto: IPA:
Samankaltaiset esitykset
© 2024 SlidePlayer.fi Inc.
All rights reserved.