Viime kerralta: Puheentuotto (vokaalit)

Slides:



Advertisements
Samankaltaiset esitykset
Kehäantennit Looppi, silmukka
Advertisements

KuvatyypittMyn1 Kuvatyypit •MPEG-2 käyttää kolmen tyyppisiä kuvia. •Kuvatyyppejä kutsutaan I, P ja B-kuviksi. •Kuva voi olla joko kehys (frame) tai kenttä.
Polynomifunktiot MA 02 Läsnäolovelvollisuus Poissaolojen selvitys
LPC LPCC PLP LSP/LSF Matemaattinen kikka Levinson-Durbin algoritmi
2. Terveyteen vaikuttavat tekijät
Robust LQR Control for PWM Converters: An LMI Approach
lämpöoppia eri lämpötila, eri aineet, loppulämpötila?
Lineaarisia malleja.
5.1. Tason yhtälö a(x – x0) + b(y – y0) + c(z – z0) = 0
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä 10 – Juho Kokkala Optimointiopin seminaari - Syksy 2010 Kernel-tasoitus.
LPC LPCC PLP MFCC LSP/LSF Δ ΔΔ Matemaattinen kikka Levinson-Durbin
Estimointi Laajennettu Kalman-suodin
Esaimaa.fi SPOT®- kävijäprofiilitutkimusraportti Maaliskuu 2014.
ATTRIBUUTTITARKASTUS
Sensorifuusio Jorma Selkäinaho.
Langattomien laitteiden matematiikka 1
Duaali Teemu Myllynen.
S Laskennallinen tiede Tentit ja uusinta Arvostelu Kertausta tenttiin Palaute.
Puhesignaalin analysointi = akustinen fonetiikka
SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 4
AS Automaation signaalinkäsittelymenetelmät
Elinkeinopoliittinen mittaristo 2014 Pelkosenniemi 1.
Elinkeinopoliittinen mittaristo 2014 Kemi 1. ELINKEINOPOLITIIKAN TILA 2.
1 Senioreiden säästäminen ja maksutavat 2014 SENIOREIDEN SÄÄSTÄMINEN JA MAKSUTAVAT
KANNANVAIHTO?.
Kertausta: lähde-suodin –malli
1.5. Trigonometriset yhtälöt
TMA.003 / L3 ( )1 3. Funktioista 3.1. Kuvaus ja funktio Olkoon A ja B ei-tyhjiä joukkoja. Tulojoukon A  B = {(x,y) | x  A, y  B} osajoukko on.
Elinkeinopoliittinen mittaristo 2014
Mittaustekniikka (3 op)
1.2.1 KÄÄNTEISFUNKTIO JA SEN KUVAAJA
TARJOAMINEN 1HS Tarjoussysteemi 5533 tarkoittaa avauksia viiden kortin yläväreillä ja kolmen kortin alaväreillä Tarkennuksena 1♦ avaus voi olla 3 k. vain.
1.1. Itseisarvo * luvun etäisyys nollasta E.2. Poista itseisarvot
FY 9 kurssi Kokeessa saa olla A4 molemmin puolin täytettynä
UMF I Luento 2. Aika Luennot, Klo 14–16 to 4.9 – ke 10.9 ke 24.9 – ke 1.10 ke – pe Demot, Klo 10–12/12–14/14–16 Pe 12.9, Ti 16.9, Pe 19.9.
1.a) f(x) = 2x(x2 – 3) = 0 2x = tai x2 – 3 = 0 x = tai x2 = 3
Suuntaamattoman graafin syvyyshaku
Seinäjoki kisa A Tuomari: Tytti Lintenhofer ALO 12kyl, 4pys Kyl:
Tietovuokaaviot (ei osa UML-kieltä)
Aritmeettinen jono jono, jossa seuraava termi saadaan edellisestä lisäämällä sama luku a, a + d, a+2d, a +3d,… Aritmeettisessa jonossa kahden peräkkäisen.
Aritmeettinen jono jono, jossa seuraava termi saadaan edellisestä lisäämällä sama luku a, a + d, a+2d, a +3d,… Aritmeettisessa jonossa kahden peräkkäisen.
Metodit – Arvotyyppi Ellei metodi palauta arvoa, sen arvotyyppi on void Tällöin ”return;”-lauseke ei ole metodissa pakollinen, vaikka sen käyttö on sallittua.
Aikasarja-analyysin perusteet
1. Usean muuttujan funktiot
3.2 Kompleksisuus Vain pieni osa kaikista tehtävistä on laskettavissa tai edes osittainkaan laskettavissa. Laskettavien osalta saattaa olla tarpeellista.
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä 18 – Otto Sormunen Optimointiopin seminaari - Syksy 2010 Tukivektorikoneet.
PARAABELI (2. ASTEEN FUNKTION KUVAAJIA)
Muuttujien riippuvuus
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä # - Esitelmöijän nimi Optimointiopin seminaari - Syksy 2010 Lineaarinen.
lineaarinen regressio
5. Lineaarinen optimointi
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 9 - Jaakko Niemi Optimointiopin seminaari - Syksy 2005 / 1 Virittäminen (Tuning) s
4. Optimointia T
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä 17 – Tuomas Nummelin Optimointiopin seminaari - Syksy 2010 Tukivektorikoneet.
Visual Basic -ohjelmointi
Menetelmä Markowitzin mallin parametrien estimointiin (aihe-esittely)
Liike Nopeus ja kiihtyvyys.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 2 - Jirka Poropudas Optimointiopin seminaari - Kevät 2005 / 1 Bayes-verkoista s
Tilastollisesti merkitsevä nousu Tilastollisesti merkitsevä lasku Edelliseen aineistoon KMT 2005 verrattuna* KMT Kevät06 puolivuosiaineisto KMT SYKSY05/KEVÄT06.
Kuinka monenteen diaan asti pysyt perässä? Koita sanoa ääneen monennessako diassa olet ja minkä värinen sen tausta on. Jos sinulla on kaveri vieressä,
Visual Basic -ohjelmointi
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Ohjaamaton oppiminen– Heikki Vesterinen Optimointiopin seminaari - Syksy 2010 Ohjaamaton.
5. Fourier’n sarjat T
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä 22 – Jussi Kangaspunta Optimointiopin seminaari - Syksy 2010 Ohjaamaton.
5. Datan käsittely – lyhyt katsaus Havaitsevan tähtitieteen peruskurssi I, luento Thomas Hackman.
Audiosignaalinen käsittely / Kari Jyrkkä1 Sisältö: –Lineaariprediktioon perustuvan puheenkooderin ja dekooderin toteutus projektityönä Puhesignaalin.
Kritiikin alkulähteillä
14. Hyvä ohjelmointitapa.
Signaalit ja järjestelmät aika- ja taajuusalueissa
5. Lisää sovellettavuutta
Esityksen transkriptio:

Viime kerralta: Puheentuotto (vokaalit) Soinnillinen glottisheräte Ääntöväylä Suodatuksen tuloksena syntyvä ääni

Viime kerralta: Kelly-Lochbaum –yhtälöt Mallinnetaan ääntöväylää tasapaksujen putkien avulla:

Viime kerralta: Ristokkorakenteinen all pole -suodin Kelly-Lochbaum –yhtälöiden mukainen ristikkorakenteinen suodin on all-pole –tyyppinen, eli sen siirtofunktiossa on ainoastaan napoja (=nimittäjän A(z) nollakohtia)

Lineaariset systeemimallit Käytetty lineaarinen malli voidaan rajoittaa joksikin seuraavista: Autoregressiivinen liukuvan keskiarvon malli (ARMA) Vastaa yleistä lineaarista rekursiivista suodinta Liukuvan keskiarvon malli (MA, moving average) Vastaa FIR-suodinta Autoregressiivinen malli (AR, autoregressive) Vastaa all-pole –suodinta

AR-mallista Lineaariprediktioon Edellä käsitelty ristikkorakenteinen malli ääntöväylälle on all-pole –suodin niin kuin myös AR-malli on all-pole –suodin => Valitaan AR-malli ääntöväylämalliksi Lineaariprediktio-analyysin (LP-analysis) avulla voidaan signaalista määrittää sen AR-mallin parametrit. => Lineaarinen ennustus on hyvä menetelmä ääntöväylän parametrien estimointiin => Lineaarinen ennustus on yksi tärkeimmistä puheenkäsittelyn työkaluista - Lyhenne LP (linear prediction), LP-analysis, LPC (linear predictive coding) - Puheenkäsittelyn kannalta LP:n tärkein ominaisuus on sen kyky mallintaa ääntöväylää

Mitä on lineaarinen ennustus? LP-analyysillä etsitään suodinkertoimet, jotka parhaiten ennustavat signaalin näytteitä AR-mallin mukaisesti: Ennustussuotimen kertoimet valitaan siten, että neliöllinen ennustusvirhe minimoituu analysoitavassa ikkunassa, kun x(n)==0: Kannattaa pitää mielessä, että puhetta käsitellään lyhyissä kehyksissä ja LP-analyysi tehdään n. 10-30 ms välein, osittain päällekkäisistä kehyksistä

Esimerkki: Vokaalin amplitudi- ja LP-spektri Ikkunan pituus sekunteina: 480/16kHz = 30ms

Valitaan AR-malli puheesignaalin systeemimalliksi Tyypillisesti puheenkäsittelyssä käytetään AR-mallia, sillä Syötettä ei tunneta (kurkunpää-ääni) AR-mallin parametrit a(k) pystytään laskemaan tehokkaasti Ääntöväylä on (tietyillä oletuksilla) teoreettisesti all-pole –suodin Korkeampiasteisella AR-mallilla voidaan mallintaa myös yleistä ARMA-mallia

AR-mallin parametrien määrittäminen Lineaariprediktion avulla All-pole –järjestelmän siirtofunktio on: missä g on vakio, ja Aikatason differenssiyhtälönä järjestelmän ulostulo lasketaan: missä x(n) on syöte, y(n) vaste ja a(1),a(2),...,a(p) suotimen A(z) kertoimet All-pole –järjestelmän ulostulo voidaan ennustaa täydellisesti mikäli sisäänmeno ja ulostulon aiemmat arvot tunnetaan. Käytännössä järjestelmät eivät yleensä ole täysin lineaarisia eivätkä täysin all-pole –tyyppisiä.

AR-mallin parametrien määrittäminen Lineaariprediktion avulla (2) Puheenkäsittelyn tapauksessa järjestelmän sisäänmeno ei myöskään ole tiedossa  Jätetään riippuvuus sisäänmenosta x(n) pois ja tehdään ennustus pelkän ulostulon perusteella Ulostulon estimaatti: Tavoite: määrittää parametrit a(1),a(2),...,a(p) siten että ennuste ŷ(n) olisi mahdollisimman lähellä todellista ulostuloa (mitattua puhetta) y(n) Muistutus: Puhetta käsitellään kehyksittäin, eli y(n) on muutamien kymmenien millisekuntien mittainen ikkunoitu puhekehys

Parametrien a(1),a(2),...,a(p) estimointi Tehtävänä on määrittää parametrit a(1),a(2),...,a(p) Tämä tehdään yleensä niin, että ulostulon ja ennustuksen neliövirheiden summa minimoituu: Summa on äärellinen (y(n) on äärellisen mittainen signaalikehys) Koska kyseessä on puhekehys, käytetään jatkossa ulostulosta y(n) merkintää s(n)

Parametrien a(1),a(2),...,a(p) estimointi (2) Ennustuskertoimilla a(1),a(2),...,a(p) (ennustavan suotimen pituus p) ennustusvirheen energiaksi saadaan Määritellään, että a(0) = 1, jolloin virheen energia voidaan kirjoittaa muodossa

Parametrien a(1),a(2),...,a(p) estimointi (3) Välttämätön ehto kertoimen a(i) optimaalisuudelle on, että funktion Ep osittaisderivaatta a(i):n suhteen on nolla Ep :n osittaisderivaatta muuttujan a(i) suhteen (i = 1,2,...,p) on

Autokorrelaatio Esitetään edellinen virhefunktion derivaattalauseke autokorrelaatiofunktion avulla: missä

Autokorrelaatioyhtälöt Palataan derivoinnin tulokseen (derivointi kertoimien a(1),a(2),...,a(p) suhteen): Ennustusvirheen energian derivaattojen nollakohdiksi saadaan : a(0)= 1 r(–n) = r(n)

Autokorrelaatioyhtälöt(2) Kun edelliseen matriisiyhtälöön lisätään vielä yhtälö saadaan: jolloin kerroinmatriisi R on symmetrinen, koska r(k) = r(–k) Toeplitz (eli kaikilla diagonaaleilla on sama arvo), koska r(k,i) = r(k–i) Tämä on olennaista, kun etsitään nopeaa ratkaisumenetelmää

???? Todistetaan, että optimaalisilla a-kertoimilla : sillä

??? (2) ja edelleen: Eli:

Levinson-Durbin rekursiivinen algoritmi Ennustuskertoimet a(1),a(2),...,a(p) voitaisiin ratkaista suoraan edellä johdetuista yhtälöistä. Tämä on kuitenkin työlästä. Tehokas algoritmi Toeplitz-tyyppisen matriisiyhtälön ratkaisemiseen on:  Levinson-Durbin rekursiivinen algoritmi Ideana on ratkaista matriisiyhtälö lohkoittain kasvattamalla matriisin R kokoa ja vektorin x pituutta ja laskemalla uusi ratkaisu edellisten avulla

Levinson-Durbin -rekursio p=0: p=1: p=2 …jne…

Huomioita Levinson-Durbin algoritmista Levinson-Durbin –algoritmin -muuttujat ovat vastaavan putkimallin heijastuskertoimia! Virheen energia pienenee, kun ennustussuotimeen lisätään kertoimia: tod.: koska on aina positiivinen, samoin , näin ollen 𝑘 𝑛

Mallin asteen valinta (1) Formantteja on yleensä yksi yhtä kHz:ä kohti Mallin asteeksi p otetaan yleensä näytteenottotaajuus kHz:nä Esim. Näytteenottotaajuus 8kHz → mallin asteeksi valittaisiin 8 Näytteenottotaajuus 16kHz → mallin asteeksi valittaisiin 16 Mallin epätarkkuuksien kompensoimiseksi valitaan kuitenkin yleensä hieman korkeampi aste Esim. Näytteenottotaajuus 8kHz → mallin asteeksi valittaisiin 10 tai 12 Näytteenottotaajuus 16kHz → mallin asteeksi valittaisiin 18 tai 20

Mallin asteen valinta (2) Esimerkki: Otetaan lyhyt pätkä y-äännettä (näytteenottotaajuus 16kHz) ja ikkunoidaan se pehmeällä ikkunalla Ratkaistaan seuraavaksi ennustuskertoimet eriasteisilla malleilla ja tutkaillaan saatujen LP-suodinten spektrejä

Mallin asteen valinta (3) Näytteenottotaajudella 16kHz hyvä valinta mallin asteeksi olisi 18, mitä tapahtuu, jos valitaan liian pieni tai suuri aste?

Mihin LP-analyysiä käytetään? PUHEENKOODAUS: mahdollistaa herätteen ja ääntöväylän koodamiseen erikseen PUHEENTUNNISTUS: tarjoaa tietoa äänteen spektristä (ja näin ollen myös äänteestä) PUHESYNTEESI: mahdollistaa herätteen ja ääntöväylän ohjaamiseen erikseen MATLABissa LP-analyysi onnistuu komennolla lpc