Kertausta: lähde-suodin –malli

Slides:



Advertisements
Samankaltaiset esitykset
Yleistä Läsnäolovelvollisuus Poissaolojen selvitys Käyttäytyminen
Advertisements

Viime kerralta: Puheentuotto (vokaalit)
Polynomifunktiot MA 02 Läsnäolovelvollisuus Poissaolojen selvitys
LPC LPCC PLP LSP/LSF Matemaattinen kikka Levinson-Durbin algoritmi
Äänen ominaisuudet Class 7D in Helsingin normaalilyseo
M-ary Frequency Shift Keying Timo Mynttinen1 M-ary Frequency Shift Keying •M-ary FSK on suuren mielenkiinnon kohteena verrattuna binaariseen FSK:hon. •Parempi.
Toimintaohjeet opelle
Robust LQR Control for PWM Converters: An LMI Approach
5.1. Tason yhtälö a(x – x0) + b(y – y0) + c(z – z0) = 0
LPC LPCC PLP MFCC LSP/LSF Δ ΔΔ Matemaattinen kikka Levinson-Durbin
Estimointi Laajennettu Kalman-suodin
Työ (W) Voima tekee työtä kun se vaikuttaa liikkuvaan kappaleeseen liikkeen suunnassa Työn suuruus saadaan pistetulon avulla: W on voiman F tekemä työ.
Tiedonsiirronperusteet
Äänen koodaus tietoliikenteessä Puhekoodekit
Tavoite Oppia seuraavat asiat •Yksikkö Beli, desibeli •Analoginen signaali •Digitaalinen signaali •Diskreettiaikainen signaali.
Äänen pakkaaminentMyn1 Äänen pakkaaminen •Äänen enkoodaaminen ja mahdollinen pakkaaminen on ratkaistava jotenkin monissa arkipäivän sovelluksissa ja tuotteissa:
Sensorifuusio Jorma Selkäinaho.
Epätäydellinen data & herkkyysanalyysi Mat Optimointiopin seminaari Kevät 2013 Kotitehtävä 9 - Ratkaisu Ilkka Lampio Työn saa tallentaa.
Langattomien laitteiden matematiikka 1
Derivaatta MA 07 Derivaatta tarkoittaa geometrisesti käyrälle piirretyn tangentin kulmakerrointa.
Kalakantojen arviointi: poistopyynti
Puhesignaalin analysointi = akustinen fonetiikka
SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 4
AS Automaation signaalinkäsittelymenetelmät
AS , Automaation signaalinkäsittelymenetelmät Laskuharjoitus 3
Tässä kerron ja näytän, mitä minä olen tehnyt ATK tunnilla 9lk:lla.
Taylor polynomi usean muuttujan funktiolle
KANNANVAIHTO?.
1.5. Trigonometriset yhtälöt
TMA.003 / L3 ( )1 3. Funktioista 3.1. Kuvaus ja funktio Olkoon A ja B ei-tyhjiä joukkoja. Tulojoukon A  B = {(x,y) | x  A, y  B} osajoukko on.
RSA – Julkisen avaimen salakirjoitusmenetelmä Perusteet, algoritmit, hyökkäykset Matti K. Sinisalo, FL.
Tiedon esittäminen.
Digitaalinen kuvankäsittely
Murtoyhtälöt - Yhtälö, jossa nimittäjässä tuntematon
Aikasarja-analyysin perusteet
Vaihemodulaatio Vaihemodulaatio ja taajuusmodulaatio muistuttavat suuresti toisiaan. Jos moduloidaan kantoaallon vaihekulmaa, niin samalla tullaan moduloiduksi.
Ääni ja kuuleminen Kuuloaisti toimii ihmisellä jo sikiövaiheessa.
Elliptiset jakaumat Esitys 6 kpl Tuomas Nikoskinen Työn saa tallentaa ja julkistaa Aalto-yliopiston avoimilla verkkosivuilla. Muilta.
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä 18 – Otto Sormunen Optimointiopin seminaari - Syksy 2010 Tukivektorikoneet.
1 5. Atomin rakenne Vetyatomi Ulkoisten kenttien aiheuttama energiatasojen hajoaminen, Zeemanin ilmiö Elektronin spin Monen elektronin atomit Röntgensäteilyn.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Tiina Turunen Optimointiopin seminaari - Kevät 2005 / 1 Tiedon louhinta osa II Miten optimoinnin.
PARAABELI (2. ASTEEN FUNKTION KUVAAJIA)
Muuttujien riippuvuus
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä # - Esitelmöijän nimi Optimointiopin seminaari - Syksy 2010 Lineaarinen.
5. Lineaarinen optimointi
PSK - Phase Shift Keying Timo Mynttinen1 PSK-Phase Shift Keying PSK:ssa informaatio koodataan moduloidun signaalin hetkelliseen vaihekulmaan. Tavallisesti.
Rinnakkaisuus Järjestelmässä, jossa voi olla useita prosesseja rinnakkain suorituksessa voi tulla tilanteita, joissa prosessien suoritusta täytyy kontrolloida.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 9 - Jaakko Niemi Optimointiopin seminaari - Syksy 2005 / 1 Virittäminen (Tuning) s
4. Optimointia T
Komponenttikaavio Lehtonen Iiro, Janne Liikka
Menetelmä Markowitzin mallin parametrien estimointiin (aihe-esittely)
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Ohjaamaton oppiminen– Heikki Vesterinen Optimointiopin seminaari - Syksy 2010 Ohjaamaton.
5. Fourier’n sarjat T
Paraabelin huippu Paraabelin huippu
3.3. Käyrän tangentti ja normaali
ÄÄNI.
Äänen käsittely.
Radiotaajuuksien generointimenetelmä Markus Hiltunen Ohjaaja: Kai Virtanen Valvoja: Kai Virtanen Työn saa tallentaa ja julkistaa Aalto-yliopiston.
5. Datan käsittely – lyhyt katsaus Havaitsevan tähtitieteen peruskurssi I, luento Thomas Hackman.
Amplitudimodulaatio Amplitudimodulaatiossa moduloiva signaali muuttaa kantoaallon voimakkuutta eli amplitudia. Kantoaallon taajuus pysyy koko ajan samana.
Lineaariset regressiomenetelmät
Kritiikin alkulähteillä
1 Termodynaaminen systeemi
Bayes-päättelyn kertausta
Äänen ominaisuuksia Kaiku syntyy, kun ääni heijastuu kovasta ja tasaisesta pinnasta. Ominaistaajuus on taajuus, jolla esine värähtelee parhaiten. Resonanssi.
ArcGIS 9.1 Spatial Analyst -laajennusosio
Spektri- ja signaalianalysaattorit
Mittarit – mitä ja miten mitata
Signaalit ja järjestelmät aika- ja taajuusalueissa
Ylinäytteistetyt A/D-muuntimet
Esityksen transkriptio:

Kertausta: lähde-suodin –malli Puhesignaalia voidaan mallintaa lähde-suodin –systeemin avulla Järjestelmän syötteenä x(n) on kurkunpää-ääni ja ulostulona y(n) mitattu puhesignaali X(z) H(z) Y(z)

Kertausta: lineaarinen ennustus Lineaarinen ennustus on yksi tärkeimmistä puheenkäsittelyn työkaluista Lyhenne LP (linear prediction) tai LPC (linear predictive coding) Puheenkäsittelyn kannalta LP:n tärkein ominaisuus on sen kyky mallintaa ääntöväylää Ideana ennustaa puhesignaalin seuraavaa näytettä edellisten näytteiden ja lineaarisen suotimen avulla (edellisten näytteiden lineaarikombinaationa) Aiemmin käsitelty ristikkorakenteinen malli ääntöväylälle on all-pole –suodin > Lineaarinen ennustus on hyvä menetelmä suotimen parametrien estimointiin

Kertausta: lineaarinen ennustus Ääntöväyläsuotimelle voidaan käyttää mallia (all-pole –suodin) All-pole –järjestelmän ulostulo voidaan ennustaa täydellisesti mikäli sisäänmeno ja ulostulon aiemmat arvot tunnetaan. Etsitään aproksimaatio määrittelemällä sisäänmeno nollaksi ja tehdään ennustus pelkän ulostulon perusteella siten, että neliövirhe E minimoituu:

Kertausta: lineaarinen ennustus Optimaaliset suotimen parametrit a(1),a(2),...,a(p) löytyvät, kun asetetaan E:n derivaatta jokaisen parametrin a(n) suhteen on nollaksi. Autokorrelaatiofunktion r(n) avulla ilmaistuna, derivaattojen nollakohdat saadaan ilmaistua matriisimuodossa Yule-Walker –yhtälönä:

Kertausta: Levinson-Durbin –rekursio Levinson-Durbin –rekursio: tehokas algoritmi Yule-Walker –yhtälöiden, ja siten ennustuskertoimien a(1),a(2),...,a(p) ratkaisemiseen Ideana on ratkaista symmetrinen Toeplitz-matriisiyhtälö lohkoittain kasvattamalla vektorin x pituutta ja laskemalla uusi ratkaisu edellisten avulla

Kertausta: Levinson-Durbin –rekursio Yhtälöryhmän ratkaisu: vektori, joka on summa alempiasteisesta ratkaisusta ja sen vakiolla painotetusta käännöksestä Esim. kun aste on 3: ratkaistaan 𝑞, 𝑘 3 , 𝐸 3 ja lopuksi uudet parametrit 𝑎 3 (1), 𝑎 3 2 𝑗𝑎 𝑎 3 (3).

Kertausta: Formanttien estimointi Formantti on spektrissä havaittava vahvistunut osavärähtelyalue tai taustalla oleva siirtofunktio-ominaisuus (napa)

Kertausta: Formanttien estimointi: tekijöihin jako Suoraviivainen tapa estimoida formantteja on jakaa LP-polynomi tekijöihin missä ovat LP-polynomin nollakohdat

Kertausta: Napaparin amplitudivaste: formantin taajuus Napapari taajuudella 1600 Hz (Fs = 16000 Hz), eli kulmataajuudella

Kertausta: LP-mallin käyttö perustaajuuden estimoinnissa: SIFT Formantit voidaan poistaa (ratkaista glottisheräte) suodattamalla puhekehys LP-parametreista saadulla käänteissuotimella A(z) Autokorrelaatio voidaan nyt laskea glottisherätteestä X(z) puhekehyksen Y(z) sijaan Formanttien vaikutus pienenee Autokorrelaatiosekvenssistä etsitään maksimikohta todennäköistä perustaajuutta vastaavalta alueelta. Menetelmästä käytetään nimitystä SIFT (simple inverse filter tracking) Y(z) A(z)

Kertausta: LP-mallin käyttö perustaajuuden estimoinnissa SIFT-esisuodatettu autokorrelaatio:

PLP, Perceptual Linear Prediction eli ihmisen kuuloon perustuva lineaariprediktioanalyysi

Miksi mikä PLP ? PLP (Perceptual Linear Prediction) – parametrejä/featureita käytetään ainakin puheentunnistuksessa ja puhujantunnistuksessa. Niiden on havaittu olevan luotettavampia kuin puhtaat LP-parametrit. PLP –menetelmässä signaalin spektriä muokataan ensin siten, että ihmiskuulon ominaisuudet tulevat huomioon otetuiksi. Sitten muokatulle signaalille tahdään tavallinen lineaariprediktioanalyysi.

Ihmiskuulon ominaisuuksia -epälineaarinen äänenkorkeusaistimus Ihminen mieltää (suurinpiirtein) saman suuruisiksi taajuuden muutokset: f0 ⇝ 2*f0 ⇝ 4*f0 eli kuulon taajuusaistimus toimii jokseenkin logaritmisesti: log(f0) + log(f0) = log(2*f0) log(2*f0) + log(2*f0) = log(4*f0)

Spektrogrammi pianon äänistä C1 – c5 f0 f0 f0 Huomaa miten aina matalin taajuus eli perustaajuus kaksinkertaistuu, ja sen harmoniset äänekset siirtyvät vastaavasti kaksi kertaa korkeammille taajuuksille.

Ihmiskuulon ominaisuuksia - kriittinen kaista Ihmiskorva yhdistää aistimukset lähellä toisiaan olevista taajuuksista. Voimakkaampi ääni peittää toisen äänen kuulumattomiin, jos taajuudet ovat lähellä toisiaan. Samalla äänten teho yhdistyy yhdeksi havainnoksi.

Äänenkorkeusaistimuksen mallinnus Puheenkäsittelyssä käytetään yleisesti kahta ihmiskuuloa mukailevaa taajuusmuunnosta: Mel-taajuusasteikko, joka on muodostettu puhtaiden siniäänten äänenkorkeusaistimuskokeiden perusteella mallintamaan korvan simpukan epälineaarista taajuuden havainnointia. Bark-taajuusasteikko, joka on määritelty lähellä toisiaan olevien taajuuskomponenttien peitto-ominaisuuden mukaan mallintamaan korvan taajuusintegrointiominaisuutta. Bark asteikko on muodostettu täyttämällä kuuloalue vierekkäisillä kriittisillä kaistoilla, ja numeroimalla ne 1:stä 26:een.

Mel - taajuusasteikko 1 Mel yksikkö on määritelty yhdeksi tuhannesosaksi 1000 Hz:n taajuisen äänen subjektiivisesta äänenkorkeudesta. eli 1000 Hz = 1000 Mel

Bark-taajuusasteikko Bark-skaalan kriittiset kaistat on määritelty viereisen kuvan mukaisesti, vaikka todellisuudessa korvan taajuusintegrointi toimii millä tahansa keskitaajuudella.

Mel-taajuuksinen spektrogrammi Pianon äänistä C1 – c5 Mel-taajuuksinen spektrogrammi Ja Bark-taajuuksinen spektrogrammi

Bark –asteikon käyttö Yhden kriittisen kaistan ’äänimäärä’ saadaan: jossa on signaalin spektri, : on kaistanpäästösuodin, joka mallintaa kriittistä kaistaa k, on kaistanpäästö- suotimen alarajataajuus ja on kaistan- päästösuotimen ylärajataajuus. Spektrin pehmennys voidaan ajatella konvoluutiona spektrin ja kriittinen-kaista-suotimen välillä. Silloin kuitenkin vain osa konvoluutiofunktion arvoista valitaan Bark(k) –arvoiksi.

Äänenkorkeusaistimuksen mallinnus PLP:ssä Perceptual Linear Prediction –analyysissä ihmisen epälineaarinen taajuusaistimus ja kriittisen kaistan integrointi mallinnetaan Bark –skaalan mukaisella suodinrivistöllä.

Bark –skaalan mukainen suodinrivistö PLP:ssä Bark –skaalan mukainen suodinrivistö saadaan aikaan, kun kriittistä kaistaa mallintava suodin ja Bark-asteikon keskitaajuudet konvoloidaan keskenään: ja lopuksi siirretään suodinrivistö lineaariselle taajuusasteikolle

Ihmiskuulon ominaisuuksia - äänekkyys eri äänenkorkeuksilla Ihmisen kuulo on herkimmillään taajuuksilla 500 – 6000Hz. Äänipainetaso ei kerro täsmällisesti sitä, miltä ääni ihmisen korvaan kuulostaa.

Kuulon herkkyyden mallinnus eri taajuuksilla Kuulon herkkyysvaihtelua eri taajuuksilla voidaan mallintaa suotimella, joka laskee matalien taajuuksien energian ihmisen kuulon mukaiselle tasolle. Esimerkiksi äänitasomittauksissa käytetään useimmiten A-suodinta ennen energian laskemista äänisignaalista.

Kuulon herkkyyden mallinnus PLP:ssä Suodinrivistön päästökaistojen vaimennukset skaalataan yllä olevan yhtälön määrittelemän suotimen mukaisiksi:

Ihmiskuulon ominaisuuksia – äänenvoimakkuuden muutoksen havaitseminen Weberin sääntö sanoo, että fysikaalisen suureen muutos havaitaan sen suuruisena kuin se muuttuu suhteellisesti: Tämän perusteella on päädytty ilmaisemaan ääneen liittyviä suureita desiBeleinä: 𝐿 𝐼 =10 𝑙𝑜𝑔 10 (𝐼) . Myöhemmin kuitenkin herrat Fletcher ja Munson huomasivat, että keskitaajuuksilla (300 – 4000Hz) missä puhe pääosin sijaitsee, äänenvoimakkuden havainnnointi noudattaakin pikemminkin kuutiojuuri-funktiota:

Äänenvoimakkuuden ilmaisu PLP:ssä PLP:ssä käytetään kuutiojuuri-muunnosta mallintamaan kuulon äänenvoimakkuusaistimusta: 𝐿=10 𝑙𝑜𝑔 10 𝑥/ 𝑥 0

Spektrin kuulonmukainen käsittely PLP:ssä 3 ()