Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

Kertausta: lähde-suodin –malli

Samankaltaiset esitykset


Esitys aiheesta: "Kertausta: lähde-suodin –malli"— Esityksen transkriptio:

1 Kertausta: lähde-suodin –malli
Puhesignaalia voidaan mallintaa lähde-suodin –systeemin avulla Järjestelmän syötteenä x(n) on kurkunpää-ääni ja ulostulona y(n) mitattu puhesignaali X(z) H(z) Y(z)

2 Kertausta: lineaarinen ennustus
Lineaarinen ennustus on yksi tärkeimmistä puheenkäsittelyn työkaluista Lyhenne LP (linear prediction) tai LPC (linear predictive coding) Puheenkäsittelyn kannalta LP:n tärkein ominaisuus on sen kyky mallintaa ääntöväylää Ideana ennustaa puhesignaalin seuraavaa näytettä edellisten näytteiden ja lineaarisen suotimen avulla (edellisten näytteiden lineaarikombinaationa) Aiemmin käsitelty ristikkorakenteinen malli ääntöväylälle on all-pole –suodin > Lineaarinen ennustus on hyvä menetelmä suotimen parametrien estimointiin

3 Kertausta: lineaarinen ennustus
Ääntöväyläsuotimelle voidaan käyttää mallia (all-pole –suodin) All-pole –järjestelmän ulostulo voidaan ennustaa täydellisesti mikäli sisäänmeno ja ulostulon aiemmat arvot tunnetaan. Etsitään aproksimaatio määrittelemällä sisäänmeno nollaksi ja tehdään ennustus pelkän ulostulon perusteella siten, että neliövirhe E minimoituu:

4 Kertausta: lineaarinen ennustus
Optimaaliset suotimen parametrit a(1),a(2),...,a(p) löytyvät, kun asetetaan E:n derivaatta jokaisen parametrin a(n) suhteen on nollaksi. Autokorrelaatiofunktion r(n) avulla ilmaistuna, derivaattojen nollakohdat saadaan ilmaistua matriisimuodossa Yule-Walker –yhtälönä:

5 Kertausta: Levinson-Durbin –rekursio
Levinson-Durbin –rekursio: tehokas algoritmi Yule-Walker –yhtälöiden, ja siten ennustuskertoimien a(1),a(2),...,a(p) ratkaisemiseen Ideana on ratkaista symmetrinen Toeplitz-matriisiyhtälö lohkoittain kasvattamalla vektorin x pituutta ja laskemalla uusi ratkaisu edellisten avulla

6 Kertausta: Levinson-Durbin –rekursio
Yhtälöryhmän ratkaisu: vektori, joka on summa alempiasteisesta ratkaisusta ja sen vakiolla painotetusta käännöksestä Esim. kun aste on 3: ratkaistaan 𝑞, 𝑘 3 , 𝐸 3 ja lopuksi uudet parametrit 𝑎 3 (1), 𝑎 𝑗𝑎 𝑎 3 (3).

7 Kertausta: Formanttien estimointi
Formantti on spektrissä havaittava vahvistunut osavärähtelyalue tai taustalla oleva siirtofunktio-ominaisuus (napa)

8 Kertausta: Formanttien estimointi: tekijöihin jako
Suoraviivainen tapa estimoida formantteja on jakaa LP-polynomi tekijöihin missä ovat LP-polynomin nollakohdat

9 Kertausta: Napaparin amplitudivaste: formantin taajuus
Napapari taajuudella 1600 Hz (Fs = Hz), eli kulmataajuudella

10 Kertausta: LP-mallin käyttö perustaajuuden estimoinnissa: SIFT
Formantit voidaan poistaa (ratkaista glottisheräte) suodattamalla puhekehys LP-parametreista saadulla käänteissuotimella A(z) Autokorrelaatio voidaan nyt laskea glottisherätteestä X(z) puhekehyksen Y(z) sijaan Formanttien vaikutus pienenee Autokorrelaatiosekvenssistä etsitään maksimikohta todennäköistä perustaajuutta vastaavalta alueelta. Menetelmästä käytetään nimitystä SIFT (simple inverse filter tracking) Y(z) A(z)

11 Kertausta: LP-mallin käyttö perustaajuuden estimoinnissa
SIFT-esisuodatettu autokorrelaatio:

12 PLP, Perceptual Linear Prediction
eli ihmisen kuuloon perustuva lineaariprediktioanalyysi

13 Miksi mikä PLP ? PLP (Perceptual Linear Prediction) – parametrejä/featureita käytetään ainakin puheentunnistuksessa ja puhujantunnistuksessa. Niiden on havaittu olevan luotettavampia kuin puhtaat LP-parametrit. PLP –menetelmässä signaalin spektriä muokataan ensin siten, että ihmiskuulon ominaisuudet tulevat huomioon otetuiksi. Sitten muokatulle signaalille tahdään tavallinen lineaariprediktioanalyysi.

14 Ihmiskuulon ominaisuuksia -epälineaarinen äänenkorkeusaistimus
Ihminen mieltää (suurinpiirtein) saman suuruisiksi taajuuden muutokset: f0 ⇝ 2*f0 ⇝ 4*f0 eli kuulon taajuusaistimus toimii jokseenkin logaritmisesti: log(f0) + log(f0) = log(2*f0) log(2*f0) + log(2*f0) = log(4*f0)

15 Spektrogrammi pianon äänistä C1 – c5
f0 f0 f0 Huomaa miten aina matalin taajuus eli perustaajuus kaksinkertaistuu, ja sen harmoniset äänekset siirtyvät vastaavasti kaksi kertaa korkeammille taajuuksille.

16 Ihmiskuulon ominaisuuksia - kriittinen kaista
Ihmiskorva yhdistää aistimukset lähellä toisiaan olevista taajuuksista. Voimakkaampi ääni peittää toisen äänen kuulumattomiin, jos taajuudet ovat lähellä toisiaan. Samalla äänten teho yhdistyy yhdeksi havainnoksi.

17 Äänenkorkeusaistimuksen mallinnus
Puheenkäsittelyssä käytetään yleisesti kahta ihmiskuuloa mukailevaa taajuusmuunnosta: Mel-taajuusasteikko, joka on muodostettu puhtaiden siniäänten äänenkorkeusaistimuskokeiden perusteella mallintamaan korvan simpukan epälineaarista taajuuden havainnointia. Bark-taajuusasteikko, joka on määritelty lähellä toisiaan olevien taajuuskomponenttien peitto-ominaisuuden mukaan mallintamaan korvan taajuusintegrointiominaisuutta. Bark asteikko on muodostettu täyttämällä kuuloalue vierekkäisillä kriittisillä kaistoilla, ja numeroimalla ne 1:stä 26:een.

18 Mel - taajuusasteikko 1 Mel yksikkö on määritelty yhdeksi tuhannesosaksi 1000 Hz:n taajuisen äänen subjektiivisesta äänenkorkeudesta. eli Hz = 1000 Mel

19 Bark-taajuusasteikko
Bark-skaalan kriittiset kaistat on määritelty viereisen kuvan mukaisesti, vaikka todellisuudessa korvan taajuusintegrointi toimii millä tahansa keskitaajuudella.

20 Mel-taajuuksinen spektrogrammi
Pianon äänistä C1 – c5 Mel-taajuuksinen spektrogrammi Ja Bark-taajuuksinen spektrogrammi

21 Bark –asteikon käyttö Yhden kriittisen kaistan ’äänimäärä’ saadaan:
jossa on signaalin spektri, : on kaistanpäästösuodin, joka mallintaa kriittistä kaistaa k, on kaistanpäästö- suotimen alarajataajuus ja on kaistan- päästösuotimen ylärajataajuus. Spektrin pehmennys voidaan ajatella konvoluutiona spektrin ja kriittinen-kaista-suotimen välillä. Silloin kuitenkin vain osa konvoluutiofunktion arvoista valitaan Bark(k) –arvoiksi.

22 Äänenkorkeusaistimuksen mallinnus PLP:ssä
Perceptual Linear Prediction –analyysissä ihmisen epälineaarinen taajuusaistimus ja kriittisen kaistan integrointi mallinnetaan Bark –skaalan mukaisella suodinrivistöllä.

23 Bark –skaalan mukainen suodinrivistö PLP:ssä
Bark –skaalan mukainen suodinrivistö saadaan aikaan, kun kriittistä kaistaa mallintava suodin ja Bark-asteikon keskitaajuudet konvoloidaan keskenään: ja lopuksi siirretään suodinrivistö lineaariselle taajuusasteikolle

24 Ihmiskuulon ominaisuuksia - äänekkyys eri äänenkorkeuksilla
Ihmisen kuulo on herkimmillään taajuuksilla 500 – 6000Hz. Äänipainetaso ei kerro täsmällisesti sitä, miltä ääni ihmisen korvaan kuulostaa.

25 Kuulon herkkyyden mallinnus eri taajuuksilla
Kuulon herkkyysvaihtelua eri taajuuksilla voidaan mallintaa suotimella, joka laskee matalien taajuuksien energian ihmisen kuulon mukaiselle tasolle. Esimerkiksi äänitasomittauksissa käytetään useimmiten A-suodinta ennen energian laskemista äänisignaalista.

26 Kuulon herkkyyden mallinnus PLP:ssä
Suodinrivistön päästökaistojen vaimennukset skaalataan yllä olevan yhtälön määrittelemän suotimen mukaisiksi:

27 Ihmiskuulon ominaisuuksia – äänenvoimakkuuden muutoksen havaitseminen
Weberin sääntö sanoo, että fysikaalisen suureen muutos havaitaan sen suuruisena kuin se muuttuu suhteellisesti: Tämän perusteella on päädytty ilmaisemaan ääneen liittyviä suureita desiBeleinä: 𝐿 𝐼 =10 𝑙𝑜𝑔 10 (𝐼) . Myöhemmin kuitenkin herrat Fletcher ja Munson huomasivat, että keskitaajuuksilla (300 – 4000Hz) missä puhe pääosin sijaitsee, äänenvoimakkuden havainnnointi noudattaakin pikemminkin kuutiojuuri-funktiota:

28 Äänenvoimakkuuden ilmaisu PLP:ssä
PLP:ssä käytetään kuutiojuuri-muunnosta mallintamaan kuulon äänenvoimakkuusaistimusta: 𝐿=10 𝑙𝑜𝑔 10 𝑥/ 𝑥 0

29 Spektrin kuulonmukainen käsittely PLP:ssä
3 ()


Lataa ppt "Kertausta: lähde-suodin –malli"

Samankaltaiset esitykset


Iklan oleh Google