Äänen koodaus tietoliikenteessä Puhekoodekit

Slides:



Advertisements
Samankaltaiset esitykset
DRAMATURGIAN PERUSKÄSITTEISTÖÄ
Advertisements

Viime kerralta: Puheentuotto (vokaalit)
Kehäantennit Looppi, silmukka
Pinta-ala raja-arvona
LPC LPCC PLP LSP/LSF Matemaattinen kikka Levinson-Durbin algoritmi
Luku 1. Siirtotekniikan käsitteitä – Taajuus
Äänen ominaisuudet Class 7D in Helsingin normaalilyseo
DEE Sähkökäyttöjen ohjaustekniikka
Robust LQR Control for PWM Converters: An LMI Approach
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä 10 – Juho Kokkala Optimointiopin seminaari - Syksy 2010 Kernel-tasoitus.
LPC LPCC PLP MFCC LSP/LSF Δ ΔΔ Matemaattinen kikka Levinson-Durbin
 Mobiilisuus on tietoa paikasta riippumatta  Mobiililaitteella voidaan siis lähettää ja vastaanottaa tietoa paikasta riippumatta  Nykyään monelle ihmiselle.
Ohjelman perusrakenteet
Oskilloskooppi Pekka Rantala
Tiedonsiirronperusteet

Audiopakkauksen perusideat tMyn1 •Pohditaan aluksi peittoilmiötä hieman tarkemmin. •On esitetty, että tyvikalvossa olisi yhteensä 24 aluetta, joista kukin.
Tavoite Oppia seuraavat asiat •Yksikkö Beli, desibeli •Analoginen signaali •Digitaalinen signaali •Diskreettiaikainen signaali.
Äänen pakkaaminentMyn1 Äänen pakkaaminen •Äänen enkoodaaminen ja mahdollinen pakkaaminen on ratkaistava jotenkin monissa arkipäivän sovelluksissa ja tuotteissa:
Luku 2 – Tietoliikenteen tekniikka
Langattomien laitteiden matematiikka 1
Laskuharjoitus 5 kuvankäsittely 1/3 AS Automaation signaalinkäsittelymenetelmät.
RADIOKANAVAT.
SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 4
KANTATAAJUINEN BINÄÄRINEN SIIRTOJÄRJESTELMÄ AWGN-KANAVASSA
AS Automaation signaalinkäsittelymenetelmät
@ Leena Lahtinen OHJELMAN OSITTAMINEN LUOKKA ATTRIBUUTIT METODIT.
Luku 2 – Tietoliikenteen tekniikka
KANNANVAIHTO?.
Kertausta: lähde-suodin –malli
FSK-Frequency Shift Keying
(Joskus puhutaan myös komponenttitestauksesta.) Pienin kokonaisuus, joka on järkevä testata erikseen. ● Perinteisesti yksittäinen aliohjelma. ● Olio-ohjelmien.
Ohjelman perusrakenteet
Tiedon esittäminen.
Johtokoodaus Historia, toiminnalliset syyt ja toteutustapojen hintaerot ovat johtaneet eri johtokoodaustapojen kehittämiseen. Hyvälle johtokoodaukselle.
Tiedostomuodot Jussi Talaskivi atk-suunnittelija Jyväskylän yliopisto.
Mittaustekniikka 26 AD-muuntimia Liukuhihna – Pipeline Muunnos tehdään useassa peräkkäisessä pipeline- asteessa, joissa kussakin ratkaistaan joukko bittejä.
Vaihemodulaatio Vaihemodulaatio ja taajuusmodulaatio muistuttavat suuresti toisiaan. Jos moduloidaan kantoaallon vaihekulmaa, niin samalla tullaan moduloiduksi.
Ääni!.
Ääni ja kuuleminen Kuuloaisti toimii ihmisellä jo sikiövaiheessa.
Videosignaalin perusteet tMyn1 Videosignaalin perusteet Euroopassa televisiolähetyksissä kehyksiä lähetetään 25 kappaletta sekunnissa (frame rate 25 Hz).
@ Leena Lahtinen OHJELMAN OSITTAMINEN LUOKKA ATTRIBUUTIT METODIT.
T Elektroniikan mittaukset: LAB 3 johdanto
SATTUMAN ONGELMA TUTKIMUKSESSA 1 x: tenttiin valmistautumiseen käytetty aika (tunteja) Perusjoukko μ = 39,87.
5. Lineaarinen optimointi
Pulssimodulaatio Pulssiamplitudimodulaatio
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 23 – Juho Kokkala Optimointiopin seminaari - Syksy 2005 / 1 IEJ-puut, yhteisjakaumat, A-kyllästetyt.
5. Fourier’n sarjat T
1 OH6KVP Heijastinantennit Heijastinantennit ovat yleisimpiä korkean vahvistuksen antenneja niillä saavutetaan yleisesti yli 30 dB vahvistuksia mikroaaltotaajuuksilla.
ÄÄNI.
Miika Kuusinen LTY/Tietoliikenteen laitos 2003
(C) Jukka Jauhiainen 2001, 2008 MRI-perusteet, OSA 3: Kuvan koodaus, k-avaruus Jukka Jauhiainen Oulun seudun ammattikorkeakoulu Tekniikan yksikkö Englanninkieliset.
AUDION TUOTANTO Markus Saarinen Seminaariesitys VIDEOPROJEKTISSA.
Äänen käsittely.
Vaasan yliopisto / Sähkötekniikka SATE1110 SÄHKÖMAGNEETTINEN KENTTÄTEORIA 15.AALTOYHTÄLÖT.
13. Nopeus kuvaa liikettä Nopeus on suure, joka kertoo kuinka kappaleen paikka muuttuu ajan suhteen. Nopeus on vektorisuure. Vektorisuureen arvoon liittyy.
Audiosignaalinen käsittely / Kari Jyrkkä1 Sisältö: –Lineaariprediktioon perustuvan puheenkooderin ja dekooderin toteutus projektityönä Puhesignaalin.
ANALOGISET PULSSIMODULAATIOT PAM, PWM JA PPM Millä eri tavoilla signaalinäyteet voidaan esittää & koodata? A Tietoliikennetekniikka I Osa 20 Kari.
Amplitudimodulaatio Amplitudimodulaatiossa moduloiva signaali muuttaa kantoaallon voimakkuutta eli amplitudia. Kantoaallon taajuus pysyy koko ajan samana.
Tiedonsiirtotekniikka 2
BINÄÄRISET TIEDONSIIRTOMENETELMÄT TÄRKEIMPIEN ASIOIDEN KERTAUS
Edellisen kerran yhteenveto
Signaalinkäsittelymenetelmät / Kari Jyrkkä
Audiosignaalinen käsittely / Kari Jyrkkä
Spektri- ja signaalianalysaattorit
Signaalien datamuunnokset
Signaalit ja järjestelmät aika- ja taajuusalueissa
KVANTISOINTIKOHINA JA AWGN-KOHINAN vaikutus PULSSIKOODIMODULAATIOSSA
KANTATAAJUINEN BINÄÄRINEN SIIRTOJÄRJESTELMÄ AWGN-KANAVASSA
Ylinäytteistetyt A/D-muuntimet
Esityksen transkriptio:

Äänen koodaus tietoliikenteessä Puhekoodekit Roman Kossarev Ohjaaja: Keijo Haataja Kuopion Yliopisto

Esitelmän Sisältö Johdanto Akustiikkaa Psykoakustiikkaa Ääniaallon digitointi Puhekoodekit Yhteenveto

I.a Johdanto Miksi äänenkoodaus? eräs siirrettävän tiedon muoto, jonka määrä koko ajan kasvussa digitaalississa lankapuhelin-, tieto-, mobiili- ja muissa langattomissa verkoissa (Bluetooth) digitaalisuus vaatii digitointia, ADC-muunnosta (ja takaisin analogiseksi DAC-muunnoksella) digitoitu ääni vaatii suuria bittimääriä tehokas (rajoitetun) siirtokaistan käyttö edellyttää pakkausta (koodekit)

Koodekki = codec – COding/DECoding I.b Johdanto Koodekki = codec – COding/DECoding koodaus – signaali muunnetaan uuteen muotoon purku – signaali palautetaan alkuperäiseen muotoon Puhe on äänen eräs laji Puhe-elimistö tuottaa, kuulojärjestelmä vastaanottaa Akustiikaltaan eroaa esim. musiikista On turha koodata mitä ei kuulla

II Akustiikkaa II.a Ääni Äänen kulku: Lähde – väliaine – vastaanottaja Väliaineen värähtelyä / paineen vaihtelua

II.b Ääniaalto Äänes (puhdas ääni, yksi taajuus) a amplitudi äänen voimakkuus äänenpainetaso 0 dB kuulokynnys 30 dB katuhäly 85 dB vahinko 130 dB kipuraja (suihkukone) dB on logaritminen f taajuus = 1/T 1 Hz = 1/s korva havaitsee 20-20000 Hz

II.c Seosäänet koostuvat monesta eri taajuudesta 300 Hz 500 Hz kaikki ympäristöäänet ovat seosääniä Fourier-muunnoksella saadaan selville seosäänen taajuussisältö

III.a Psykoakustiikkaa taajuustasoesitys aikatasoesitys

III.b Puheen taajuussisältö /ai/ Taajuusalue Luonnolliselta kuulostava puhe: 50-7000 Hz riittävä alue on jo 200-3300 Hz Mitä taajuuksia? aaltomuoto ja taajuussisältö riippuvat äänteen (kirjaimen) tyypistä: soinnillinen vokaali ja konsonantti (m, n, d, r, l, j) soinniton konsonantti (s, h) eksploosioäänne (p, t, k,) Resonanssialueet (formantit) energiahuippuja ääniaallossa jokaisellä äänteellä oma ominaisformanttikuvio (parametrit ovat kuitenkin suhteellisia)

III.c Peittoilmiö (maskaus) ilmiö, jossa voimakkaampi signaali, peittäjä (masker), peittää (saa kuulumattomaksi) toisen heikomman (peitettävän, eng. maskee) signaalin, joka on tapreeksi lähellä peittäjää taajuustasossa: Esim yhtäaikaispeitto taajuustasossa: ylläoleva peittäjä peittää esim. 20 dB/700 Hz –testisignaalin (punaisella).

III.d Peittoilmiö Miksi peittoilmiö tapahtuu? Kahden siniääneksen taajuuksien lähestyessä toisiaan niiden resonanssikohdat korvan simpukassa menevät päällekkäin molemmat osuvat samojen aistinsolujen viritysalueelle Kun äänekset tulevat saman kriittisen kaistan sisälle, korvalla on suuria vaikeuksia erottaa molempia ääniä, heikompi peittyy Pienillä taajuksilla (50-700 hZ) kaistan leveys 100 Hz 700 Hz:stä ylöspäin kasvaa tasaisesti ja saavuttaa 2000 Hz 10 kHz kohdalla Taajuuksien pitää olla siis yli kriittisen kaistan päässä toisistaan, jotta äänekset kuultaisiin erillisinä Yhtäaikaispeiton (simultaneous masking) lisäksi esiintyy esi- ja jälkipeittoa:

IV.a Ääniaallon digitointi (ADC) Näytteistys (sampling) otetaan näytteitä N kertaa sekunnissa Näytteenottotaajus on siten Fs = 1/N Nyquistin teoreeman mukaan näytteenottotaajuudella Fs voidaan näytteistää korkeintaan Fs/2 taajuutta olevia ääneksiä Jos taajuudeltaan Fs/2 korkeammat äänekset pääsevät näytteistykseen, tapahtuu alinäytteistymistä eli laskostumista esim. Fs = 100 kHz yli 50 kHz taajuudet summautuvat alemmille taajuuksille laskostuneen X-akselin mukaisesti yleisiä näytetaajuuksia: 48000 Hz (äänistudio) 44100 Hz (CD) 8000 Hz (puhelin)

IV.b Ääniaallon digitointi (ADC) Näytteistyksen jälkeen saadaan diskreettiaikainen mutta jatkuva-arvoinen jännitesarja Kvanttisointi: analogisignaalin näytteisiin liitetään lukuja, jotka vastaavat erillisiä signaalitasoja (amplitudiarvoja) tuo kvanttisointivirheen, ks. b) mitä enemmän tasoja, sitä pienempi virhe mutta tasot täytyy numeroida ja näin käyttää enemmän bittejä jokainen bitti parantaa signaalikohina-suhdetta 6 dB:llä lineaarikvanttisoinnissa esim. 16 bit – SNR: 16 * 6 = 96 dB (aika hyvä) Kvanttisointitasojen suhde jatkuvaan amplitudiarvoon: lineaarinen epälineaarinen differentiaalinen

V.a Puhekoodekit 3 päätyyppiä: aaltomuotokoodekit vokooderit joukon vanhimmat, yksinkertaisimmat ja bittinälkäisimmät vokooderit synteettistä puhetta alhaisilla bittivirroilla hybriidikoodekit vokooderi + luonnollisen puheen approksimointi äänenlaatua suht. alhaisilla bittivirroilla monimutkaisia

V.b Aaltomuotokoodekit - PCM ei käytetä hyväksi tietoa äänen tuottotavasta sopivat muunkin kuin puheen koodamiseen yksinkertaisin on PCM pulssikoodimodulaatio: keksitty jo v.1937 näytteistys 8 kHz lineearinen, tasavälinen 12 bitin kvanttisointi syntyvä bittivirta: 12 * 8000= 96000 bps Q-virhe max = ½ Q-väli PCM olettaa, että voimakkaiden signaalien todennäköisyys on sama kun heikkojen todellisuudessa jakauma ei ole tasainen: käytetään erisuuruisia välejä!

V.c Aaltomuotokoodekit – A-law PCM käytetään Euroopassa lankapuhelinverkoissa (ETSI) 8000 Hz * 8 bittiä/näyte = 64 kbps epätasavälinen kvanttisointi logaritminen siirtofunktio: A = 87,6 eniten merkitsevä bitti – polarisuus bitit 7-5 – Q-välin numero bitit 4-1 – diskreettisignaalin arvo Q-välin sisällä seuraava askel – ennustus!

V.d Aaltomuotokoodekit – CVSD ollaan hetkessä t äänenpaine muuttuu aina joko ylös- tai alaspäin hetkellä t+1 voidaan ennustaa x(t+1) ja kvanttisoida ainoastaan ennustuksen ja x(t+1) saapuneen sigaalin eron, kvanttisointi on tällöin differentiaalista jos kvanttisointi on 1-bittistä, tapahtuu kulmakertoimen ylikuormitus: siksi säädetään kvanttisointiaskelta dynaamisesti (1-2): Continously Variable Slope Delta Modulation CVSD = Jatkuvasti Muuttuvan Kulmakertoimen Deltamodulaatio lankapuhelinverkon äänenlaaatua 12 – 32 kbps -bittivirroilla

V.e Aaltomuotokodekit SBC & ATC Sub-Band Coding – SBC käyttää äänen taajuustasoa jaetaan puhe taajuuskaistoihin jokainen kaista koodataan erikseen taajuskaistojen leveydet seuraavat kriittisten kaistojen leveyksiä (100-2000 Hz) taajuuskäsittelyn takia suurempi koodausviive 16-32 kbps Adaptive Transform Coding - ATC tehdään FFT ja lasketaan jokaiselle siniäänekselle kerroin mikäli äänes sijoittuu äänten kannalta tärkeään alueeseen, koodataan se tarkemmin vähemmän tärkeät äänekset koodataan vähemmän bittejä käyttäen lankapuhelimen äänenlaatua @ 16 kbps

V.f Vokooderit LPC http://www.spiritcorp.com/1200_bps_vocoder.html puhetta voidaan myös koodata synteesin avulla linear predictive coding LPC selvitetään värähtelyn jakso T = 1/f valitaan järjestelmän heräte soinnillisuuden mukaan V/UV V: äänestä vastaava impulssisarja UV: valkoinen kohinta selvitetään äänenvoimakkuus G etsitään H(z)-puheväylän mallin parametrit (lineaariyhtälöryhmä) esim. Spiritin suljettu LPC-pohjainen toteutus 1.2 kbps: http://www.spiritcorp.com/1200_bps_vocoder.html

V.g Hybriidikoodekit Analysis-by-Synthesis Abs koodekit eroa vokooderiin siinä, että on useampi kuin 2 herätetyyppiä puhe jaetaan 20 ms-pituisiin ikkuonoihin, ja jokaiselle ikkunalle määrätään suotimen paarametrit virhe syntetisoidun ja todellisen puhe-segmentin välillä minimoidaan näin löydetään paras puhe-herätteen approksimaatio, joka myös lähetetään

V.h Hybriidikoodekit Code-Excited Linear Prediction CELP toimii kuten AbS, paitsi herätteet valitaan koodikirjasta löydetty heräte maustetaan LPC-suotimen parametreilla ja lähetetään ohjausdatana dekooderi vastaanottaa ohjausdatan ja syöttää sen synteesisuodattimeen synteesisuodatin ”matkii” puhetta käyttäen lineaarista ennustusta yksinkertainen ohjaussignaali siis tuottaa puhetta lankapuhelinverkon äänenlaatua @ 4.8 -16 kbps GSM-koodekki on myös hybriidikoodekki lyhyt- ja pitkäjaksoisella ennustuksella ennustuskertoimet lasketaan ja siirretään 13 kbps

VI Yhteenveto