LPC LPCC PLP MFCC LSP/LSF Δ ΔΔ Matemaattinen kikka Levinson-Durbin Puhesignaali Levinson-Durbin algoritmi Kepstri-analyysi Rekursiivinen laskenta LP-analyysi LPC LPCC Fourieranalyysi Kuulonmukainen spektrin muokkaus 1 Käänteinen Fourier-muunnos PLP Spektrin muokkaus 2 MFCC Δ CC ΔΔ
Mel-Frequency Cepstral Coefficients Usually Hanning Padded with zeros to next power of 2
MFCC:t lasketaan (yleensä) seuraavasti: Laske ikkunoidun puhekehyksen tehospektri Fourier-muunnoksen avulla. Laske tehospektristä Mel-asteikon mukaisten kolmiosuotimien/ikkunoiden ‘tehosummat’. Ota kustakin ‘tehosummasta’ logaritmi – useimmiten 10-kantainen. Laske logaritmiselle tehosummavektorille kosinimuunnos. MFCC:t ovat kosinimuunnoksen painokertoimia. Kepstrin keskiarvon vähennys (CMS): Vähennä kustakin MFC-kertoimesta pidemmän ajan keskiarvo, jotta häiriöäänten vaikutus vähenisi.
Mel - taajuusasteikko 1 Mel yksikkö on määritelty yhdeksi tuhannesosaksi 1000 Hz:n taajuisen äänen subjektiivisesta äänenkorkeudesta. eli 1000 Hz = 1000 Mel
’Mel-tehosummat’ Kunkin Mel-asteikon mukaisen kolmiosuotimen/ikkunan määrittämät ’tehosummat’ lasketaan seuraavan lausekkeen mukaisesti: jossa: e[j][t] on tehosumma puhekehyksen t j :nnen Mel-suotimen ulostulosta. N on tehospektrin taajuuspisteiden lukumäärä Hj[k] on Mel-suodin/ikkuna St[k] on puhekehyksen DFT. P on Mel-suodinten lukumäärä
Kosini-muunnos kosinimuunnoksen kantavektorit Logaritmiset tehosummat esitetään kosinimuunnoksen kantavektoreiden painotettuna summana. Summa on äärellinen 0…P-1, koska tehospektri on diskreetti, eli vain äärellinen määrä ’taajuus-tehoja’ on määritelty.
Kepstrin keskiarvon vähennys MFCC-vektorin kustakin elementistä vähennetään kyseisen elementin keskiarvo, joka on laskettu joko opetusdatan perusteella tai se lasketaan dynaamisesti taustamelun muuttuessa.
LSP / LSF LP-kertoimet ovat hyvin herkkiä kvantisoinnille: kerrointen kvantisoinnista johtuen suotimesta tulee hyvin helposti epästabiili. LP-kertoimet sopivat myös hyvin huonosti interpoloitaviksi puhekehysten keskikohtien välillä, koska ne eivät edusta mitään fyysistä asiaa. LP-kertoimet muutetaan usein puheenkoodauksessa ja puhesynteesissä ns. Line Spectral Pairs (LSP) / Line Spectral Frequencies (LSF) muotoon. Näitä ei pidä sekoittaa parametrisen spektrianalyysin LSF-taajuuksiin! LSP/LSF:lle pieni kvantisointi ei tee suurta muutosta. LSP/LSF:ä voidaan interpoloida puhesynteesissä siten, että saadaan jatkuva LSP/LSPF-käyrä.
LSP/LSF:n laskenta LSP/LSF:t lasketaan LP-kertoimista matemaattisen kikan avulla. Ne sisältävät täsmälleen saman informaation kuin LP-kertoimetkin. Kun LP-polynomi on muotoa: Muodostetaan sen avulla polynomit: Näiden polynomien nollakohdat ovat kompleksitason yksikköympyrällä. Etsitään nollakohdat ja muutetaan niiden kulmat taajuuksiksi: