Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

Tilastoanalyysien merkitys ekologiassa

Samankaltaiset esitykset


Esitys aiheesta: "Tilastoanalyysien merkitys ekologiassa"— Esityksen transkriptio:

1 Tilastoanalyysien merkitys ekologiassa
Tavoitteena luonnosta tehtyjen havaintojen selittäminen: Teorian testaus ja hypoteesien muodostaminen Ilmiöt monimutkaisia, mahdollisia syy-seuraussuhteita monia, mahdollisia selittäjiä paljon Tilastollisen analyysin vuoksi emme ole kokonaan toisten subjektiivisen käsityksen varassa Tilastoanalyysit vättämättämiä ekologiassa Empiirinen luonnontiede Luonnon selittäminen Tarvitaan monissa eri vaiheissa Tarpeen sekä kokeellisessa että suoraan luonnosta tehtävissä havainnoissa Ongelmat monimutkaisia ja mahdollisia selittäjiä paljon Ei tarvitse luottaa pelkästään muiden intuitioon Ei toki lopullisia tuloksia Mitä ja miten dataa kerätään oleellisempaa kuin miten analysoidaan Tilastoanalyyseja voi tehdä monella tavalla Yksittäisiä testejä kullekin tekijälle kerrallaan Parempi ajatella kokonaisuuksina, siihen sopii malli….

2 Lineaarinen malli Kuvaus siitä, miten eri tekijät (x1, x2 …xk) ovat vaikuttaneet yksilön i tulokseen yi yi = bo + b1x1i +b2 x2i+…bk xki + ei ei residuaali, jakautuu normaalisti laskentamenetelmä tuottaa vakiokertoimet bo, b1 , b2 … bk niin että ei pienin mahdollinen ennuste Yi = bo + b1x1i +b2 x2i+…bk xki Yritetään ymmärtää, mitkä mahdollisista tekijöistä x1… ovat merkitsevästi vaikuttaneet tietyn tuloksen syntyyn Esimerkiksi Y puun siementuotto tiettynä vuonna selittäjät lämpötiloja ravinteita biokemiaa morfologiaa herbivorien määrää jne -osa muuttujista jatkuvia, osa luokittelevia Tiedot monesta puusta, määrätään kertoimet niin että keskimääräiset poikkeamat ennusteista mahdollisimman pieniä Pyritään löytämään yksinkertaisin mahdollinen malli, jonka avulla ilmiön voi selittää Tällä pyritään mallin yleistettävyyteen - siihen että se pätisi muillekin populaatioille ja otoksille Paras sopivuus kun kaikki mukana, muttei auta löytämään yksinkertaistuksia Kuvailemani mallinnustapa on ekologiassa nykyisellään yleisin, ja sitä kutsutaan ANOVA-malliksi….

3 Anova-mallien oletukset
Tilastollinen mallittaminen ekologiassa edellyttää lähes aina normaalisuusoletusta Residuaalien normaalisuus Vakiovarianssi (Havaintojen riippumattomuus) (Mallin additiivisuus eli lineaarisuus) Tärkein perusoletus on virhetermin normaalijakuma Vasteen ei tarvitse jakautua normaalisti, sillä esim koejärjestelyt aiheuttavat poikkeamia, jotka poistuvat kun koejärjestely otetaan malliin mukaan Että mallin antaisi luotettettavia ennusteita, täytyy kaikki oletukset täyttyä

4 Mitä tehdä ei-normaalille datalle?
Muunnokset toimivat usein jatkuville vasteille (Box-Cox) Tärkeintä on miettiä biologisia syitä poikkeamalle Ei-parametriset menetelmät eivät suositeltavia (mallinnusmahdollisuudet ja konservatiivisuus) Frekvenssidatalle moniulotteisten taulukoiden analysointi Normaalioletus on ANOVA-malleissa tärkeä, koska kaikki standarditestit ovat voimassa vain kun oletukset voimassa Lähes aina pyritään muunnokin saamaan toivottu tulos. On hyvin tavallista, että tutkija on epätoivoinen erityisesti jakauman muodon kuten vinous ja vakiovarianssin kanssa Tavallisesti vaintoehdot ei-parametriset tai moniulotteiset taulukot Osaksi syyt syvällä ekologiassa - tuntemattomat tekijät - heterogeeninen ympäristö On useita hyvin tavallisia tapauksia, jossa poikkeaman syyt ovat ilmeisiä aineiston luonteen vuoksi. Aion nyt käsitellä muutamaa tavallisinta tapausta ja ehdotan parannuskeinoksi siirtymistä realistisempiin tilastollisiin malleihin eli yleistettyihin lineaarisiin malleihin Erityisen tärkeää ei-jatkuvalle vastelle - lukumäärät ja osuudet Myös vasteet joiden arvo ei välttämättä edes numeerinen kuten väri - näitä ei yleensä edes yritetä mallittaa

5 Box-Cox muunnos Tuottaa jatkuvalle muuttujalle parhaan normaalisuuden eli etsii sopivan l:n Tavallisimmat muunnokset neliöjuuri (l=0.5), logarimi (l=0), käänteisluku (l= -1) voidaan esittää yhtälöillä y* = (yl - 1)/l jos l erisuuri kuin y* = log (y) jos l on 0

6 Lukumäärät Havaitaan 0, 1, 2 … k yksilöä; k iso
Yksilöiden kokonaismäärät tuntemattomia Yleensä suuri osa aineistosta 0 Jakauma lähes aina vino (pitkä häntä) Varianssi ei vakio - kasvu keskiarvon myötä Neliöjuuri ja logaritmimuunnokset Nollahavaintojen suuri määrä ongelma Hyvin suuri osa ekologisista aineistoista kuuluu tähän ryhmän Montako koivuruosteen tuottamaa täplää koivun lehdellä Montako tietyn lajin perhosta pyydyksessä Turskien lukumäärä troolissa Jälkeläisten lukumäärä Pitkäversoja per taimi Dormanttien siementen lukumäärä maanäytteessä Tyypillistä ettei tiedetä, kokonaismäärää (esim. Perhospopulaation kokoa) Jos ilmiö on suhteellisen harvinainen, voi nollaluokka olla iso. Sanoin harvinaisemmat ilmiöt tuottavat usein pahasti vinoja jakaumia mutta vaikkapa kalojen määrä troolissa saattaa olla melko symmetrinen Pitkät hännät tyypillisiä Varianssi kasvaa keskiarvon myötä eli suurilla arvoilla iso varianssi PARANNUSKEINOT log vinouteen ja neliöjuuri varianssin, molempia ei saa samalla muunnoksella Nollia voi on hyvin paljon esim. Kirvoja lehdellä

7 Osuudet Aineistona osuuksia esim. 5 yksilön poikkueesta selvisi 3 kpl aikuiseksi: 3/5=0.6 Esitetään usein prosentteina, mutta silloin menetetään tieto kokonaismäärästä Jakauma vino, jos osuudet usein lähellä nollaa tai ykköstä Varianssi ei vakio: pienin varianssi kun osuus noin 1/2, suurin lähellä 0 ja 1 Parannuskeinona arcsin muunnos Useimmiten kun ekologi tuskailee prosenttilukujen normaalisuuden kanssa on kuse tämäntyyppisestä aineistosta Erona aikaisempaan tunnetaan koko ryhmän koko ja ollaan kiinnostuneita sen jakautumisesta kahteen ryhmään. Esim. Montako poikasta pesään munituista munista selviytyi llentokykyiseksi Itävyysprosentti (100 siemenestä) Elossa säilyneiden osuus kokeessa esim talven yli Lyhytversojen osuus kaikista puun versoista Sex ratio Jakauman muoto riippuu keskimääräisestä osuudesta, jos iso tai pieni saadaan vino, jos lähellä puolta, saadaan symmetrinen Varianssi pienin lähellä puolta ONGELMIA Mallin ennusteet ei pysy 0-1 välillä Arc sin muunnos yleiseti käytössä, auttaa tähän, muttei varianssiin Tieto arvon luotettavuudesta menetetään kun siirrytään prosentteihin, k ja n mukaan

8 Moniluokkainen muuttuja
Tilanne sama kuin osuus-muuttujilla, mutta tulosvaihtoehtoja enemmän esim. 25 seuratusta puusta 5 kuollut (20%) 10 sairaita (40%) ja 10 tervettä (40%) usein samat tekijät selittävät koko ilmiön eli järkevä analysoida kaikkia luokkia kerralla ei mahdollista ANOVA-menetelmillä Kahteen luokkaan rajoittuminen on usein keinotekoista, luonnontilanteissa luokkia usein enemmän terve sairas kuollut kasvatuslaitoksesta jokeen istutetun lohenpoikasen väri esim 5 luokkaa ruskea-hopea - värit yleensäkin tautia ei lainkaan, lievä, ankara Voi edelleen esittää prosentteina, mutta ANOVA-tyyppisiä malleja ei edes yritetä

9 on/ei vasteet Edellä osuudet voitiin suoraan laskea (tunnettiin montako monestako) Toinen tapa esittää 2 tai moniluokkainen aineisto on lähteä yksilötason datasta Helpompi huomioida jatkuvat selittäjät esim. miten hyvin lisääntymistulos ja talveentumisaika selittää säilyikö talven yli Tämä viimeinen kohta esittää vain hyödyllisen tavan esittää kahden edellisen kuvaamaa dataa. Jos asetelma on kokeellinen ja satunnaistettu, tiedämme täsmälleen montako kalaa merkittiin ja vapautettiin tai montako kasvia infektoitiin, voimme helposti kertoa montako merkkiä näistä palautettiin tai moniko kasvi millaisiakin oireita esim. Useampaan luokkaan jaoteltuna Varsinkin luonnossa tehtävissä kokeissa ja suoraan luonnosta kerättävässä aineistossa joudumme käyttämään paljon jatkuvia selittäjiä eli kovariaatteja. Tällöin on helpompi kirjoittaa data yksilömuotoon sen sijaan että se jo luokiteltaisiin ontako monestako muotoon. Kirjaamme siis vain yksilön vasteen ja kaiken mahdollisen muun siitä mitatun aineiston samalla kertaa. Tämä on itse asiassa useimmiten helpoin ja suositeltavin aineiton kirjaamistapa Analyysien kannalta ei pitäisi on merkitystä sillä kummalla tavalla data on koodattu, mutta ANOVA-tyyppiset mallit eivät luonnollisesti pysty tällaista dataa käsittelemään

10 Yleistetty lineaarinen malli
Tavoitteena vasteen arvojen ymmärtäminen selittäjien avulla kuten ANOVA-malleissa Selittäjien vakiokertoimet eli mallin lineaarisuus Normaalijakaumaan pakottamisen sijaan todellinen jakauma vasteille ja virheille Muunnoksen sijaan linkkifunktio vasteelle Nyt lienee selvää, että lukumäärä ja osuusaineistoja ei kannata yrittää analysoida ANOVA-malleilla, vaan niille sopivat paremmin yleistetyt lineaariset mallit. Mitä ne sitten ovat Periatteessa on kyse ihan samanlaisesta mallintamisesta kuin ANOVA-tilanteessa Varsinainen malli eli lineaarinen osa sisältää jatkuvia ja luokiteltavia selittäjiä Malli on lineaarinen, koska kertoimet ovat vakiota EROT Otetaan huomioon vasteen todellinen jakauma (virhetermin jakauma) Muunnoksia ei tarvita, niiden sijaan käytetään linkkifuntiota Analysointimenetelmänä suurimman uskottavuuden menetelmä, jota käytetään ANOVA-malleissakin vaihtoehtona

11 Jakaumat Lukumäärä osuus (2 luokkaa) osuus (useita luokkia)
on/ei-muotoinen yksilötieto Poisson Negatiinen binomijakauma Binomijakauma Multinomijakauma (Bernulli) Tässä on esitetty ekologeille tärkeimmät yleistetyn lineaarisen mallin hyväksymät jakaumat Lukumääräaineistolle sopii usein Poisson, mutta varsinkin ekologisessa aineistossa usein nollaluokka tulee erityisen isoksi esim. Infektioiden määrä tietyn lajin yksilömäärä tietyssä paikassa Tähän on uskoakseni selkeät biologiset perusteet: tautia tai ei genetiikka ja fysiologia montako täplää tai miten ankara - ympäristö, muuta lajit jne Yksilömäärä - esiintyminen tai ei johtuu eri tekijöistä kuin pop. Koko Binomi ja multinomijakauma Bernulli jakauma eli 2 tai moniluokkainen vaste kuten väri suoraan Bin tai multinomi mukaan

12 Linkkifunktio lineaarinen osa Li = bo + b1x1i +b2 x2i+…bk xki
Linkkifunktio on yhteys vasteen odotusarvon (keskiarvon) ja mallin lineaarisen osan (selittäjien välillä) Vasteen arvoja ei muunneta, vaan etsitään muunnos ENNUSTEELLE, niin että selittäjien osa säilyttää lineaarisuuden Kanooninen linkki - eri jakaumille oletusarvoinen linkki, josta kannattaa tarkastelu aloittaa Yl lin mallissa ei tehdä muunnoksia lineaarinen osa kuten ANOVA Linkkifuntiolla lineaarisen osan antama ennuste kytketään vasteen odotusarvoon Linkkejä paljon, ekologia kaipaa lähinnä vain näitä

13 Log-linkki ennusteet aina positiivisia
lukumäärille (Poisson ja Negbin) log-linkki Li = log (ni) = > ni = e Li ennusteet aina positiivisia joskus vastena lkm per pinta-ala tai aika -> offset esim. vaste n/t -> muunnos log(n) ja selittäjäksi offset=t (aina log(t))

14 Logit-linkki OR=odds ratio riskisuhde pi/(1-pi)
logit (pi) = log (pi/(1-pi)) = log (OR) osuuksille (Bin ja Mult) logit-linkki Li = logit (pi) = > pi = e Li / ( 1 + e Li ) tulkinta mallissa: kun x kasvaa yhden yksikön, log(OR) kasvaa b yksikköä Yli- tai alihajonta -> varianssiparametri mukaan

15 Miten yleistettyjä lineaarisia malleja käytännössä tehdään
Tilasto-ohjelmapaketit SAS, GLIM jne sisältävät valmiit proseduurit SAS proc genmod käytetään harjoituksissa Malli kuten GLM, lisäksi jakaumaoletus Residuaalit muunnettuina normaaleiksi Valmiit paketit Samat vaiheet kuin ANOVA-malleissa Erityinen huomio mallin sopivuuden tutkimiseen Residuaalitarkastelut Selitysastetta ei käytetä, vaan kaikki testit perustuvat havaintojen ja mallin antaman ennusteen vertailuun x2 sukuisilla testeillä, joihin tutustutaan harjoitukisssa

16 Terminologiaa yleistetty linearinen malli - lineaarinen malli
kontigenssitaulu log-lineaarinen malli logit-malli logistinen regressio

17 Suurimman uskottavuuden menetelmästä
Lineaarisissa malleissa käytetään yleensä pienimmän neliösumman menetelmää (pns)- etsitään selittäjille kertoimet (parametri-arvot), jotka tuottavat pienimmän poikkeaman havaituista Maximum likelihood menetelmä tuottaa parametriarvot, jotka tuottavat todennäköisimmin havaitun datan maksimin etsintä laskennallisesti raskas

18 ML on yleisempi ja helpompi monimutkaisissa tapauksissa, laskennallisesti vaativampi
sopii myös ei-tasapainoiselle datalle käytetään varianssikomponenttien ja yleistettyjen mallien yhteydessä lähes poikkeuksetta REML on muunnos ML:sta; ero random-tekijöiden yhteydessä, tarkemmat estimaatit REML ja ML tuottaavat samat parametriarvot pns kanssa (variansseissa eroa)

19 Uskottavuusosamäärätesti
Log likelihood test Testauksessa hierarkiset mallit : mallien log likehood erotus jakautuu c2 jakauman mukaan vapausasteinaan vapauasteiden ero (deviance) Mallin sopivuuden ja yksittäisten selittäjien testauksessa c2 testit Muilta osin testaus kuten ANOVAssa

20

21

22

23

24

25

26 proc genmod data=simo.sifo91;
class alkup tausta; model pinfo=tausta alkup(tausta) pituus pit2 /dist=bin link=logit type1 type3 lrci aggregate=(tausta alkup pituus) dscale; estimate'villi vs laitos' tausta -1 1/exp; estimate'alk 2-5'alkup(tausta) /exp; lsmeans tausta/cl; output out=resi pred=pred resdev=resdev; run;

27 LR Statistics For Type 3 Analysis
Chi- Source DF DF Square Pr > ChiSq TAUSTA <.0001 ALKUP(T) <.0001 PITUUS PIT

28 Contrast Estimate Results
Chi Chi- Label Estimate Conf Lim Square Pr vi vs la <.0001 Exp(vi-la) alk <.0001 Exp(alk 2-5) alk Exp(alk 2-6) alk Exp(alk 5-6)

29 Miksi yleistetyt lineaariset mallit ovat tärkeitä ekologeille
Luotettavat, helposti ymmärrettävät tulokset ANOVA-mallien tavoin yleistyvät toistomittauksille ja satunnaistekijöille Monet tärkeät biologiset ilmiöt ovat luonteeltaan muuta kuin normaalisia Tutkimus välttää näiden luonnollisten vasteiden käyttöä vanhojen tilastollisten rajoitteiden vuoksi Luonnollinen tapa tehdä biologisesti mielekkäämpiä malleja Kukaan ei ole luvannut, että kaikki luonnossa noudattaa normaalijakaumaa Opit ANOVAsta hyvään käyttöön Yleistykset kuten niissä Kaikkein tärkein syy on puhtaasti biologinen: Tutkijat ovat alistuneet normaalijakauman ylivaltaan Tämä näkyy siinä, että tutkimuksen kannalta relevantiksi vasteeksi yritetään löytää normaalisti jakautunut vaste, vaikka jokin muu jakauma olisi luontevampi. Enää ei tarvitsisi.

30


Lataa ppt "Tilastoanalyysien merkitys ekologiassa"

Samankaltaiset esitykset


Iklan oleh Google