lineaarinen regressio Pearsonin korrelaatiokerroin rxy = nΣ xy – ΣxΣy , √nΣx2 – (Σx)2 √nΣy2 – (Σy)2 muuttujien x ja y välisen lineaarisen yhteyden voimakkuuden ja suunnan mitta kvantitatiivinen tulkinta mahdollinen osoittajan ja nimittäjän yksiköt ovat samat korrelaatiokertoimella ei ole yksikköä molemmilla korrelaatiokertoimilla oletuksena normaalijakauma
frekvenssitaulukko havaintotiedot tallennetaan yleensä frekvenssitaulukoihin moniulotteinen frekvenssitaulukko sisältää vähintään kaksi muuttujaa muuttujien välille voidaan laskea korrelaatioita sisältävät eri mitta-asteikoilla tallennettuja havaintoja voidaan valita sopivia muuttujia analyysejä varten tutkijan kysymysten perusteella
tilastollinen testaus kysymyksenä esim. kuuluvatko havainnot populaatioon, jonka keskiarvo ja keskihajonta tunnetaan Esim. keihäänkärkien pituudet (cm) 17.1, 14.9, 15.2, 18.1, 16.4, 19.1, 18.5, 14.6, 17.2 olkuperäisen populaation keskiarvo 14.8 cm nollahypoteesi (null hypothesis): otokset kuuluvat alkuperäiseen populaatioon H0: μ = 14.8 cm H1: μ ≠ 14.8 cm Z = X – μ X = otoskeskiarvo σ √ n μ = alkuperäisen populaation keskiarvo σ = keskihajonta
Tilastollinen testaus keihäänkärkien pituudet… Z = X – μ = 16.8 – 14.8 = 2.86 σ √ n 2.1 √ 9 mitä enemmän testiarvo poikkeaa nollasta, sitä voimakkaammin se todistaa nollahypoteesia vastaan P(|Z|>2.86 | H0 on tosi) 2[1 – Φ(2.86)] =0.0042 kuvaa testin havaittua merkitsevyystasoa (probablility value tai p-value) phav = 0.0042 eli 0.43 %
Tilastollinen testaus Vaihtoahtoiset johtopäätökset: H0 on tosi, mutta perusjoukosta on saatu harvinainen otos (todennäköisyys tälle on kuitenkin hyvin pieni) H0 ei ole tosi; otos on saatu jostain muusta perusjoukosta (otos todistaa nollahypoteesia vastaan riskitasolla 0.0042) eli todennäköisyys sille, että otos on saatu jostain muusta populaatiosta on suuri Huom. kysymyksessä on kaksisuuntainen testiasetelma
Tilastollinen testaus nollahypoteesin testausvirheet nollahypo-teesi hyväksytty hylätty tosi oikea päätös I tyypin virhe väärä II tyypin virhe
Tilastollinen testaus Yksisuuntainen vaihtoehtohypoteesi P(|Z|>2.86 | H0 on tosi) 1 – Φ(2.86) = 0.0021 I tyypin virheen todennäköisyys vain 0.0021 (vain puolet kaksisuuntaisen vaihtoehtohypoteesin todennäköisyydestä) vain testisuureen suuret positiiviset arvot hyväksytään todisteeksi nollahypoteesia vastaan yksisuuntaisen testiasetelman valinnan perustuttava johonkin lisätietoon
Tilastollinen testaus Merkitsevyystaso (level of significance) mittaa kuinka suuri riski hypoteesin hylkäämiseen liittyy riskiä kuvaa parhaiten merkitsevyystaso aikaisemmin (ennen tietokoneaikaa) käytettiin taulukoihin valmiiksi laskettuja riskitasoja 1.960 merkitsevyystaso 0.05 (5 %) 2.576 merkitsevyystaso 0.01 (1 %) 3.291 merkitsevyystaso 0.001 (0.1 %)
Tilastollinen testaus Tilastollisen testin valintaan vaikuttavia tekijöitä mikä on käytetty mitta-asteikko onko kyseessä jatkuva vai epäjatkuva muuttuja onko muuttuja normaalisti jakautunut ovatko otokset riippumattomia (independent) vai jollakin tavalla riippuvaisia ovatko havainnot toisistaan riippumattomia
Tilastollinen testaus Parametriset testit vaativat voimakkaita oletuksia populaation jakauman muodosta välimatka- ja suhdeasteikoille sopivia testejä Ei-parametriset testit (non-parametric tests) jakaumista riippumattomat testit luokka- ja järjestysasteikolle sopivat testit voidaan testata jakaumien sijaintia koskevia hypoteeseja selvitetään populaatioiden jakaumien muodossa havaittavia eroja
Tilastollinen testaus Yhteensopivuustestit (tests of goodness of fit) selvitetään onko otoksena saatu havaintoaineisto peräisin populaatiosta, jonka jakauma tunnetaan ennalta Riippumattomuustestit (tests of independence) selvitetään ovatko luokitteluperusteena käytetyt ominaisuudet toisistaan riippumattomia vaikuttaako ominaisuuden A esiintyminen ominaisuuden B luokkien esiintymistiheyteen vai esiintyvätkö ne ominaisuudesta A riippumattomasti
Tilastollinen testaus Χ2 yhteensopivuustesti Esim. onko kirveiden pituudella (cm) vaikutusta käyttöjälkien esiintymiselle? 0-9 10-19 20-29 30-39 Σ havaitut frekvenssit Ei kj 7 6 11 15 39 On kj 14 11 5 8 38 Σ 21 17 16 23 77 0-9 10-19 20-29 30-39 Σ odotetut frekvenssit Ei kj 0.6. 8.6 8.1 11.6 39 On kj 10.4 9.0 7.9 11.4 38 Σ 21 17 16 23 77
Tilastollinen testaus Χ2 = Σ Σ (oij – eij)2 oij Χ2 = (7-10.6)2 + (6-9.6)2…(8-11.4)2 =8.173 10.6 8.6 11.4 vapausasteet lasketaan vähentämällä rivien ja sarakkeiden arvoista luku 1 df = (2-1) x (4-1) = 3 Χ20.05 = 7.815 < 8.173 H0 = pituuden ja käyttöjälkien välillä ei ole yhteyttä
Tilastollinen testaus Esim. kirveiden koon ja käyttöjälkien riippuvuus johtopäätös: koska Χ20.05 = 7.815 < 8.173 kirveen koon ja käyttöjälkien välillä on riippuvuutta todennäköisyys, ettei riippuvuutta esiinny on vähemmän kuin 5 % Χ2-testin yleiset käyttöedellytykset korkeintaan 20 % odotetuista frekvensseistä on pienempiä kuin 5 kaikki odotetut frekvenssit ovat suurempia kuin 1