TUME II / Tilastollinen osuus TYTUT21 TUME II / Tilastollinen osuus Tunnusluvut Seppo Räsänen Savonia-amk Terveysala Kuopio Kevät 2008 5.4.2017
Tunnusluvut… Sijaintiluvut (kuvaavat tilastoaineiston keskimääräistä sijaintia) Moodi (tyyppiarvo) Mediaani Fraktiilit Keskiarvo Hajontaluvut (kuvaavat havaintojen keskinäistä sijaintia) Vaihteluväli Kvartaaliväli Keskihajonta (=standardipoikkeama) Varianssi Variaatiokerroin Muita tunnuslukuja Vinous Huipukkuus Keskiarvon luottamusväli Keskivirhe Jne.. Tunnuslukujen valinta riippuu aineistosta, tarvittavasta tulkinnasta ja tutkijan kokemuksesta 5.4.2017
Tunnusluvut… Mitta-asteikolle soveliaat keskiluvut x Moodi Mediaani Fraktiilit Aritmeettinen ka. Geometrinen ka. Laatuasteikko x Järjestysasteikko Välimatka-asteikko Suhdeasteikko 5.4.2017
Tunnusluvut… Mitta-asteikolle soveliaat hajontaluvut x Vaihteluväli Kvartiilipoikkeama Keskihajonta Varianssi Variaatiokerroin Laatuasteikko Järjestysasteikko x Välimatka-asteikko Suhdeasteikko 5.4.2017
Tunnusluvut… Moodi Voidaan laskea nominaaliasteikolliselle (laatueroasteikollinen, luokiteltu) muuttujalle, esim. eduskuntamme puolueista moodin muodostaa SDP (eniten edustajia) Moodi = tyypillinen arvo = arvo, joka esiintyy useimmin (tyyppiarvo) Muuttuja voi olla useampi moodinen (esim. bimodaalinen) Moodi saadaan selville frekvenssijakaumasta Esim. Laske muuttujan x arvoista moodi. 2, 13, 14, 13, 2, 5, 34, 13, 44, 8, 22, 89,4 Useimmin esiintyy luku 13 eli Mo = 13 5.4.2017
Tunnusluvut… Mediaani Mediaani lasketaan muuttujan suuruusjärjestykseen määritetystä listasta Mediaani on järjestetyn listan keskimmäinen alkio, jos on parillinen määrä tietoa, niin kyseeseen tulee kahden keskimmäisen arvon keskiarvo mediaanin pienempien ja suurempien arvojen lukumäärä on sama. Mediaanin laskentaan tarvitaan vähintään järjestysasteikollinen muuttuja Esim. Laske muuttujan x arvoista mediaani. Järjestä luvut ensi suuruusjärjestykseen 2, 13, 14, 13, 2, 5, 34, 13, 44, 8, 22, 89,4 2, 2, 4, 5, 8, 13, 13, 13, 14, 22, 34, 44, 89 Keskimmäinen luku on 13 eli Md = 13 5.4.2017
Tunnusluvut… Keskiarvo Lasketaan vain välimatka- ja suhdeasteikon luvuille x = (x1 + x2 + x3 + … + xn) / n = ∑ (xi / n) Jos erotellaan otoksesta ja perusjoukosta lasketut keskiarvot, niin x ja n viittaavat otokseen sekä μ ja N viittaavat perusjoukkoon Keskiarvo lasketaan havainnoista, vaikka muuttuja olisikin lopullisessa julkaisussa luokiteltu Keskiarvo on ”herkkä” poikkeaville luvuille, poikkeava arvo ”vetää” keskiarvoa puoleensa, esim. opiskelijoiden ikä olisi tyypillisesti välillä 20..24, mutta yksi opiskelija olisi 57-vuotias keskiarvo on kasvaa tyypillistä arvoa isommaksi Otoksen keskiarvoon tulee suhtautua varauksella, sillä otoksen valinta (sattuma) vaikuttaa keskiarvoon Keskiarvo voidaan laskea Likert-luokitukselle, jos muuttujan arvot ovat jakautuneet normaalisti (tiedot ovat Gausin käyrällä, tarkastellaan vinouman (skewness) arvioinnin yhteydessä) Painotetun keskiarvon laskenta on joskus tarpeellinen. Painotus tehdään jonkin asian suhteen, esim. naisten osuus koko valtakunnassa, kun tiedetään kunnittain asukasluvut ja naisten osuudet. Painotus tapahtuu asukasluvulla. Esim. Laske muuttujan x arvoista keskiarvo. 2, 13, 14, 13, 2, 5, 34, 13, 44, 8, 22, 89,4 X = 263 / 13 ≈ 20 5.4.2017
Tunnusluvut… Fraktiilit Puolet (50%) havainnoista on pienempiä kuin mediaani, vastaavasti suurempia Vastaavasti voidaan määrittää p% fraktiili Esim. Q1 = Alakvartiili, arvo, jota pienempiä on 25% muuttujan arvoista Q2 = Mediaani, arvo, jota pienempiä on 50% muuttujan arvoista Q3 = Yläkvartiili, arvo, jota pienempiä on 75% muuttujan arvoista Esim. Laske muuttujan x arvoista alakvartiili. Järjestä luvut ensi suuruusjärjestykseen 2, 13, 14, 13, 2, 5, 34, 13, 44, 8, 22, 89,4 2, 2, 4, 5, 8, 13, 13, 13, 14, 22, 34, 44, 89 Q1 = 5 boxplot-kuvio 5.4.2017
Tunnusluvut… Vaihteluväli Vaihteluväli ulottuu pienimmästä arvosta suurimpaan arvoon Vaihteluvälin pituus on havaintoaineiston yhden muuttujan suurimman ja pienimmän arvon erotus Havaintoaineiston arvot ovat vaihteluvälin sisällä, päätepisteet mukaan luettuna Esim. EU-komissaarien iän vaihteluväli on (40v,66v) ja vaihteluvälin pituus on 26v Vaihteluväli on siis helppo määrittää, mutta se ei ole välttämättä riittävä ainoana tunnuslukuna Kvartiiliväli Kvartiiliväli ulottuu alakvartiilista (Q1) yläkvartiiliin (Q3) Ei ole yhtä herkkä poikkeaville arvoille kuin vaihteluväli Kvartiiliväli voidaan ilmoittaa vasta lajitelluista arvoista Kvartiiliväliin kuuluu 50% luvuista, neljännes jää sen alapuolelle ja neljännes jää yläpuolelle Vastaavasti voidaan muodostaa väli, jonka ala- ja yläpuolelle jää vaikkapa 10% havaintoaineista (esim. lasten pituuden ja painon seuranta, ajatus on lähellä viitearvon laskentaa) Kvartiilipoikkeama Q on puolet kvartiilivälin pituudesta Q=(Q3-Q1)/2 5.4.2017
Tunnusluvut… Keskihajonta (”yksimielisyyden mitta”) Vaihteluväli ja kvartiiliväli mittaa vain osaa havainnoista Keskihajonta huomioi kaikki havaintoaineiston havaintoarvot Keskihajonta = standardipoikkeama (standard deviation, SD) Keskihajonnan voi laskea vain välimatka- tai suhdeasteikon muuttujille Otokselle keskihajonnan tunnus on s ja koko populaatiolle σ (sigma) Koko populaatiolle (tai jos n>30) voidaan käyttää jakajana n-1 tilalla N (ei vaikuta tulokseen enää paljoakaan) Homogeenisille arvoille keskihajonta on pieni ja vastaavasti heterogeeniselle aineistolle suuri Keskihajonta kannattaa ilmoittaa raportissa keskiarvon yhteydessä Hyvinkin erilaisilla jakaumilla voi olla likimain samat keskiarvo ja keskihajonta. Tulkintoja tehtäessä on aina varmistettava myös jakauman muoto. 5.4.2017
Tunnusluvut… Keskihajonta Viitearvo lasketaan yleisesti kaavalla X ± 1,96*SD 5.4.2017
Tunnusluvut… Keskihajonta kaksi erilaista normaalijakaumaa 5.4.2017 pieni keskihajonta suuri keskihajonta 99,7% 99,7% 95,5% 95,5% 68,3% 68,3% -3s -2s -1s x 1s 2s 3s -3s x 3s -2s 2s Mo Md Mo Md -1s 1s 5.4.2017
Tunnusluvut… Varianssi ja variaatiokerroin Keskihajonnan neliö on varianssi (”kaavasta otetaan pois neliöjuuri”) eli varianssi on s2 Varianssi ei kuvaa niin hyvin hajontaa, sillä potenssiin korotuksen ansiosta vastaus ei ole enää samassa yksikössä Jos esimerkiksi varianssi on 5 yksikköä ja havaintoarvojen suuruusluokka on 100 tai 10 000, niin varianssi on suhteellisesti isompi ensimmäiseen suuruusluokkaan nähden Variaatiokerroin suhteuttaa varianssin havaintoarvojen suuruusluokkaan Otokselle V=s/ ja populaatiolla V=σ/μ (sigma/myy) Varitaatiokertoimen arvo on prosenttiluku eli kuinka paljon keskihajonta on keskiarvosta 5.4.2017
Tunnusluvut… Vinous (skewness) Keskihajonta mittaa muuttujan arvojen hajaantumista keskiarvon ympärille, mutta se ei huomioi hajaantumisen suuntaa ”arvoja en enemmän keskiarvon tietyllä puolella, eikä tasaisesti molemmilla puolilla keskiarvoa” Vinous kuvaa, miten tasaisesti arvot sijoittuvat keskiarvon molemmin puolin Vinouden etumerkki kertoo suunnan ja itseisarvo kertoo suuruuden Jos luvut ovat keskiarvon molemmin puolin tasaisesti, niin vinous on nolla Positiivinen vinous kertoo, että jotkut arvot ovat poikkeuksellisen isoja Negatiivinen vinous kertoo, että jotkut arvot ovat poikkeuksellisen pieniä Jos |vinous|<0,2 ja jakauma ei ole useampi moodinen, niin jakauma voidaan olettaa normaalisti jakautuneeksi (muitakin menetelmiä jakauman normaalisuuden testaamiseen on olemassa) Negatiivinen vinous Positiivinen vinous 5.4.2017
Tunnusluvut… Huipukkuus (kurtosis) Huipukkuus kuvaa myöskin jakauman muotoa Normaalijakauman huipukkuus on nolla Huipukkuus kertoo jakauman terävyyden Positiivinen huipukkuus kuvaa terävähuippuisesta jakaumasta ja negatiivinen kuvaa jakauman laakeudesta tai monihuippuisuudesta A, positiivinen huipukkuus B, normaali jakauma C, negatiivinen huipukkuus 5.4.2017
Tunnusluvut… Vinous ja huipukkuus 5.4.2017
Tunnusluvut… Keskiarvon luottamusväli Tunnuslukujen ilmoittamisen yhteydessä kuvataan, miten luotettavia kyseiset luvut ovat Jos otoksesta lasketun keskiarvon perusteella ennustetaan (estimoidaan) perusjoukon keskiarvoa, ilmoitetaan keskiarvon luottamusväli Luottamusväli kertoo millä välillä todellinen perusjoukon tunnusluvun arvo on tietyllä todennäköisyydellä Luottamustaso kuvaa, mikä on tutkimuksen luotettavuus (riski kuvaa, millä todennäköisyydellä tulos tulee sattumasta) Luottamustaso on yleensä 95% (0,05 on riskin osuus) Esim. keskiarvo on 95%:n varmuudella välillä (175,9 cm, 178,8 cm) z=virheeseen liittyvä normaalijakauman arvo (esim. 1,96), s=keskihajonta, n=otos 5.4.2017
Tunnusluvut… Standartoidut muuttujat Standardoidun muuttujan arvo ilmoittaa jokaiselle havainnolle sen, kuinka paljon ja mihin suuntaan havainto poikkeaa kaikkien havaintojen kaskiarvosta. Poikkeaman suuruus suhteutetaan keskihajontaan eli standardoidun muuttujan etumerkki ilmoittaa, kummalla puolella keskiarvoa havainto sijaitsee. miinusmerkki tarkoittaa sitä, että havainto on keskiarvotulosta pienempi plusmerkki taas sitä, että havainto on keskiarvotulosta suurempi. itse lukuarvo kertoo sen, kuinka monen keskihajonnan (mitan) päässä keskiarvosta havainto sijaitsee. Standardoidun muuttujan käyttö antaa mm. mahdollisuuden verrata kahden eri mittaustuloksen poikkemaa keskiarvotuloksesta myös siinä tapauksessa, että on mitattu eri asioita ja on käytetty eri mitta-asteikkoa. (esim. vertailu, onko potilaan verenpaine vai sokeriarvo otokseen nähden huonompi) Standardoidun muuttujan keskiarvo = 0 ja keskihajonta = 1 kaikissa tapauksissa. SPSS:llä standartoidut muuttujat lasketaan seuraavasti: Analyze / Descriptive Statistics / Descriptives valitse muuttujat (muuttujat, joita vertailet) Variables-listaan laita rasti kohtaan ”Save standardized values as variables” nyt on uudet muuttujat, jotka kuvaavat standartoituja arvoja Esim. jonkun muuttujan suhteen tiedetään keskiarvo, keskihajonta ja havaintoyksikön z, niin voidaan laskea ko. havaintoyksikön arvo. Z on kerroin eli kaava on xi=z*s+ 5.4.2017
Tunnusluvut… Harjoitus 1 Määritä palkkojen 1850 €, 1950 €, 2250 €, 1450 €, 1500 €, 1800 €, 1600 €, 2100 €, 1900 €, 1850 €, 2500 €, 1700 €, 2000 €, 2200 €, 1650 €, ja 2450 € moodi, mediaani keskiarvo. Koearvosanat ilmoitetaan asteikolla A,B,C,D,E (E on ylin, A on alin). Määritä seuraavien arvosanojen moodi ja mediaani: A,B,A,C,D,E,D,A,B,C,D,A,C,D,E,B,A,E,D,C,A,D,C,B,B,C,B,C,A,B,C,E,B 5.4.2017
Tunnusluvut… Harjoitus 2 Päättele puuttuvat kohdat. Kyseessä on arvosanojen Jakautuminen hoitotyö-kurssilla. Arvosanat ovat 1…5 Testaa saamasi tulokset SPSS-ohjelmalla. 5.4.2017
Tunnusluvut… Harjoitus 3 Laske ratsastukoulu-aineistolle jollekin jatkuvalle muuttujalle ja jollekin diskreetille muuttujalla Vaihteluvälit Keskiluvut (huomaa ero jatkuvan ja diskreetin muuttujan suhteen) Fraktiilit Hajontaluvut Tarkastele Likert-asteikollisten muuttujien normaalijakaumaisuutta eli voiko ko. muuttujalle laskea esim. keskiarvoa (vinous, huipukkuus, diagrammin laatu) Laske muuttujille keskihajonnat Oletetaan, että kyseessä on otos, mikä on jonkin muuttujan keskiarvon luottamusväli Mitä edellä kuvattujen tunnuslukujen valossa voisi päätellä? Laske vaikkapa kilpailu-muuttujalle tunnuslukuja seuraavilla SPSS-ohjelman valikkotoiminnoille ja huomioi tulosten erot Annalyze / Descriptive Statistics / Frequencies painikkeen “Statistics” alta valitaan sopivat tunnusluvut Analyze / Descriptive Statistics / Descriptives painikkeen “Options” alta valitaan sopivat tunnusluvut Analyze / Descriptive Statistics / Explore painikkeen “Statistics” alta valitaan sopivat tunnusluvut (tällä valinnalla tulee suoraan kaikki tärkeät tunnusluvut) Standartoidut muuttujat ”kilpailu” ja ”hevosen koulutus” mitä voi tulkita yksittäisille havaintoyksiköille 5.4.2017