tilastollisen tutkimuksen vaiheet ongelmanasettelu tietojen hankinta aineiston keräys, tietokannat, suunnittelu tietojen muokkaus järjestäminen, luokittelu, taulukointi aineiston analyysi muuttujien arviointi mallien konstruktiot teoreettiset ja metodiset selvitykset hypoteesien testaaminen hypoteesin pätevyyden arviointi raportointi
peruskäsitteitä… satunnaisvaihtelu tilastollinen malli tilastollisesti mitattavalla ilmiöillä on usein systemaattinen osa ja satunnaisosa tilastollinen malli yksi tapa esittää ongelmanasettelun kannalta keskeiset tulokset siten, ettei oletuksiin liittyvä informaation häviäminen kyseenalaista tuloksia deterministinen ilmiö satunnaisilmiö
peruskäsitteitä… tilastollinen epävarmuus todennäköisyyslaskenta tapahtuman uskottavuus lukujen 0 ja 1 välillä 0 = mahdoton tapahtuma 1 = epävarma tapahtuma todennäköisyyslaskenta matemaattinen malli satunnaisilmiöiden käyttäytymiselle tapahtuma satunnaisilmiön tulosvaihtoehtojen joukko perusjoukon osajoukko esim. tapahtuma A = ”voitan lotossa 7 oikein”
peruskäsitteitä… perusjoukko eli peruspopulaatio kaikkien tutkimuksen kohteena olevien tilastoyksiköiden muodostama joukko havaintoaineisto (data matrix) usein taulukkomuodossa esitetty perusdata muuttuja (variable) objektia kuvaava muuttuva ominaisuus attribuutti on muuttujan mahdollinen arvo ominaisuuden mittaaminen (measuring) sääntö, jolla tutkittavaan objektiin liitetään sen jotain ominaisuutta kuvaava mittaluku
1-ulotteinen jakauma luokittelematon aineisto luokiteltu aineisto havaintotulosten esitys ”sellaisena kuin ne ovat” luokiteltu aineisto määritellään luokat, joihin muuttujat jaetaan ->frekvenssijakauma = luokkiin kuuluvien havaintojen lukumäärä esim. kuinka monta keihäänkärkeä kuuluu pituuden perusteella luokkaan 30-35 cm luokitus (grouping) tutkija päättää itse luokituksestaan
1-ulotteinen jakauma kvalitatiivinen muuttuja kategorinen muuttuja mitataan suhde- ja järjestysasteikolla esim. esinetyyppien jako kvantitatiivinen muuttuja määrällinen muuttuja välimatka- ja suhdeasteikko diskreetti muuttuja muuttoja muodostuu erillisistä yksiköistä esim. keihäänkärkien väri tai tyyppi jatkuva muuttuja muuttuja, jonka mittatarkkuus riippuu käytettyjen mittarien tarkkuudesta esim. keihäänkärjen metallin määrä
mitta-asteikot muuttujan laji mitta-asteikko sallitut toimenpiteet esimerkki numeerinen kategorinen suhdeasteikko (ratio scale) välimatka-asteikko (interval scale) järjestysasteikko (ordinal scale) luokka-asteikko (nominal scale) kertolasku jakolasku yhteenlasku vähennyslasku järjestäminen luokittelu keihäänkärjen pituus esineen löytövuosi metalliesineen korrosioaste sukupuoli
frekvenssijakauman grafiikka pylväsdiagrammit vaaka pysty sektori- eli piirakkadiagrammi viivadiagrammi pistediagrammi aluediagrammi säteittäinen diagrammi lieriö-, kartio- ja pyramididiagrammit
luokittelua… luokittelun edellytykset todellinen luokkaraja; jokaisen havainnon tulee olla mukana yksittäinen havainto voi kuulua vain yhteen luokkaan ongelmana muuttujien luokituksessa on usein se luetaanko muuttuja ylempään vai alempaan (mahdolliseen) luokkaan todellinen luokkaraja; esim. luokan todellinen alaraja on luku, jotka suuremmat havaintoarvot on pyöristettävä luokan pyöristetyksi alarajaksi (pyöristetään ylöspäin) todelliset luokkarajat saadaan “venyttämällä” pyöristettyjä luokkarajoja puoli mittayksikköä luokasta “ulospäin” Esim. Välin 35-44 (pyöristetty luokkaraja) =>todellinen luokkaraja = 34.5
luokittelua… yleensä pyritään tasaväliseen luokitukseen Tilasto-ohjelmat tekevät automaattisesti tasavälisen luokituksen Kuinka moneen luokkaan jako tehdään? tutkija voi itse päättää myös ns. Törnqvistin kaavaa voidaan käyttää 3 —— 3 —— √ n ≤ L ≤ 2 x √ n n = havaintojen lukumäärä Esim. 70 henkilön painot (kuutiojuuri 70:stä on 4,1 ja kaksinkertaisena 8,2) => L = 6 (“keskimmäisin” kokonaisluku)
luokittelua… terminologiaa Ei = luokka Li = todellinen alaraja Ui = todellinen yläraja fi = frekvenssi Ci = Ui – Li = luokkavälin pituus ki = (L1 + Ui)/2 = luokkakeskus p = fi/n = suhteellinen frekvenssi n = havaintojen kokonaismäärä Pi = 100 * pi = 100 * fi/n = prosentuaalinen frekvenssi
luokittelua… esim. 70 henkilön paino (Ei) Li = 45 Ui = 105 fi = vaihtelee eri luokissa Ci = Ui – Li = luokkavälin pituus = 10 pi = fi/n = suhteellinen frekvenssi = vaihtelee eri luokissa (esim. luokassa 49.5-59.5 kg absoluuttinen frekvenssi on 12) (pi = suhteellinen frekvanssi 12/70 = 0.171) n = 70 Pi = prosentuaalinen frekvenssi (esim. Pi = 0.171 * 100 = 17.1 %)
luokittelua… voidaan myös määritellä seuraavan luokan pyöristetty alaraja yhtä mittayksikköä suuremmaksi kuin edellisen luokan yläraja sovittava kumpaan luokkaan ko. tapaukset liitetään siis EI esim 45-55 ja 55-65 VAAN 45-54 ja 55-64 tai 44.5 – 54.5 graafisessa esityksessä pylväiden keskipisteen “sijainniksi” valitaan luokkakeskus (esim. 70 henkilön painot: luokan 44.5-54.5 luokkakeskus ki on 49.5 kg)
luokittelua… histogrammi graafinen esitys, joka esittää tarkasteltavan muuttujan havaittujen arvojen jakautumista jossakin luokkajaossa suorakaiteiden pinta-alojen avulla jaetaan muuttujan vaihtelualue luokkiin lasketaan frekvenssi jokaisessa luokassa piirtäminen muodostetaan muuttujan havaittujen arvojen luokiteltu frekvenssijakauma suorakaiteen kantoina luokkaväli > korkeus määrätään siten, että suorakaiteen pinta-alojen on oltava suoraan verrannollinen vastaaviin luokkien kuuluvien havaintojen frekvenssin kanssa
luokittelua… histogrammi voi olla tasavälinen tai epätasavälinen yleensä historgrammikin tehdään tasavälisenä luokituksena summafrekvenssi (eli kumulatiivinen frekvenssi) kertoo muuttujan eri arvoihin liittyvät summafrekvenssit suhteellinen (eli otoskertymäfunktio) prosentuaalinen