Luento 6: Ryhmittelyanalyysi ja erotteluanalyysi

Slides:

Advertisements

Samankaltaiset esitykset

Yhtälön ratkaiseminen

Advertisements

Konfirmatorinen faktorianalyysi

M M o o V V E E Ammatillisen huippuosaamisen mallintaminen Modeling Vocational Excellence.

Työurien repaleisuus ja pätkätyöt

S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä 10 – Juho Kokkala Optimointiopin seminaari - Syksy 2010 Kernel-tasoitus.

Psykologisen mittarin rakenteen tilastollinen analysointi

Kartoitustulosten havainnollistaminen Case TaY:n kirjasto

Peruskysymys: onko asteikko luonteeltaan luokitteleva vai jatkuva?

Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

ComPa- projektin aloitusseminaari Muurmansk TOIMINTATUTKIMUS KEHITTÄMISEN VÄLINEENÄ KYÖSTI KURTAKKO PROFESSORI LAPIN YLIOPISTO.

TYTILM1 Tilastolliset menetelmät

Hypoteesin testeistä Testin valinta perustuu aina tutkimusongelmaan ja kuvailuun (joka perustuu mitta-asteikoihin) Testaus ei koskaan ole itsenäinen, vaan.

USKONTO/aineenopettajat AD 4 Ryhmäkokoontuminen Martin Ubani, FT, TM Uskonnon didaktiikan yliopistonlehtori SOKLA.

1 Sektorin nimi Aikakauslehtien lukukerrat KMT Kuluttaja Syksy 2009/Kevät 2010.

RSA – Julkisen avaimen salakirjoitusmenetelmä Perusteet, algoritmit, hyökkäykset Matti K. Sinisalo, FL.

Anna tutki: Naisen asema työelämässä.

1 Sektorin nimi. 2 Aikakauslehtien lukukerrat KMT Kuluttaja 2009.

Kvantitatiivisen aineiston keruu ja analyysi (kl.2011) -harjoitukset pääaineopiskelijoille Mira Kalalahti Käyttäytymistieteiden laitos

Vain demonstraatio- käyttöön © Menetelmäopetuksen tietovaranto 1 / 8 Ristiintaulukointi Ristiintaulukointia käytetään tutkittaessa kahden luokittelu- tai.

Haaga-Helia Ammattikorkeakoulu

Luento 4: Regressioanalyysi

 Tutkimuksemme kantavana ajatuksena on uskomus siitä, että yhdistämällä matematiikan opetus johonkin konkreettiseen asiaan saavutetaan syvällisempää.

JYVÄSKYLÄN YLIOPISTO/COSSE InBCT 2.4/A-KIT 2003 A-KIT Agora Exploratory Environment for Knowledge Discovery Timo Aittokoski Olli Hokkanen Tommi Kärkkäinen.

S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 3 - Outi Somervuori Optimointiopin seminaari - Kevät 2010 The trouble with choice: Studing.

S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 27 – Tommi Kauppinen Optimointiopin seminaari - Syksy 2005 / 1 Oppiminen Bayes-verkoissa.

Tilastollisia menetelmiä

Aikasarja-analyysin perusteet

Käyttäytymistieteiden laitos

Elliptiset jakaumat Esitys 6 kpl Tuomas Nikoskinen Työn saa tallentaa ja julkistaa Aalto-yliopiston avoimilla verkkosivuilla. Muilta.

Luento 3: Varianssianalyysi

JYVÄSKYLÄN YLIOPISTO 2007 Teoria yhteiskuntatieteessä  teoria voi tarkoittaa –yleistä viitekehystä, kohdeilmiötä koskevaa aiempaa tieteellistä keskustelua.

tilastollinen todennäköisyys

HY/SVY – Kvantitatiivinen metodologia verkossa – Rakenneyhtälöt – Reijo Byman 1/17 INDEX Kvantitatiivinen metodologia verkossa Rakenneyhtälöt Reijo Byman.

Muuttujien riippuvuus

Rinnakkaisuus Järjestelmässä, jossa voi olla useita prosesseja rinnakkain suorituksessa voi tulla tilanteita, joissa prosessien suoritusta täytyy kontrolloida.

Kotitehtävän 21 ratkaisu Ensimmäisen havaintoaineiston luokittelu – Ryhmäkeskiarvot hakeutuvat niin, että ryhmään kuuluvat pisteet ovat mahdollisimman.

Organisational justice and health of employees: prospective cohort study M Kivimäki, M Elovainio, J Vahtera, J E Ferrie (2002)

Silmän käyttäytymisen tutkimus ja sovellukset Veikko Surakka Tampere University Computer Human Interaction Group.

Korrelaatio Kertoo kahden muuttujan välisestä lineaarisesta yhteydestä eli kuinka hyvin toisen muuttujan avulla voidaan ennustaa toisen muuttujan vaihtelua.

Standardointi tekee eri asteikollisista muuttujista vertailukelpoisia

TUME II / TILASTOLLINEN OSUUS DATAN LAATU SEPPO RÄSÄNEN SAVONIA-AMK TERVEYSALA KUOPIO KEVÄT TYTUT21.

S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Ohjaamaton oppiminen– Heikki Vesterinen Optimointiopin seminaari - Syksy 2010 Ohjaamaton.

5. Fourier’n sarjat T

Tilastollinen testaus Mann-Whitneyn –testiä voidaan käyttää hyvin pienille n 2 ≤ 8 keskikokoisille 9 ≤ n 2 ≤ 20 suurille n 2 ≥ 20 otoksille –voidaan käyttää.

VliSS-virtual laboratory in survey sampling Risto Lehtonen Jyväskylän yliopisto Matematiikan ja tilastotieteen laitos TieVie-seminaari Jyväskylä.

Oppimisryhmien kuulumisia. Oppimisryhmät Ryhmä 5 Tehotytöt Team Trinity Rämmät JASS Team 75% Integrointi-pantterit.

2 Tutkimuksen suunnittelu

5. Datan käsittely – lyhyt katsaus Havaitsevan tähtitieteen peruskurssi I, luento Thomas Hackman.

YFIS200 Kvantitatiivisten menetelmien syventävä kurssi

UNIVERSITY OF TURKU FAKTORIANALYYSI. U NIVERSITY OF TURKU FAKTORIANALYYSIN PERIAATE Etsitään muuttujajoukosta keskenään korre- loivien muuttujien kokonaisuuksia.

YFIA202 Kvantitatiiviset menetelmät, luento YTT Pertti Jokivuori Syksy luento (Ti )

UNIVERSITY OF TURKU LOGISTINEN REGRESSIOANALYYSI.

1 Kvantitatiiviset menetelmät HUOM! Tentti pidetään tiistaina klo Porthanian salissa PIV Uusintamahdollisuus rästitentissä ma 15– 17.

Pasi Tuominen MARC21 -tietuejoukkojen deduplikointi.

Määrällinen tutkimus.

YFIA200 Kvantitatiiviset menetelmät, luento

YFIA202 Kvantitatiiviset menetelmät, luento

VARIANSSIANALYYSI.

Monimuuttinimuuttuja-analyyseista

Havaintoaineiston kuvailusta

YFIA202 Kvantitatiiviset menetelmät, luento

YFIS200 Kvantitatiivisten menetelmien syventävä kurssi

YFIA200 Kvantitatiiviset menetelmät, luento

Tilastollinen koneoppiminen -lyhyt oppimäärä-

Muuttujamuunnoksista

Parametriset ja Ei-parametriset testit

YFIS200 Kvantitatiivisten menetelmien syventävä kurssi

Riippuvuustarkastelut

Korrelaatio- ja regressioanalyysi

Esityksen transkriptio:

Luento 6: Ryhmittelyanalyysi ja erotteluanalyysi Petri Nokelainen petri.nokelainen@uta.fi http://www.uta.fi/~petri.nokelainen Kasvatustieteiden yksikkö Tampereen yliopisto

Sisältö 1. Johdanto 2. Ryhmittelyanalyysin rajoituksia 3. K-keskiarvo ryhmittelyanalyysi PASW/SPSS-ohjelmalla 4. Hierarkkinen ryhmittelyanalyysi PASW/SPSS-ohjelmalla (havaintojen ryhmittely) 5. Hierarkkinen ryhmittelyanalyysi PASW/SPSS-ohjelmalla (muuttujien ryhmittely) 6. Erotteluanalyysi Lähteet

1. Johdanto Ryhmittelyanalyysin (klusterianalyysi, cluster analysis, CA) kehittäjänä pidetään R. C. Tryonia (1939). Ryhmittelyanalyysi pyrkii ryhmittelemään joko havaintoja (vastaajat) tai muuttujia (kyselylomakkeen väittämät) mahdollisimman samankaltaisiin ryhmiin (klustereihin). Vastaavan tyyppisiä analyyseja ovat erotteluanalyysi (discriminant analysis, DA) ja luokitteluanalyysi (classification analysis, CA). Ryhmittelyanalyysia voidaan verrata myös faktorianalyysiin, mutta ilman latentin piirteen oletusta. Normaali faktorianalyysi ryhmittelee muuttujia, mutta on myös olemassa ns. Q-faktorointi jossa havaintomatriisi on käännetty ja pyritäänkin ryhmittelemään vastaajia latentin piirteen mukaisiin faktoreihin.

General Linear Model (GLM) X (IV) Y (DV) (3.2) Pearsonin tulomomenttikorrelaatiokerroin (r) 1, jatkuva 1, jatkuva (3.3) Regressioanalyysi (Multiple RA) n, jatkuva 1, jatkuva Varianssianalyysi (n-way ANOVA) n, epäjatkuva 1, jatkuva Kahden ryhmän erotteluanalyysi (Two-group LDA) n, jatkuva 1, dikotominen (3.4) Monimuuttujaregressioanalyysi (Multivariate RA) n, jatkuva n, jatkuva Monimuuttujavarianssianalyysi (MANOVA) n, epäjatkuva n, jatkuva Erotteluanalyysi (LDA) n, jatkuva n, epäjatkuva Faktorianalyysi (EFA) n, latentti n, jatkuva Pääkomponenttianalyysi (PCA) n, latentti n, jatkuva Ryhmittelyanalyysi (CA) n, jatkuva n, jatkuva

Ryhmä- jäsenyyden ennustaminen DV IV Kovariaatit Analyysi Ei Yksis. DF n jatkuvaa Joitakin Seq. yksis. DF 1 diskr. n disk. Logit Ei Log.regressio Ryhmä- jäsenyyden ennustaminen n jatkuvaa ja/tai diskr. Joitakin Seq. log.regressio Ei Fakt. DF n diskr. n jatkuvaa Joitakin Seq. fakt. DF n jatkuvaa Ei Ryhmittelyanalyysi n jatkuvaa

1. Johdanto Ryhmittelyanalyysi sisältää useita sovelluksia, joista yleisimmin käytetään K-keskiarvo (K-Means) ja hierarkkista (Hierarchical) menetelmää. Havaintoja ryhmittelevä K-keskiarvo ryhmittelyanalyysi pyrkii ryhmittelemään havainnot keskiarvoiltaan mahdollisimman paljon toisistaan poikkeaviin ryhmiin. Havaintoja (vastaajia) ryhmittelevä hierarkkinen ryhmittelyanalyysi on luonteeltaan eksploratiivinen menetelmä, jossa tarkoituksena on jakaa havainnot mahdollisimman paljon toisistaan poikkeaviin ryhmiin. Muuttujia (väittämät) ryhmittelevä hierarkkinen ryhmittelyanalyysi on myös luonteeltaan eksploratiivinen menetelmä, nyt muuttujat pyritään jakamaan toisistaan eroaviin ryhmiin.

1. Johdanto K-keskiarvo ryhmittelyanalyysi on parametrinen menetelmä, jossa muuttujien mittaukset tulisi olla suoritettu vähintään välimatka-asteikolla. Hierarkkinen ryhmittelyanalyysi soveltuu lisäksi myös järjestys- ja nominaaliasteikollisille muuttujille. Molemmat menetelmät perustuvat kombinatoristen algoritmien käytölle, jolloin jokainen havainto sijoitetaan ryhmään ilman oletusta aineiston ”aiheuttavasta” taustalla olevasta todennäköisyysmallista. Muita lähestymistapoja ovat sekajakaumamallinnus (mixture modeling, esim. bayesilainen lähestymistapa) ja mode seeking (epäparametrinen lähestymistapa).

1. Johdanto Ryhmittelyanalyysi perustuu yleensä havaintojen tai muuttujien välisten Euklidisten etäisyyksien laskemiselle: Yleensä havaintoarvot standardoidaan ennen analyysia jotta eri asteikot eivät aiheuttaisi vinoumia tuloksiin. Jos kaikki muuttujat on mitattu samalla asteikolla, standardointia ei tarvita (usein tämä on tilanne esim. kyselylomakkeen väittämien kohdalla).

1. Johdanto

1. Johdanto Jos muuttujien mittaustaso on järjestysasteikollinen, voidaan hierarkkisessa ryhmittelyanalyysissa käyttää Euklidisen etäisyyden laskemisen sijaan Khiin neliöön perustuvaa laskentaa. SPSS: Analyze – Classify – Hierarchical Cluster Analysis Method: Measure: Counts (Chi-square measure)

Sisältö 1. Johdanto 2. Ryhmittelyanalyysin rajoituksia 3. K-keskiarvo ryhmittelyanalyysi SPSS-ohjelmalla 4. Hierarkkinen ryhmittelyanalyysi SPSS-ohjelmalla (havaintojen ryhmittely) 5. Hierarkkinen ryhmittelyanalyysi SPSS-ohjelmalla (muuttujien ryhmittely) 6. Erotteluanalyysi Lähteet

2. Ryhmittelyanalyysin rajoituksia K-keskiarvo ryhmittelyanalyysi on parametrinen menetelmä, jossa muuttujien mittaukset tulisi olla suoritettu vähintään välimatka-asteikolla. Tulosten tulkinta on järkevää suurillakin aineistoilla. Tutkijan on ennen analyysia asetettava oletus ryhmien (klustereiden) lukumäärästä (jokin luku joka on suurempi tai yhtä suuri kuin 2).

2. Ryhmittelyanalyysin rajoituksia Hierarkkinen ryhmittelyanalyysi soveltuu lisäksi myös järjestys- ja nominaaliasteikollisille muuttujille. Tulosten tulkinta kärsii suuresta otoskoosta, yleensä havaintojen määrä on enimmillään noin 50. Voidaan käyttää eksploratiivisesti eli ”louhia aineistosta” (data mining) ilman etukäteisoletusta n kappaletta klustereita.

2. Ryhmittelyanalyysin rajoituksia Ryhmittelyanalyysi on kokeellinen menetelmä, joka ei tuota helposti raporteissa esitettäviä ”objektiivisia” tunnuslukuja -> tutkijan vastuulle jää tulkita tulos tieteellisesti uskottavalla tavalla ja kuvata lukijalle mitä analyysin tulos käytännössä tarkoittaa.

Sisältö 1. Johdanto 2. Ryhmittelyanalyysin rajoituksia 3. K-keskiarvo ryhmittelyanalyysi PASW/SPSS-ohjelmalla 4. Hierarkkinen ryhmittelyanalyysi PASW/SPSS-ohjelmalla (havaintojen ryhmittely) 5. Hierarkkinen ryhmittelyanalyysi PASW/SPSS-ohjelmalla (muuttujien ryhmittely) 6. Erotteluanalyysi Lähteet

3. K-keskiarvo ryhmittelyanalyysi Tässä esimerkissä käytettävä aineisto on kerätty vuoden 2001 tammikuussa Helsingin, Joensuun, Tampereen, Oulun ja Kuopion avoimen yliopiston verkkokursseille osallistuneilta opiskelijoilta Internetissä olevalla kyselylomakkeella. Aineistossa on 143 miestä (49.8 %) ja 132 naista (49.1 %). Sukupuolitieto puuttuu kolmelta vastaajalta (1.1%). Yhteensä vastaajia on 269. Lomakkeessa on 28 Howard Gardnerin ’Multiple Intelligence’ -teoriaan (1983) liittyvää väittämää, joihin on vastattu seitsemänportaisella asteikolla (1 = Väittämä ei pidä lainkaan paikkaansa … 7 = Väittämä pitää täysin paikkansa).

3. K-keskiarvo ryhmittelyanalyysi Esimerkissä tarkastellaan vastaajien jakautumista kahden vahvuusalueen, kielellisen ja matemaattisen, suhteen. Analyysin tarkoituksena on tunnistaa erilaisia vastaajaryhmiä suhteessa em. vahvuusalueisiin.

3. K-keskiarvo ryhmittelyanalyysi Kumpikin vahvuusalue on analyysissa edustettuna summamuuttujan välityksellä (kieli_mean ja matem_mean) johon on tallennettu neljän yksittäisen väittämän keskiarvo. Kielellistä vahvuutta kuvaava summamuuttuja kieli_mean: m04 Kirjoittaminen on minulle luonteva tapa ilmaista itseäni. m40 Olen hiljakkoin kirjoittanut jotain sellaista, josta olen erityisen ylpeä tai josta sain tunnustusta. m56 Kielikuvat ja rikkaat kielelliset ilmaisut auttavat minua oppimaan tehokkaasti. m70 Äidinkieli ja/tai yhteiskunnalliset aineet olivat minulle koulussa helpompia kuin matematiikka, fysiikka ja kemia.

3. K-keskiarvo ryhmittelyanalyysi Matemaattista vahvuutta kuvaava summamuuttuja matem_mean: m01 Matematiikka, fysiikka tai kemia kuului lempiaineisiini koulussa. m30 Minua viehättää monimutkaisten ongelmien kanssa työskentely ja niiden ratkaisu. m39 Nautin peleistä tai "aivopähkinöistä", jotka vaativat loogista ajattelua. m54 Päässälasku on minulle helppoa.

3. K-keskiarvo ryhmittelyanalyysi SPSS: Analyze – Classify – K-Means Cluster Variables: kieli_mean, matem_mean Number of Clusters: 2 Method: Iterate and classify Save…: Cluster membership, Distance from cluster center Luo datamatriisiin kaksi uutta muuttujaa, joista ensimmäinen saa arvon 1 tai 2 kunkin vastaajan kohdalla (osoittaa kumpaan klusteriin vastaaja kuuluu) ja toinen muuttuja ilmoittaa kunkin vastaajan Euklidisen etäisyyden lähimmän klusterin keskipisteeseen (osoittaa kuinka lähellä ryhmän yleistä mielipidettä kyseinen vastaaja on). Options: Initial cluster centers, ANOVA table.

3. K-keskiarvo ryhmittelyanalyysi QUICK CLUSTER kieli_mean matem_mean /MISSING=LISTWISE /CRITERIA= CLUSTER(2) MXITER(10) CONVERGE(0) /METHOD=KMEANS(NOUPDATE) /SAVE CLUSTER DISTANCE /PRINT INITIAL ANOVA.

Lopulliset ryhmäkeskukset Vasemmanpuoleisen taulukon perusteella voidaan nähdä että ensimmäinen klusteri koostuu vastaajista, joilla on vahvemmat itse arvioidut kielelliset kuin matemaattiset kyvyt. Vastaavasti toisessa klusterissa on enemmän matemaattisesti kuin kielellisesti orientoituneita henkilöitä. Oikeanpuoleisesta taulukosta näemme, että ensimmäiseen klusteriin kuuluu 128 ja toiseen 141 vastaajaa (yhteensä 269 vastaajaa). Koska vastaajia on suurin piirtein sama määrä molemmissa ryhmissä, ryhmittelyanalyysin tulosta voidaan pitää tulkintakelpoisena.

Varianssianalyysi Varianssianalyysin tulokset esittävä taulukko osoittaa, että analyysiin valitut kaksi muuttujaa pystyvät ryhmittelemään tehokkaasti vastaajia eri klustereihin. Jos Sig. (p-arvo) olisi suurempi kuin .05, muuttujan poistamista kannattaa harkita, koska se ei tuo merkittävää lisäinformaatiota ryhmittelyyn.

Ryhmäjäsenyydet Vasemmanpuoleisessa taulukossa on ensimmäisen klusterin jäsenten sukupuolijakauma, oikeanpuoleisessa toisen. Verrattaessa sukupuolijakaumia ja kahden klusterin ryhmäkeskuksia havaitsemme, että tässä aineistossa naiset ovat omasta mielestään miehiä enemmän kielellisesti orientoituneita (70.3% vs. 28.9%) ja miehet puolestaan ovat naisia enemmän matemaattisesti orientoituneita (68.8% vs. 29.8%).

Klustereiden visuaalinen tarkastelu Antamalla SPSS –ohjelmassa komento Graphs – Legacy dialogs – Scatter/Dot – Simple Scatter - Define, saadaan määriteltyä ryhmittelyanalyysin visuaalinen esitys: Y Axis: kieli_mean. X Axis: matem_mean. Set Markers by: Cluster Number of Case [QCL_1] (tämä muuttuja luotiin ryhmittelyanalyysin ensimmäisessä vaiheessa). GRAPH /SCATTERPLOT(BIVAR)=matem_mean WITH kieli_mean BY QCL_1 /MISSING=LISTWISE .

Klustereiden visuaalinen tarkastelu Kuvassa olevat pisteet edustavat vastaajia, yksi piste voi kuvata useampaa kuin yhtä vastaajaa. Ryhmittelyanalyysi on pystynyt erottelemaan kaksi vastaajajoukkoa toisistaan hyvin.

K-keskiarvo ryhmittelyanalyysin raportointi Taulukko 1. Ryhmittelyanalyysin lopulliset ryhmäkeskukset (N=269) K-keskiarvo ryhmittelyanalyysin avulla selvitettiin erilaisia vastaajaryhmiä itse raportoidun kielellisen ja matemaattisen osaamisen suhteen. Analyysi toteutettiin kahden klusterin mallilla teoreettisen oletuksen mukaisesti. Vastaajat muodostivat kaksi ryhmää (klusteria, ks. Taulukko 1), joista ensimmäisessä olivat ne henkilöt jotka painottivat enemmän kielellistä osaamistaan (naiset n=90, 70.3%; miehet n=37, 28.9%), ja toisessa vastaavasti matemaattisemmin orientoituneet henkilöt (naiset n=42, 29.8%; miehet n=97, 68.8%).

Sisältö 1. Johdanto 2. Ryhmittelyanalyysin rajoituksia 3. K-keskiarvo ryhmittelyanalyysi PASW/SPSS-ohjelmalla 4. Hierarkkinen ryhmittelyanalyysi PASW/SPSS-ohjelmalla (havaintojen ryhmittely) 5. Hierarkkinen ryhmittelyanalyysi PASW/SPSS-ohjelmalla (muuttujien ryhmittely) 6. Erotteluanalyysi Lähteet

4. Hierarkkinen ryhmittelyanalyysi (havaintojen ryhmittely) Tarkastelemme seuraavaksi ainoastaan matemaattisen vahvuusalueen ryhmittelyvoimaa satunnaisesti poimitun (n=67) aliotoksen kohdalla (koko aineisto N=269).

4. Hierarkkinen ryhmittelyanalyysi (havaintojen ryhmittely) SPSS: Analyze – Classify – Hierarchical Cluster Variables: matem_mean. Cluster: Cases. Display: Statistics, Plots. Plots: Dendogram. Method: Between-groups linkage, Squared Euclidean distance, Transform Values: Z scores By variable. Save…: Single solution, Number of clusters: 2 Luo datamatriisiin uuden muuttujan, joka ilmoittaa arvolla 1 tai 2 kunkin vastaajan klusterin.

4. Hierarkkinen ryhmittelyanalyysi (havaintojen ryhmittely) CLUSTER /MATRIX IN ('C:\tmp\MI.sav') /METHOD BAVERAGE /PRINT SCHEDULE /PLOT DENDROGRAM.

Dendogrammi Satunnaisen aliotoksen (~20%, n=67) dendogrammista voidaan päätellä että vastaajat jakautuvat kahteen pääklusteriin (josta toisessa on 12 ja toisessa 55 jäsentä).

Dendogrammi Dendogrammin perusteella voidaan tarkastella kunkin vastaajan yksilökohtaisia tietoja, esimerkiksi pienemmän klusterin ( ) 12 vastaajasta kaksi (16.7%) on miehiä ja 10 (83.3%) on naisia. Puolet tämän klusterin jäsenistä opiskelee Helsingin yliopistossa (n=6), loput jakautuvat Joensuun, Tampereen ja Kuopion kesken.

Dendogrammi Suuremman klusterin ( ) jäsenten sukupuoli on jakautunut tasaisesti (45.5 % miehiä ja 50.9 % naisia). Myös yliopistot ovat tässä klusterissa tasaisesti edustettuina.

Sisältö 1. Johdanto 2. Ryhmittelyanalyysin rajoituksia 3. K-keskiarvo ryhmittelyanalyysi PASW/SPSS-ohjelmalla 4. Hierarkkinen ryhmittelyanalyysi PASW/SPSS-ohjelmalla (havaintojen ryhmittely) 5. Hierarkkinen ryhmittelyanalyysi PASW/SPSS-ohjelmalla (muuttujien ryhmittely) 6. Erotteluanalyysi Lähteet

5. Hierarkkinen ryhmittelyanalyysi (muuttujien ryhmittely) Tässä esimerkissä tutkimme neljän kielellistä ja neljän matemaattista vahvuusaluetta mittaavan väittämän kykyä ryhmittyä omien pääulottuvuuksiensa mukaisesti (ts. ”löytää toiset samanhenkiset väittämät”). Aineiston koko on 269.

5. Hierarkkinen ryhmittelyanalyysi (muuttujien ryhmittely) Kielellistä vahvuutta mittaavat väittämät: m04 Kirjoittaminen on minulle luonteva tapa ilmaista itseäni. m40 Olen hiljakkoin kirjoittanut jotain sellaista, josta olen erityisen ylpeä tai josta sain tunnustusta. m56 Kielikuvat ja rikkaat kielelliset ilmaisut auttavat minua oppimaan tehokkaasti. m70 Äidinkieli ja/tai yhteiskunnalliset aineet olivat minulle koulussa helpompia kuin matematiikka, fysiikka ja kemia.

5. Hierarkkinen ryhmittelyanalyysi (muuttujien ryhmittely) Matemaattista vahvuutta mittaavat väittämät: m01 Matematiikka, fysiikka tai kemia kuului lempiaineisiini koulussa. m30 Minua viehättää monimutkaisten ongelmien kanssa työskentely ja niiden ratkaisu. m39 Nautin peleistä tai "aivopähkinöistä", jotka vaativat loogista ajattelua. m54 Päässälasku on minulle helppoa.

5. Hierarkkinen ryhmittelyanalyysi (muuttujien ryhmittely) SPSS: Analyze – Classify – Hierarchical Cluster Variables: m04,m40,m56,m70,m01,m30,m39,m54. Cluster: Variables. Display: Statistics, Plots. Plots: Dendogram. Method: Between-groups linkage, Squared Euclidean distance, Transform Values: Z scores By variable.

5. Hierarkkinen ryhmittelyanalyysi (muuttujien ryhmittely) CLUSTER /MATRIX IN ('C:\tmp\MI.sav') /METHOD BAVERAGE /PRINT SCHEDULE /PLOT DENDROGRAM.

Dendogrammi Hierarkkinen ryhmittelyanalyysi osoitti, että kielellistä (m04,m40,m56,m70) ja matemaattista (m01,m30,m39,m54) vahvuutta mittaavat väittämät muodostivat vastaajien vastausten (N=269) perusteella kaksi ryhmää teoreettisen oletuksen mukaisesti.

Sisältö 1. Johdanto 2. Ryhmittelyanalyysin rajoituksia 3. K-keskiarvo ryhmittelyanalyysi PASW/SPSS-ohjelmalla 4. Hierarkkinen ryhmittelyanalyysi PASW/SPSS-ohjelmalla (havaintojen ryhmittely) 5. Hierarkkinen ryhmittelyanalyysi PASW/SPSS-ohjelmalla (muuttujien ryhmittely) 6. Erotteluanalyysi Lähteet

General Linear Model (GLM) X (IV) Y (DV) (3.2) Pearsonin tulomomenttikorrelaatiokerroin (r) 1, jatkuva 1, jatkuva (3.3) Regressioanalyysi (Multiple RA) n, jatkuva 1, jatkuva Varianssianalyysi (n-way ANOVA) n, epäjatkuva 1, jatkuva Kahden ryhmän erotteluanalyysi (Two-group LDA) n, jatkuva 1, dikotominen (3.4) Monimuuttujaregressioanalyysi (Multivariate RA) n, jatkuva n, jatkuva Monimuuttujavarianssianalyysi (MANOVA) n, epäjatkuva n, jatkuva Erotteluanalyysi (LDA) n, jatkuva n, epäjatkuva Faktorianalyysi (EFA) n, latentti n, jatkuva Pääkomponenttianalyysi (PCA) n, latentti n, jatkuva Ryhmittelyanalyysi (CA) n, jatkuva n, jatkuva

Ryhmä- jäsenyyden ennustaminen DV IV Kovariaatit Analyysi Ei Yksis. DF n jatkuvaa Joitakin Seq. yksis. DF 1 diskr. n disk. Logit Ei Log.regressio Ryhmä- jäsenyyden ennustaminen n jatkuvaa ja/tai diskr. Joitakin Seq. log.regressio Ei Fakt. DF n diskr. n jatkuvaa Joitakin Seq. fakt. DF n jatkuvaa Ei Ryhmittelyanalyysi n jatkuvaa

Erotteluanalyysi Linear discriminant analysis (LDA), discriminant function analysis (DFA). Tavoitteena ryhmäjäsenyyden ennustaminen selittävien muuttujien (predictors) avulla. Voiko työntekijän työnantajan (group1, group2, group3) ennustaa motivaatiomittarin skaalojen (MF1, … , MF6) keskiarvojen perusteella?

Erotteluanalyysi MANOVA (ks. luento 3) testaa, liittyykö ryhmäjäsenyys keskiarvojen eroihin selitettävien muuttujien (DV) välillä. Erotteluanalyysiksi asia muuttuu jos vastaus on myönteinen, jolloin DV -muuttujayhdistelmää voidaan käyttää ennustamaan ryhmäjäsenyyttä. Merkitsevä ero ryhmien välillä tarkoittaa sitä, että annettuna tietty luku voidaan ennustaa mistä ryhmästä se tulee.

Erotteluanalyysi MANOVA:ssa IV-muuttujat ovat ”ryhmiä” ja DV-muuttujat ennustajia. Erotteluanalyysissa IV –muuttujat ovat ennustajia (predictors) ja DV –muuttujat ”ryhmiä” (groups, grouping variables, classification variables).

Erotteluanalyysi MANOVA ja LDA voidaan käsitellä kanonisen korrelaation (CC, ks. luento 4) erityistapauksina. CC: tutkija poimii itse (jatkuvat) muuttujat vertailtaviin ryhmiin. CC: tutkitaan kahden muuttujaryhmän välisiä vaikutussuhteita, esim. Kuinka monella eri ulottuvuudella toisen muuttujaryhmän muuttujat liittyvät toisen muuttujaryhmän muuttujiin? Kuinka kahden muuttujaryhmän (canonical variate pairs) väliset ulottuvuudet tulkitaan? Miten voimakas on kahden muuttujaryhmän välinen korrelaatio?

Erotteluanalyysi IV1 Group Organization 1, 2, 3 IV2 Sex Male, Female DV1 MF1 Intrinsic Goal Orientation DV2 MF2 Extrinsic Goal Orientation DV3 MF3 Meaningfulness of Study DV4 MF4 Control Beliefs DV5 MF5 Self-Efficacy DV6 MF6 Test Anxiety

Erotteluanalyysi MANOVA Erotteluanalyysi DV1 MF1 IV1 MF1 DV2 MF2 Classification MANOVA Erotteluanalyysi DV1 MF1 IV1 MF1 DV2 MF2 IV2 MF2 IV1 Group DV1 Group DV3 MF3 IV3 MF3 DV4 MF4 IV4 MF4 IV1 Sex DV1 Sex DV5 MF5 IV5 MF5 DV6 MF6 IV6 MF6

Erotteluanalyysi Ennustuksen merkitsevyys. Voiko ryhmäjäsenyyden ennustaa luotettavasti ennustavien muuttujien avulla: Voimmeko sattumaa paremmin ennustaa kuuluuko uusi luokiteltava henkilö ryhmään 1, 2 tai 3 hänen motivaatioprofiilinsa perusteella? Vastaa yksisuuntaisen MANOVA:n IV –muuttujien päävaikutusten (main effects) tutkimista: Onko henkilön motivaatioprofiilien välillä ryhmäjäsenyydestä johtuvia eroja?

Erotteluanalyysi Merkitsevien erottelufunktioiden (discriminant function) lukumäärä. Ryhmät voivat poiketa toisistaan useiden ulottuvuuksien suhteen, esim. Yrityksen toimiala (teollisuus – koulutus – palvelu) Yrityksen kasvuorientaatio (matala – korkea) Yrityksen työntekijöiden sukupuoli (miesvaltainen – naisvaltainen)

Erotteluanalyysi IV1 Group Normal, dyslexy, ADHD1 IV2 Sex Boy, Girl DV1 ITPA Illinois Test of Psycholinguistic Ability DV2 WISC Wechsler Intelligence Scale for Children 1 Attention Deficit Hyperactivity Disorder

Erotteluanalyysi Merkitsevien erottelufunktioiden tulkinta. Ensimmäinen funktio erottelee tehokkaimmin, seuraavat (ortogonaaliset) tarjoavat täydentävää tietoa, esim. mikä testipisteiden kokoonpano erottelee tehokkaimmin seuraavien ulottuvuuksien suhteen: DF1: ”Normaali” – lukemisen erityisvaikeus – ADHD DF2: Lukemisen erityisvaikeus – ADHD

Erotteluanalyysi Lineaariset erottelufunktiot. Millä lineaarisilla yhtälöillä (painokertoimet) voidaan diagnosoida uusi, datamatriisin ulkopuolelta tuleva tapaus? Mikä osa tapauksista on luokiteltu yhtälöiden perusteella oikein? Mitkä tapaukset on luokiteltu väärin?

Erotteluanalyysi Vaikutussuhteen voimakkuus. Mikä on ryhmäjäsenyyden ja ennustajien (predictors) välisen vaikutussuhteen voimakkuus? DF1: Jos ensimmäinen erottelufunktio jakaa subjektit kahteen ryhmään (”normaalit”, ”ei-normaalit”), kuinka paljon em. ryhmien variansseilla on päällekkäisyyttä testipistemäärien varianssien kanssa?

Erotteluanalyysi Ennustavien muuttujien tärkeys. Mitkä ennustajista ovat tärkeimpiä ennustettaessa ryhmäjäsenyyttä? Mitkä motivaatioskaalojen testipisteet auttavat kohdentamaan yrityksille suunnattua henkilöstökoulutusta? Mitkä testipisteet auttavat erottelemaan lukivaikeuksiset ja ADHD -oppilaat muista?

Erotteluanalyysi Yleisimmässä käyttötilanteessa on yksi diskreetti DV (luokittelu) muuttuja ja useita IV –muuttujia (ennustajat, prediktorit). DA on parhaimmillaan luonnollisesti muodostuneiden ryhmien parissa ts. sallii erot ryhmien koossa. Luokittelun osalta rajoituksia on hyvin vähän: Pienimmässä ryhmässä tulee olla yhtä monta havaintoa kuin asetelmassa on IV –muuttujia. DA on herkempi poikkeaville havainnoille (outliers) kuin jakauman vinoudelle (skewness).

Erotteluanalyysi Rajoituksia: Varianssi-kovarianssimatriisien homogeenisuus Tarkastellaan kanonisten erottelufunktioiden hajontakuvia ryhmittäin SPSS –ohjelman Box´s M –testi Jos vaatimukset eivät täyty: Prediktorien transformaatio Erillisten kovarianssimatriisien käyttö (johtaa usein ylisovitukseen)

Erotteluanalyysi IV1´ * * IV1 * IV2´ IV2

Erotteluanalyysi Laskenta perustuu ryhmien sisäisen (Swg) ja välisen (Sbg) ristitulomatriisin vertailuun: Stotal = Swg + Sbg Wilksin Lambdan arvoon liittyvä F-approksimaatio ja sen tilastollinen merkitsevyys (ns. ”p –arvo”) osoittavat, voiko luokittelumuuttujaa kuvata prediktorien avulla.

Erotteluanalyysi WL –testin osoittaessa että ryhmien ja prediktorien välillä on vaikutussuhde, tarkastellaan em. vaikutussuhteen muodostavia lineaarisia erottelufunktioita. Lineaaristen erottelufunktioiden lukumäärä on joko prediktorien lukumäärä tai ryhmien df (kumpi on pienempi). Jos ryhmiä on kaksi, tarvitaan vain yksi erottelufunktio.

Erotteluanalyysi Di = di1z1 + di2z2 + . . . + dipzp Erottelufunktioita voidaan verrata regressioyhtälöihin, kullekin funktiolle on oma kerrointen joukko. Kunkin lapsen standardipisteet (ITPA1, WISC2) i:nnellä erottelufunktiolla: Di = di1z1 + di2z2 + . . . + dipzp d standardoitu DF kerroin z prediktorin standardipisteet 1) Illinois Test of Psycholinguistic Ability 2) Wechsler Intelligence Scale for Children

Erotteluanalyysi Cj = cj0 + cj1X1 + cj2X2 + . . . + cjpXp Luokittelussa kullekin ryhmälle kehitetään oma luokitteluyhtälö: Cj = cj0 + cj1X1 + cj2X2 + . . . + cjpXp cj0 vakio cj luokittelufunktion kerroin X prediktorin arvo

Erotteluanalyysi Kunkin vastaajan luokitteluyhtälön arvo (classification score) ratkaistaan ryhmittäin, ja vastaaja sijoitetaan korkeimman arvon saaneeseen ryhmään. Erikokoisten ryhmien tapauksessa voidaan ryhmäkoolle asettaa a priori todennäköisyys. Useimmat tietokonesovellukset tekevät tämän automaattisesti.

Sisältö 1. Johdanto 2. Ryhmittelyanalyysin rajoituksia 3. K-keskiarvo ryhmittelyanalyysi PASW/SPSS-ohjelmalla 4. Hierarkkinen ryhmittelyanalyysi PASW/SPSS-ohjelmalla (havaintojen ryhmittely) 5. Hierarkkinen ryhmittelyanalyysi PASW/SPSS-ohjelmalla (muuttujien ryhmittely) 6. Erotteluanalyysi Lähteet

Lähteet Gardner, H. (1983). Frames of mind. New York: Basic Books. Hair, J. F. J., Anderson, R. E., Tatham, R. L., & Black, W. C. (1995). Multivariate data analysis (4th ed.). Saddle River, NJ: Prentice Hall. Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning. Data mining, inference and prediction. New York: Springer. Huberty, C. J. (1994). Applied Discriminant Analysis. New York: John Wiley & Sons.. Metsämuuronen, J. (2003). Tutkimuksen tekemisen perusteet ihmistieteissä. Helsinki: International Methelp Ky. Nummenmaa, L. (2009). Käyttäytymistieteiden tilastolliset menetelmät. Ensimmäinen painos, uudistettu laitos. Helsinki: Tammi.

Lähteet Nummenmaa, T., Konttinen, R., Kuusinen, J., & Leskinen, E. (1997). Tutkimusaineiston analyysi. Porvoo: WSOY. Tabachnick, B. G., & Fidell, L. S. (2007). Using Multivariate Statistics. Fifth Edition. Boston: Pearson. Tryon, R. C. (1939/1970). Cluster analysis. New York: McGraw-Hill.