SPSS Minikurssi 25.11.. Päivän tavoitteita: osaatte Dokumentoida työskentelyänne Tavoitteena pystyä toistamaan analyysit vaikka 5 vuoden kuluttua! Siirtää.

SPSS Minikurssi 25.11.

Päivän tavoitteita: osaatte Dokumentoida työskentelyänne Tavoitteena pystyä toistamaan analyysit vaikka 5 vuoden kuluttua! Siirtää aineiston LEARN  SPSS Tehdä aineistolle sopivan klusterianalyysin

Päivän tavoitteita: tunnette Klusterianalyysin yleisimmät variantit

Työn dokumentointi Miten?

SPSS syntaksi Kaikki komennot loppuvat pisteeseen! Syntaksin saa valikoista Jos komento ei toimi, tarkista mikä datatiedosto on aktiivisena (dataset activate) Kommentoi ahkerasti!

Klusterianalyysi Mitä? Miten?

Klustereiden visualisointi: histogrammit

Histogrammit: toinen esimerkki

Todellisuus:

Klusteroinnin perusidea 1.Aineisto jakautuu luonnollisiin luokkiin. 2.Emme tiedä, mitä nuo luokat ovat, 3.… mutta voimme löytää ne perustuen aineiston tapausten samankaltaisuuteen

Miten siis määritellä ”samankaltaisuus”? Ehdotuksia?

Jatkuvat muuttujat: samankaltaisuusmitat

Euklidinen etäisyys samankaltaisuusmittana Euklidinen etäisyys:

Jatkuvat muuttujat poikkeavat suuruusluokaltaan! Standardoidaan …tai jaetaan vaihteluvälillä

Samankaltaisuus Luokittelumuuttujilla

Havaintoyksiköiden samankaltaisuus: luokittelumuuttujat Opiskelija i Opiskelija jMuuttujat10Yhteensä 1ABA+B 0CDC+D YhteensäA+CB+DA+B+C+D

Samankaltaisuus: Opiskelija 9 Opiskelija 22Muuttujat10Total 1404 0066 Yhteensä4610 Jaccardin kerroin = A / (A+B+C) = 4 / 4 = 1

Samankaltaisuus Opiskelija 22 Opiskelija 61Muuttujat10Total 1303 0167 Yhteensä4610 Jaccardin kerroin = 3 / 4 = 0.75

Jääpuikkokuva:

Yhdistelyjärjestys

Entä klustereiden samankaltaisuus? Voidaan määritellä eri tavoin, ei ole yhtä oikeaa vaihtoehtoa

Nearest neighbor / single-linkage Etäisyys = Kahteen klusteriin kuuluvien havaintojen minimietäisyys

Single linkage Ongelma: Tuottaa usein ketjuuntuneita klustereita

Single linkage Puun leikkauskohdan tulkinta (periaatteessa): jokaiselle klusteriin kuuluvalle havainnolle X on toinen havainto Y joka on korkeintaan leikkauskohdan osoittaman etäisyyden päässä

Puun leikkauskohdan tulkinta Tässä tulkinta toimii, puukuvaajaa ei ole skaalattu

Furthest neighbor / complete-linkage Etäisyys = Kahteen klusteriin kuuluvien havaintojen maksimietäisyys

Complete linkage Ongelma: herkkä poikkeaville havainnoille (poikkeava havainto mukana):

Complete linkage Ongelma: herkkä poikkeaville havainnoille (poikkeava havainto poistettu):

Leikkauskohdan tulkinta: Kaikki klusterin pisteet ovat maksimissaan leikkauskohdan osoittaman etäisyyden päässä havainnosta X

Average linkage (Between-groups) Etäisyys = kahteen klusteriin kuuluvien havaintojen keskimääräinen etäisyys

Average linkage Yritys löytää tasapaino single linkage- ja complete linkage –kriteerien väliltä: kompakteja, toisistaan erottuvia klustereita

Average linkage: ongelma Puun leikkauskohdalle ei ole hyvää tulkintaa (vrt. edelliset 2 menetelmää)

Centroid Etäisyys = klustereiden keskikohtien välinen etäisyys Huom! Etäisyysmittana käytettävä euklidista etäisyyttä tai sen neliötä.

Ward Etäisyys = Etäisyys = Yhteisklusterin virheneliösumma – Yksittäisten klustereiden virheneliösummat Huom! Etäisyysmittana käytettävä euklidista etäisyyttä tai sen neliötä.

Hierarkkinen klusterianalyysi

Emootiodata: Mitkä muuttujat vaikuttivat klusterointiin? Piirretään kuvaaja!

Kokeillaan LEARN-datalla! 1) Tehdään klusterianalyysi ja tallennetaan ratkaisut dataan 2) Uudet muuttujat tallentuvat dataan:

Aggregoidaan (jonkin) klusterimuuttujan suhteen

Aggergointivalikko

Saadaan uusi, yksinkertainen data Tämä ei kuitenkaan vielä riitä….

…vaan data pitää muuttaa pitkään muotoon Onnistuu syntaksikomennolla helpoiten: Mutta myös valikoiden (Data  Restructure) kanssa pelaaminen on mahdollista:

Valikkojen kanssa pelaaminen on monimutkaisempaa…

Saadaan data pitkässä muodossa…

… ja voidaan piirtää kuvaaja!

Mukavamman näköinen tulos

Lähestymistapojen klusterointi

K-means -klusterointi

Kuinka se toimii: 1)Valitse K 2)Valitse klustereille keskipisteet (sentroidit), joko satunnaisesti tai jonkin kriteerin perusteella 3)Laske jokaisen havainnon etäisyys sentroidista 4)Sijoita jokainen havainto klusteriin, jonka sentroidi on lähinnä, ja laske uudelleen sentroidien paikat 5)Toista kunnes sentroidien paikat eivät enää muutu

Muutama slide Andrew Moorelta http://www.autonlab.org/tutorials/kmeans11.pdf

K-means -klusterointi ”ANOVAn vastakohta”: Etsitään luokituksia, joiden sisällä on vähän variaatiota ja joiden välillä on paljon variaatiota

K-means: huomioitavaa K-means pyrkii Suunnilleen samankokoisiin klustereihin Suunnilleen samankokoiseen varianssiin klustereiden sisällä Ympyränmallisiin klustereihin Outlierit Näillä on suuri vaikutus klusteroinnin lopputulokseen: pitäisikö poistaa? K-means on herkkä sille, missä järjestyksessä havainnot ovat aineistossa!

K-means: rajoituksia Ei objektiivista kriteeriä ratkaisun oikeellisuudelle Ratkaisu: järjestä (sort) aineisto eri tavoin erilaisia alkuarvoja saadaksesi  jos tulokset eivät muutu (liiaksi), olet ehkä löytänyt oikean ratkaisun Toinen kriteeri: valitse ratkaisu, jossa ryhmän sisäinen varianssi on vähäisin

K-means: rajoituksia Kuinka valita K:n oikea arvo? SPSS ei tarjoa kovin paljon vaihtoehtoja! Tulkinnallisuus, sisällöllinen mielekkyys Silhouette-lukujen tarkastelu (SPSS 23 lähtien) Kriteerivaliditeetti: Kuinka hyvin klusterijäsenyydellä pystytään ennustamaan kriteerimuuttujan arvoa

Klusterikeskusten valinta hierarkkisen klusterianalyysin avulla Tehdään hierarkkinen klusterointi, tallennetaan klusterijäsenyys, ja aggregoidaan: Nimetään muuttujat uudelleen:

Luetaan klusterikeskuksien arvot datasta:

Two-Step Cluster Yhdistelmä hierarkkista ja ei-hierarkkista klusterointia Hyväksyy sekä luokitteluasteikolliset että jatkuvat muuttujat Kehitetty hyvin suurten aineistojen analyysiin Laskee arvion klustereiden määrästä

Hyviä lisätiedon lähteitä Visual intro to machine learning: http://www.r2d3.us/visual-intro-to-machine-learning-part-1/ Hierarkkinen klusterianalyysi: http://www.econ.upf.edu/~michael/stanford/maeb7.pdf Etäisyysmitoista: http://www.econ.upf.edu/~michael/stanford/maeb4.pdf http://www.econ.upf.edu/~michael/stanford/maeb5.pdf 10 vältettävää virhettä klusterianalyysissa http://www.statisticalassociates.com/clusteranalysis10.htm

SPSS Minikurssi 25.11.. Päivän tavoitteita: osaatte Dokumentoida työskentelyänne Tavoitteena pystyä toistamaan analyysit vaikka 5 vuoden kuluttua! Siirtää.

Samankaltaiset esitykset

Esitys aiheesta: "SPSS Minikurssi 25.11.. Päivän tavoitteita: osaatte Dokumentoida työskentelyänne Tavoitteena pystyä toistamaan analyysit vaikka 5 vuoden kuluttua! Siirtää."— Esityksen transkriptio:

Samankaltaiset esitykset

Projektista

Palaute

Kirjaudu sisään

Kirjaudu sisään sosiaaliverkostojen kautta:

SPSS Minikurssi 25.11.. Päivän tavoitteita: osaatte Dokumentoida työskentelyänne Tavoitteena pystyä toistamaan analyysit vaikka 5 vuoden kuluttua! Siirtää.

Samankaltaiset esitykset

Esitys aiheesta: "SPSS Minikurssi 25.11.. Päivän tavoitteita: osaatte Dokumentoida työskentelyänne Tavoitteena pystyä toistamaan analyysit vaikka 5 vuoden kuluttua! Siirtää."— Esityksen transkriptio:

Samankaltaiset esitykset

Projektista

Palaute