Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

SPSS Minikurssi 25.11.. Päivän tavoitteita: osaatte Dokumentoida työskentelyänne Tavoitteena pystyä toistamaan analyysit vaikka 5 vuoden kuluttua! Siirtää.

Samankaltaiset esitykset


Esitys aiheesta: "SPSS Minikurssi 25.11.. Päivän tavoitteita: osaatte Dokumentoida työskentelyänne Tavoitteena pystyä toistamaan analyysit vaikka 5 vuoden kuluttua! Siirtää."— Esityksen transkriptio:

1 SPSS Minikurssi 25.11.

2 Päivän tavoitteita: osaatte Dokumentoida työskentelyänne Tavoitteena pystyä toistamaan analyysit vaikka 5 vuoden kuluttua! Siirtää aineiston LEARN  SPSS Tehdä aineistolle sopivan klusterianalyysin

3 Päivän tavoitteita: tunnette Klusterianalyysin yleisimmät variantit

4 Työn dokumentointi Miten?

5 SPSS syntaksi Kaikki komennot loppuvat pisteeseen! Syntaksin saa valikoista Jos komento ei toimi, tarkista mikä datatiedosto on aktiivisena (dataset activate) Kommentoi ahkerasti!

6 Klusterianalyysi Mitä? Miten?

7 Klustereiden visualisointi: histogrammit

8 Histogrammit: toinen esimerkki

9 Todellisuus:

10 Klusteroinnin perusidea 1.Aineisto jakautuu luonnollisiin luokkiin. 2.Emme tiedä, mitä nuo luokat ovat, 3.… mutta voimme löytää ne perustuen aineiston tapausten samankaltaisuuteen

11 Miten siis määritellä ”samankaltaisuus”? Ehdotuksia?

12 Jatkuvat muuttujat: samankaltaisuusmitat

13 Euklidinen etäisyys samankaltaisuusmittana Euklidinen etäisyys:

14 Jatkuvat muuttujat poikkeavat suuruusluokaltaan! Standardoidaan …tai jaetaan vaihteluvälillä

15 Samankaltaisuus Luokittelumuuttujilla

16 Havaintoyksiköiden samankaltaisuus: luokittelumuuttujat Opiskelija i Opiskelija jMuuttujat10Yhteensä 1ABA+B 0CDC+D YhteensäA+CB+DA+B+C+D

17 Samankaltaisuus: Opiskelija 9 Opiskelija 22Muuttujat10Total 1404 0066 Yhteensä4610 Jaccardin kerroin = A / (A+B+C) = 4 / 4 = 1

18 Samankaltaisuus Opiskelija 22 Opiskelija 61Muuttujat10Total 1303 0167 Yhteensä4610 Jaccardin kerroin = 3 / 4 = 0.75

19 Jääpuikkokuva:

20 Yhdistelyjärjestys

21 Entä klustereiden samankaltaisuus? Voidaan määritellä eri tavoin, ei ole yhtä oikeaa vaihtoehtoa

22 Nearest neighbor / single-linkage Etäisyys = Kahteen klusteriin kuuluvien havaintojen minimietäisyys

23 Single linkage Ongelma: Tuottaa usein ketjuuntuneita klustereita

24 Single linkage Puun leikkauskohdan tulkinta (periaatteessa): jokaiselle klusteriin kuuluvalle havainnolle X on toinen havainto Y joka on korkeintaan leikkauskohdan osoittaman etäisyyden päässä

25 Puun leikkauskohdan tulkinta Tässä tulkinta toimii, puukuvaajaa ei ole skaalattu

26 Furthest neighbor / complete-linkage Etäisyys = Kahteen klusteriin kuuluvien havaintojen maksimietäisyys

27 Complete linkage Ongelma: herkkä poikkeaville havainnoille (poikkeava havainto mukana):

28 Complete linkage Ongelma: herkkä poikkeaville havainnoille (poikkeava havainto poistettu):

29 Leikkauskohdan tulkinta: Kaikki klusterin pisteet ovat maksimissaan leikkauskohdan osoittaman etäisyyden päässä havainnosta X

30 Average linkage (Between-groups) Etäisyys = kahteen klusteriin kuuluvien havaintojen keskimääräinen etäisyys

31 Average linkage Yritys löytää tasapaino single linkage- ja complete linkage –kriteerien väliltä: kompakteja, toisistaan erottuvia klustereita

32 Average linkage: ongelma Puun leikkauskohdalle ei ole hyvää tulkintaa (vrt. edelliset 2 menetelmää)

33 Centroid Etäisyys = klustereiden keskikohtien välinen etäisyys Huom! Etäisyysmittana käytettävä euklidista etäisyyttä tai sen neliötä.

34 Ward Etäisyys = Etäisyys = Yhteisklusterin virheneliösumma – Yksittäisten klustereiden virheneliösummat Huom! Etäisyysmittana käytettävä euklidista etäisyyttä tai sen neliötä.

35 Hierarkkinen klusterianalyysi

36 Emootiodata: Mitkä muuttujat vaikuttivat klusterointiin? Piirretään kuvaaja!

37 Kokeillaan LEARN-datalla! 1) Tehdään klusterianalyysi ja tallennetaan ratkaisut dataan 2) Uudet muuttujat tallentuvat dataan:

38 Aggregoidaan (jonkin) klusterimuuttujan suhteen

39 Aggergointivalikko

40 Saadaan uusi, yksinkertainen data Tämä ei kuitenkaan vielä riitä….

41 …vaan data pitää muuttaa pitkään muotoon Onnistuu syntaksikomennolla helpoiten: Mutta myös valikoiden (Data  Restructure) kanssa pelaaminen on mahdollista:

42 Valikkojen kanssa pelaaminen on monimutkaisempaa…

43 Saadaan data pitkässä muodossa…

44 … ja voidaan piirtää kuvaaja!

45 Tulos

46 Mukavamman näköinen tulos

47 Lähestymistapojen klusterointi

48 K-means -klusterointi

49 Kuinka se toimii: 1)Valitse K 2)Valitse klustereille keskipisteet (sentroidit), joko satunnaisesti tai jonkin kriteerin perusteella 3)Laske jokaisen havainnon etäisyys sentroidista 4)Sijoita jokainen havainto klusteriin, jonka sentroidi on lähinnä, ja laske uudelleen sentroidien paikat 5)Toista kunnes sentroidien paikat eivät enää muutu

50 Muutama slide Andrew Moorelta http://www.autonlab.org/tutorials/kmeans11.pdf

51

52

53

54

55

56 K-means -klusterointi ”ANOVAn vastakohta”: Etsitään luokituksia, joiden sisällä on vähän variaatiota ja joiden välillä on paljon variaatiota

57 K-means: huomioitavaa K-means pyrkii Suunnilleen samankokoisiin klustereihin Suunnilleen samankokoiseen varianssiin klustereiden sisällä Ympyränmallisiin klustereihin Outlierit Näillä on suuri vaikutus klusteroinnin lopputulokseen: pitäisikö poistaa? K-means on herkkä sille, missä järjestyksessä havainnot ovat aineistossa!

58 K-means: rajoituksia Ei objektiivista kriteeriä ratkaisun oikeellisuudelle Ratkaisu: järjestä (sort) aineisto eri tavoin erilaisia alkuarvoja saadaksesi  jos tulokset eivät muutu (liiaksi), olet ehkä löytänyt oikean ratkaisun Toinen kriteeri: valitse ratkaisu, jossa ryhmän sisäinen varianssi on vähäisin

59 K-means: rajoituksia Kuinka valita K:n oikea arvo? SPSS ei tarjoa kovin paljon vaihtoehtoja! Tulkinnallisuus, sisällöllinen mielekkyys Silhouette-lukujen tarkastelu (SPSS 23 lähtien) Kriteerivaliditeetti: Kuinka hyvin klusterijäsenyydellä pystytään ennustamaan kriteerimuuttujan arvoa

60 Klusterikeskusten valinta hierarkkisen klusterianalyysin avulla Tehdään hierarkkinen klusterointi, tallennetaan klusterijäsenyys, ja aggregoidaan: Nimetään muuttujat uudelleen:

61 Luetaan klusterikeskuksien arvot datasta:

62 Two-Step Cluster Yhdistelmä hierarkkista ja ei-hierarkkista klusterointia Hyväksyy sekä luokitteluasteikolliset että jatkuvat muuttujat Kehitetty hyvin suurten aineistojen analyysiin Laskee arvion klustereiden määrästä

63 Hyviä lisätiedon lähteitä Visual intro to machine learning: http://www.r2d3.us/visual-intro-to-machine-learning-part-1/ Hierarkkinen klusterianalyysi: http://www.econ.upf.edu/~michael/stanford/maeb7.pdf Etäisyysmitoista: http://www.econ.upf.edu/~michael/stanford/maeb4.pdf http://www.econ.upf.edu/~michael/stanford/maeb5.pdf 10 vältettävää virhettä klusterianalyysissa http://www.statisticalassociates.com/clusteranalysis10.htm


Lataa ppt "SPSS Minikurssi 25.11.. Päivän tavoitteita: osaatte Dokumentoida työskentelyänne Tavoitteena pystyä toistamaan analyysit vaikka 5 vuoden kuluttua! Siirtää."

Samankaltaiset esitykset


Iklan oleh Google