Kvantitatiiviset tutkimusmenetelmät

Slides:



Advertisements
Samankaltaiset esitykset
1. Missä vietät joulun useimmiten?. 2. Missä viettäisit joulun mieluiten?
Advertisements

Juha Kauppinen Consulting oy Työntekijäkysely Tietoja
Yleistä Läsnäolovelvollisuus Poissaolojen selvitys Käyttäytyminen
Kvantitatiiviset tutkimusmenetelmät
Konfirmatorinen faktorianalyysi
Esiopetuksen huoltajat 2014 Generated on :41.
Johdatus tutkimusmetodologiaan
AUTOMATIC DELIVERY REWARDS (ADR) (New Programme – 01 September) LifePak ® (Example) PSV 5% Discount= €51.71 (68.97 PSV) Shipping= €4.5.
Lineaarisia malleja.
Tilastollista päättelyä
Peruskysymys: onko asteikko luonteeltaan luokitteleva vai jatkuva?
Kvantitatiiviset tutkimusmenetelmät
Pelaajakysely Tampereen piirin pelaajille 2013 TKT.
TYTILM1 Tilastolliset menetelmät
Hypoteesin testeistä Testin valinta perustuu aina tutkimusongelmaan ja kuvailuun (joka perustuu mitta-asteikoihin) Testaus ei koskaan ole itsenäinen, vaan.
Perusopetuksen huoltajat 2014 Generated on :04.
2.2. komplementtisääntö ja yhteenlaskusääntö
Kuvien lähde:. Kuinka pitkä on pitkä? Subprime kriisi alkoi Yhdysvalloista elokuussa Se muuttui finanssikriisiksi lokakuussa Kreikkakriisi.
Koulutuksesta työhön –ryhmien vaikutuksia ja seutukunnallisuus
Yliopistokirjastojen vastaajat palvelukyselyssä 2010 Päivi Jokitalo Kansalliskirjasto. Kirjastoverkkopalvelut marraskuu 2010.
Perusopetuksen oppilaat 2014 Generated on :03.
TMA.003 / L3 ( )1 3. Funktioista 3.1. Kuvaus ja funktio Olkoon A ja B ei-tyhjiä joukkoja. Tulojoukon A  B = {(x,y) | x  A, y  B} osajoukko on.
Väestö Vantaan osa-alueilla
Anna tutki: Naisen asema työelämässä.
Tutkimuksen taustaa  Aula Research Oy toteutti poliittisten vaikuttajien parissa tutkimuksen julkisista palveluista Suomessa ja Euroopassa – Tutkimuksen.
Tilastollisen tutkimuksen perusteet - 6 op
Vain demonstraatio- käyttöön © Menetelmäopetuksen tietovaranto 1 / 8 Ristiintaulukointi Ristiintaulukointia käytetään tutkittaessa kahden luokittelu- tai.
USEAN RYHMÄN VERTAILU Biostatistiikka
1 Raha-asioiden suunnitteleminen ja nykyinen rahatilanne Senioritutkimus 2011.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Janne Junes Systeemitieteiden kandidaattiseminaari – Syksy 2009 Tutkimus varasto-virtaussysteemin.
Tilastoanalyysien merkitys ekologiassa
Aritmeettinen jono jono, jossa seuraava termi saadaan edellisestä lisäämällä sama luku a, a + d, a+2d, a +3d,… Aritmeettisessa jonossa kahden peräkkäisen.
Eksponentiaalinen kasvaminen ja väheneminen
Aritmeettinen jono jono, jossa seuraava termi saadaan edellisestä lisäämällä sama luku a, a + d, a+2d, a +3d,… Aritmeettisessa jonossa kahden peräkkäisen.
Maitotaito PIENEN VAUVAN PÄIVÄ Maitotaito.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 3 - Outi Somervuori Optimointiopin seminaari - Kevät 2010 The trouble with choice: Studing.
Kinematiikka Newtonin lait: Voima Statiikka Mikko Rahikka 2000
Kemi ALO-luokka 14 kyl, 3 pys Tuomari: Tytti Lintenhofer Kyl: 31, 26, 9, 3, 18, 20, 5, 13, 14, 4, 12, 14, 7,
Tilastollisia menetelmiä
Kalakantojen arviointi (KALAT22)
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 11 - Teemu Mutanen Optimointiopin seminaari - Syksy 2005 / 1 Lisätiedon arvo.
Luento 3: Varianssianalyysi
Väestö ja väestönmuutokset. Väestö äidinkielen ja iän mukaan Naisten ja miesten tasa-arvo Helsingissä2 Lähde: Tilastokeskus. Miehet.
tilastollinen todennäköisyys
HY/SVY – Kvantitatiivinen metodologia verkossa – Rakenneyhtälöt – Reijo Byman 1/17 INDEX Kvantitatiivinen metodologia verkossa Rakenneyhtälöt Reijo Byman.
Heuristinen arviointi Käyttöliittymäseminaari Jere Salonen.
SATTUMAN ONGELMA TUTKIMUKSESSA 1 x: tenttiin valmistautumiseen käytetty aika (tunteja) Perusjoukko μ = 39,87.
PARAABELI (2. ASTEEN FUNKTION KUVAAJIA)
Muuttujien riippuvuus
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä # - Esitelmöijän nimi Optimointiopin seminaari - Syksy 2010 Lineaarinen.
lineaarinen regressio
Suomen Lääkäriliitto | Finnish Medical AssociationLääkärit Suomessa | Physicians in Finland Tilastotietoja lääkäreistä ja terveydenhuollosta 2014 Statistics.
1. Missä vietät joulun useimmiten?. 2. Missä viettäisit joulun mieluiten?
Silmän käyttäytymisen tutkimus ja sovellukset Veikko Surakka Tampere University Computer Human Interaction Group.
Tilastollinen testaus Χ 2 -testi nelikentässä kaikkein yksinkertaisin lähtökohta tilastolliselle testille Esim. materiaalin (rauta tai pronssi) ja korun.
Korrelaatio Kertoo kahden muuttujan välisestä lineaarisesta yhteydestä eli kuinka hyvin toisen muuttujan avulla voidaan ennustaa toisen muuttujan vaihtelua.
Standardointi tekee eri asteikollisista muuttujista vertailukelpoisia
Piste- ja väliestimointi:
1 Kvantitatiiviset menetelmät Pienryhmäkokoontumisissa tarvitaan EK03- aineiston haastattelulomake. Sen voi tulostaa verkosta. Linkki löytyy kurssin kotisivulta:
UNIVERSITY OF TURKU LOGISTINEN REGRESSIOANALYYSI.
1 Kvantitatiiviset menetelmät HUOM! Tentti pidetään tiistaina klo Porthanian salissa PIV Uusintamahdollisuus rästitentissä ma 15– 17.
REGRESSIOANALYYSI.
YFIA220 Kvantitatiivisten menetelmien syventävä kurssi
YFIA200 Kvantitatiiviset menetelmät, luento
YFIS200 Kvantitatiivisten menetelmien syventävä kurssi
VARIANSSIANALYYSI.
Monimuuttinimuuttuja-analyyseista
YFIA202 Kvantitatiiviset menetelmät, luento
YFIS200 Kvantitatiivisten menetelmien syventävä kurssi
YFIA200 Kvantitatiiviset menetelmät, luento
Esityksen transkriptio:

Kvantitatiiviset tutkimusmenetelmät Luento 7 Logistinen regressioanalyysi ja lineaariset mallit Kaisu Puumalainen

Binäärinen logistinen regressio

Logistinen regressioanalyysi selitettävä luokiteltu ja selittäjät jatkuvia (voi olla myös kategorisia) ryhmät a priori 2 ryhmää -> binary (dichotomous) logistic 3-k ryhmää -> ordinal response tai multinomial (polytomous) logistic Hosmer & Lemeshow (2000) Applied Logistic Regression, 2nd ed. New York: Wiley http://www2.chass.ncsu.edu/garson/pa765/logistic.htm http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#logistic_toc.htm

Sovelluksia asiakkuuden ja ei-asiakkuuden selittäminen mikä erottaa kannattavia ja ei-kannattavia yrityksiä miksi toinen tuote menestyy ja toinen ei mikä on erilaisten tekijöiden vaikutus taudin puhkeamisriskiin

Vaiheet tavoitteet suunnittelu edellytykset Mitkä selittäjät vaikuttavat merkitsevästi Vaikutusten suunta ja suuruus luokittelu ryhmiin, ennustaminen suunnittelu selittäjien valinta riittävä otoskoko analyysi- ja validointiotokset edellytykset Muuttujien mittaustaso ja datan riittävyys OLS edellytyksiä ei ole

Vaiheet mallin estimointi ennustetarkkuuden arviointi tulkinta enter tai stepwise, maximum likelihood ennustetarkkuuden arviointi mallin merkitsevyys selityskerroin Onnistumisprosentti luokittelussa tulkinta Kertoimet ja odds ratio validointi split sample

Muuttujien valinta selitettävä aidosti luokiteltu tai jatkuvasta tehty dikotominen eli binäärinen (tai 3-4 ryhmää) voidaan myös verrata vain ääriryhmiä Huom. SAS EG binäärinen vaatii, että selitettävässä ei esiinny mitään muuta kuin 2 eri arvoa (puuttuvat arvot suodatettava etukäteen) selittäjät Jatkuvia tai luokiteltuja Luokitelluille ei tarvitse tehdä erillistä dummy-muunnosta, vaan SAS tekee sen itse

Otoksen riittävyys min 10 (miel. 20) havaintoa per selittäjä Selitettävän muuttujan joka ryhmässä väh. 20 havaintoa tai ainakin enemmän kuin selittäjiä Selitettävän muuttujan ryhmät miel. suunnilleen samankokoisia analyysiotos 50-75% ja holdout 25-50% ositettu otanta jotta ryhmäkoot säilyvät edustavina

Estimointi vaihtoehtona diskriminanttianalyysi, mutta sillä on tiukemmat taustaedellytykset Maximum likelihood-menetelmä muistuttaa tavallista regressiota Testit Epälineaarisia ja kategorisia saadaan mukaan Diagnostiikkaa Ennustaa tapahtuman todennäköisyyden p ja oddsin eli vedonlyöntisuhteen Odds = p/(1-p) eli p= odds/(1+odds)

Lineaarinen vs. logistinen

Logistinen malli

Esimerkki: logit= -6+.39x x logit odds P -6.00 .00 3 -4.83 .01 6 -3.66 -6.00 .00 3 -4.83 .01 6 -3.66 .03 10 -2.10 .12 .11 13 -.93 .39 .28 14 -.54 .58 .37 15 -.15 .86 .46 16 .24 1.27 .56 17 .63 1.88 .65 20 1.80 6.05 24 3.36 28.79 .97 30 5.70 298.87 1.00

Esimerkki: logit= -6+.39x

Estimointi OLS estimointi ei toimi, koska residuaalien varianssi ei ole vakio Ei analyyttista ratkaisua, vaan iteratiivinen maximum likelihood-estimointi

Parametriestimaatit tulkinta eroaa OLS-regressiosta: positiivinen b lisää tapahtuman todennäköisyyttä ja negatiivinen b vähentää, mutta yhteys on lineaarinen vain logitin kanssa, ei oddsin eikä todennäköisyyden!! Selittäjän Odds ratio = exp(b) = a -> kun x kasvaa yhdellä niin odds a-kertaistuu Kun x kasvaa kahdella niin odds a2-kertaistuu ”Standardoituja” kertoimia ei saa muuten kuin standardoimalla selittäjät ennen estimointia

Keskivirheet ja merkitsevyys Kertoimen b luottamusväli LCL=b - z*SEb UCL=b + z*SEb Odds ration luottamusväli eLCL …eUCL kertoimen b merkitsevyyden testaus Wald = b2 / SE2b noudattaa khi-toiseen jakaumaa df=1, jos sig.<.05 niin kerroin on merkitsevä

Mallin hyvyys Ei % y:n vaihtelusta kuten OLS, vaan yhteensopimattomuutta (deviance) Vertailupohjana perusmalli (base model, null model), jossa selittäjänä vain vakio Deviance-mittarina -2log likelihood (–2LL) -> minimiarvo on nolla ja pienet arvot hyviä pseudo R2 , selityskertoimet ei kerro montako % y:n vaihtelusta selittyy x:ien avulla Yleensä matalampia kuin OLS-mallin R2 Yksinkertaisin versio R2=(Dnull – Dk) / Dnull Cox&Snell maksimi alle 1 Nagelkerke ”Max-rescaled R Square” aina parempi, koska max=1

Mallin merkitsevyys OLS F-testin asemesta likelihood ratio chi square Chi square= Dnull – Dk H0:malli yhtä huono kuin nollamalli; df=k Jos sig<.05 niin malli on merkitsevä Vaihtoehtoina Wald tai Hosmer&Lemeshow (jossa H0: malli on yhteensopiva datan kanssa!)

Residuaalit Pearson ja Deviance- residuaalit Iso arvo tarkoittaa että ko. havainto sopii huonosti malliin, eli sen poisjättäminen parantaisi mallin sopivuutta dataan

Diagnostiikka Periaatteessa samoja kuin OLS-regressiossa Leverage (kuinka erikoinen havainto) tulkittavissa vain havainnoilla, joilla ennustettu todennäköisyys välillä .10 … .90 DFBETA (paljonko vaikuttaa kertoimiin) Cook (paljonko vaikuttaa sopivuuteen)

Luokittelu ennustetarkkuus: ovatko havainnot luokiteltu oikeisiin ryhmiinsä Huom! Joskus hyvästäkin mallista voi tulla huono ennustetarkkuus luokittelumatriisi hit ratio: montako % luokiteltiin oikein

Luokittelumatriisi Ennustettu Oikea 1 Yht. Osuus oikein 40 20 60 .67 specificity 10 50 .80 sensitivity 110 80/110 .20 false neg. .33 false pos. .73 rate of correct class.

Luokittelu ennustetarkkuus verrattuna sattumaan yhtäsuuret ryhmät c=1/ryhmien määrä erisuuret ryhmät maximum chance criterion c= suurimman ryhmän suhteellinen osuus proportional chance criterion c=p2+(1-p)2 jos kaksi ryhmää hit ratio po. vähintään 1,25 kertaa sattumalta saatavan suuruinen

SAS-esimerkki Aineistona pankin asiakkaat Selitettävä muuttuja DEFAULT, luokittelu (1=maksuhäiriö, 0=ei maksuhäiriöitä) Selittäjinä Koulutus, aika samassa osoitteessa, aika samassa työpaikassa, tulot, velat suhteessa tuloihin Huom! SAS laskee puuttuvan arvon omaksi luokakseen, joten suodata analyysiin vain ne havainnot, joilla selitettävä muuttuja saa validin arvon

Puuttuvien arvojen suodatus

Puuttuvien arvojen suodatus Selitettävän muuttujan puuttuvat arvot suodatetaan pois datasta

SAS: analyze – regression - logistic Dummy-koodaus Kategoriset selittäjät tänne

Selitettävän tiedot Tämän luokan todennäköisyyttä mallinnetaan

Selittäjät Valitse kaikki muuttujat ja klikkaa Main

Enter vai stepwise

Mitä tulostetaan

Kuvaajat

Mitä tallennetaan

SAS- koodi PROC LOGISTIC DATA=WORK.SORTTempTableSorted PLOTS(ONLY)=ALL ; CLASS ed (PARAM=REF); MODEL default (Event = '1')=employ address income debtinc ed / SELECTION=NONE INFLUENCE LACKFIT AGGREGATE SCALE=NONE RSQUARE CTABLE PPROB=(0.5) LINK=LOGIT CLPARM=BOTH CLODDS=BOTH ALPHA=0.05 OUTPUT OUT=LOGREG.PREDLogRegPredictionsFILTER_FOR_(LABEL="Logistic regression predictions and statistics for SASUSER.FILTER_FOR_BANKLOAN_SAS7BDAT") PREDPROBS=INDIVIDUAL RESCHI=reschi_default RESDEV=resdev_default DIFCHISQ=difchisq_default DIFDEV=difdev_default UPPER=upper_default LOWER=lower_default ; RUN; QUIT; Footer

Menetelmän perustiedot Model Information Data Set WORK.SORTTEMPTABLESORT ED Response Variable default Previously defaulted Number of Response Levels 2 Model binary logit Optimization Technique Fisher's scoring Number of Observations Read 333 Number of Observations Used

Kategoristen muuttujien koodaus Response Profile Ordered Value default Total Frequency 1 150 2 183 Class Level Information Class Value Design Variables ed 1 2 3 4 5 Probability modeled is default=1.

Mallin merkitsevyys ja sopivuus Deviance and Pearson Goodness-of-Fit Statistics Criterio n Value DF Value/DF Pr > ChiSq Deviance 345.8366 324 1.0674 0.1934 Pearson 323.6928 0.9991 0.4944 Model Fit Statistics Criterion Intercept Only Intercept and Covariates AIC 460.360 363.837 SC 464.169 398.110 -2 Log L 458.360 345.837 Tulisi olla lähellä ykköstä ja ei-merkitsevä Number of unique profiles: 333 R- Square 0.2867 Max-rescaled R- Square 0.3836 Cox-Snell Nagelkerke

Mallin ja selittäjien merkitsevyys Testing Global Null Hypothesis: BETA=0 Test Chi- Square D F Pr > Chi Sq Likelihood Ratio 112.5237 8 <.0001 Score 94.4558 Wald 69.2901 Type 3 Analysis of Effects Effect DF Wald Chi-Square Pr > ChiSq employ 1 30.9639 <.0001 address 10.0017 0.0016 income 8.9239 0.0028 debtinc 43.8928 ed 4 1.9037 0.7535 Mallin merkitsevyys, <.05 on merkitsevä Kunkin selittäjän merkitsevyys, <.05 on merkitsevä

Parametriestimaatit ja merkitsevyys Analysis of Maximum Likelihood Estimates Parameter DF Estimate Standard Error Wald Chi-Square Pr > ChiSq Intercept 1 -0.3123 1.5077 0.0429 0.8359 employ -0.1987 0.0357 30.9639 <.0001 address -0.0727 0.0230 10.0017 0.0016 income 0.0204 0.00684 8.9239 0.0028 debtinc 0.1395 0.0210 43.8928 ed -0.0920 1.5031 0.0037 0.9512 2 0.1246 1.5089 0.0068 0.9342 3 -0.1550 1.5305 0.0103 0.9193 4 -0.6275 1.5735 0.1590 0.6900 Mitä kauemmin samassa työpaikassa sitä pienempi maksuhäiriön todennäköisyys, korkein maksuhäiriön tn koulutustasolla 2 ja matalin tasolla 4 (tosin koulutus ei merkitsevä)

Odds Ratio Estimates Effect Point Estimate 95% Wald Confidence Limits employ 0.820 0.764 0.879 address 0.930 0.889 0.973 income 1.021 1.007 1.034 debtinc 1.150 1.103 1.198 ed 1 vs 5 0.912 0.048 17.358 ed 2 vs 5 1.133 0.059 21.800 ed 3 vs 5 0.856 0.043 17.199 ed 4 vs 5 0.534 0.024 11.663 Yksi vuosi lisää samassa työpaikassa pienentää maksuhäiriön oddsia 0.82-kertaiseksi Association of Predicted Probabilities and Observed Responses Percent Concordant 81.5 Somers' D 0.629 Percent Discordant 18.5 Gamma Percent Tied 0.0 Tau-a 0.312 Pairs 27450 c 0.815 Kuinka hyvin ennustettu todennäköisyys ja todellinen maksuhäiriöluokka korreloivat keskenään. D,Gamma ja tau välillä 0…1, isot hyviä

Parametriestimaattien luottamusvälejä Profile Likelihood Confidence Interval for Parameters Paramete r Estimat e 95% Confidence Limit s Intercept -0.3123 -3.6696 3.0361 employ -0.1987 -0.2720 -0.1320 address -0.0727 -0.1189 -0.0284 income 0.0204 0.00858 0.0350 debtinc 0.1395 0.0999 0.1826 ed 1 -0.0920 -3.4347 3.2583 2 0.1246 -3.2278 3.4810 3 -0.1550 -3.5412 3.2278 4 -0.6275 -4.0736 2.8170 Profile Likelihood Confidence Interval for Odds Ratios Effect Unit Estimat e 95% Confidence Limit s employ 1.0000 0.820 0.762 0.876 address 0.930 0.888 0.972 income 1.021 1.009 1.036 debtinc 1.150 1.105 1.200 ed 1 vs 5 0.912 0.032 26.005 ed 2 vs 5 1.133 0.040 32.491 ed 3 vs 5 0.856 0.029 25.224 ed 4 vs 5 0.534 0.017 16.726

Oddsien luottamusvälit

ROC- käyrä: isompi alue käyrän alapuolella -> paremmin luokitteleva malli % of events correctly classified (% of defaults predicted as default) % of non-events incorrectly classified (% of non-def predicted as defaults)

Luokittelu ja mallin sopiuvuus Classification Table Prob Level Correct Incorrect Percentages Event Non- Event Sensi- tivity Speci- ficity False POS False NEG 0.500 140 94 56 43 70.3 76.5 62.7 28.6 31.4 Hosmer and Lemeshow Goodness-of-Fit Test Chi- Square DF Pr > ChiS q 5.2007 8 0.7359 140/183 94/150 56/196 43/137 Testaa mallin sopivuutta, H0: malli on yhteensopiva, eli p ei saisi olla <.05

Regression Diagnostics Havaintojen listaus I Regression Diagnostics Case Number Covariates Pearson Residual Deviance Residual Years with current employer Years at current address Household income in thousands Debt to income ratio (x100) Level of education 1 Level of education 2 Level of education 3 Level of education 4 1 20.0000 9.0000 67.0000 30.6000 1.0000 -1.3522 -1.4420 2 12.0000 11.0000 38.0000 3.6000 -0.3150 -0.4350 3 4.0000 23.0000 5.2000 -0.9980 -1.1757 4 6.0000 29.0000 16.3000 -1.3597 -1.4470 5 26.0000 69.0000 6.7000 -0.4669 -0.6280 6 8.0000 58.0000 18.4000 -1.3478 -1.4391 7 2.0000 37.0000 14.2000 -2.4580 -1.9758 8 3.0000 15.0000 2.1000 -0.4991 -0.6669 9 27.0000 14.4000 -1.1474 -1.2962 10 35.0000 2.9000 -0.6228 -0.8097 Havaintokohtainen listaus selittäjien arvoista ja residuaaleista. Iso residuaali tarkoittaa että mallin sopivuus paranisi paljon jos havainto jätettäisiin pois

Havaintojen listaus II Regression Diagnostics Case Number Hat Matrix Diagona l Intercep t DfBeta employ DfBeta address DfBeta income DfBeta debtinc DfBeta ed1 DfBeta ed2 DfBeta ed3 DfBeta ed4 DfBeta Confidence Interval Displacemen t C 1 0.0491 0.0325 -0.125 0.0429 0.0403 -0.194 -0.004 0.0007 0.0035 -0.008 0.0992 2 0.00963 -0.0012 -0.018 -0.010 0.0125 0.0214 -0.002 -0.000 -0.001 0.000974 3 0.0177 -0.0107 0.016 0.0617 -0.017 0.0486 -0.016 -0.003 0.0183 4 0.0111 0.00416 0.0318 -0.026 0.0017 -0.060 -0.012 0.0027 0.003 0.0051 0.0210 5 0.0367 0.00346 -0.074 0.0281 -0.007 0.0023 0.0028 0.00861 6 0.0226 0.0160 -0.056 0.0196 0.0057 -0.079 0.0042 0.0021 0.0430 7 -0.0094 0.0754 0.1343 -0.098 0.0008 0.0026 -0.066 0.1235 8 0.0213 -0.0041 0.0053 -0.048 0.0127 0.0421 -0.005 0.0002 0.0012 0.00554 9 0.0112 -0.0008 -0.023 0.0362 0.0234 -0.027 -0.011 0.0001 0.0151 10 0.0175 -0.0056 -0.019 0.0311 0.0503 -0.009 0.00702 Leverage Vaikutus parametriestimaatteihin Vaikutus luottamusväleihin

Havaintojen listaus III Regression Diagnostics Case Number Confidence Interval Displacement CBar Delta Deviance Delta Chi- Square 1 0.0944 2.1738 1.9228 2 0.000965 0.1902 0.1002 3 0.0180 1.4003 1.0140 4 0.0207 2.1144 1.8694 5 0.00830 0.4027 0.2263 6 0.0420 2.1131 1.8586 7 0.1210 4.0248 6.1630 8 0.00542 0.4502 0.2545 9 0.0149 1.6951 1.3315 10 0.00690 0.6625 0.3948 Vaikutus luottamusväleihin Vaikutus mallin sopivuuteen

Diagnostiikkaa

Diagnostiikkaa

Havaintojen vaikutus estimaatteihin

Havaintojen vaikutus estimaatteihin

Vaikuttavuus ja ennustettu arvo

Leverage

Diagnostiikkaa

Selittäjä vs. ennustettu p

Havaintojen listaus Oikea luokka Ennustettu luokka Tn että ei default age ed emplo y addres s incom e debtin c creddeb t othdeb t defaul t Filter_ _FROM _INTO IP_0 39 1 20 9 67 30.6 3.8339 16.668 0.3535 43 12 11 38 3.6 0.1286 1.2394 0.9097 25 4 23 5.2 0.2524 0.9436 0.5009 37 6 29 16.3 1.7159 3.0111 0.3510 45 2 26 69 6.7 0.7073 3.9157 0.8210 33 8 58 18.4 3.0842 7.5878 0.3550 3 14.2 0.2049 5.0491 0.1420 15 2.1 0.1050 0.3150 0.8006 27 14.4 1.0187 2.8693 0.4316 35 2.9 0.0771 0.9379 0.7205 7 26.0 6.0489 5.6511 0.0656 30 10 22 16.1 1.4097 2.1323 0.4429 Oikea luokka Ennustettu luokka Tn että ei default

Havaintojen listaus IP_1 _LEVEL _ lower_defa ult upper_defa ult reschi_defa ult resdev_defa ult difdev_defa ult difchisq_defa ult 0.6464 1 0.42441 0.81930 -1.35220 -1.44203 2.17381 1.9228 0.0902 0.04827 0.16258 -0.31501 -0.43500 0.19019 0.1002 0.4990 0.37155 0.62659 -0.99801 -1.17572 1.40027 1.0140 0.6489 0.54539 0.74018 -1.35967 -1.44697 2.11445 1.8694 0.1789 0.07570 0.36718 -0.46689 -0.62801 0.40269 0.2263 0.6449 0.49533 0.77076 -1.34782 -1.43913 2.11307 1.8586 0.8579 0.73338 0.92993 -2.45804 -1.97580 4.02479 6.1630 0.1994 0.10850 0.33760 -0.49906 -0.66692 0.45020 0.2545 0.5683 0.46405 0.66688 -1.14742 -1.29622 1.69511 1.3315 0.2794 0.17881 0.40862 -0.62280 -0.80967 0.66246 0.3948 0.9343 0.86329 0.96980 -3.77364 -2.33407 5.59978 14.3923 0.5570 0.38667 0.71498 -1.12142 -1.27616 1.66831 1.2973 Tn että default Luott.väli enn. tn:lle Residuaalit Vaikutus sopivuuteen

RAPORTOINTI Selitettävän muuttujan luonne ja linkkifunktio (binary, ordinal, multinomial) Mihin ryhmään kuulumista mallinnettiin, vertailuryhmä Mallin sopivuus: Chi-Square+p, Hosmer-Lemeshow+p, pseudo R2, hit ratiot %(total, sensitivity, specificity) Estimaatit, keskivirheet, Wald ja merkitsevyys Maininta residuaali- ja vaikuttavuustarkasteluista

RAPORTOINTI, binary P(international) P(not BG|international) B S.E. Exp(B) Novice entrepreneurs 1.300 .820 3.670 .470 .781 1.600 No int. work exp. -3.784*** 1.228 .023 19.593 28420.721 3.2E08 No int. education .875 .771 2.400 1.743* .932 5.714 Novice entr.& no int. work exp. 1.231 1.544 3.424 -39.410 33627.851 .000 Novice entr. & no int. educ. -.932 1.223 .394 19.123 17974.842 2.0E08 Constant .511 .422 1.667 -.134 .518 Model fit Chi square 29.0 (df=5), p.00 Nagelkerke R Square .378 Chi square 10.6 (df=5), p.06 Nagelkerke R Square .264 Correct classification rate international 88.2%, domestic 59.5% , overall 76.1% BG 50%, other int. 80%, overall 70.6%

LINEAARISET MALLIT (VARIANSSIANALYYSIT) Oneway ANOVA, GLM Univariate (n-way ANOVA, ANCOVA)

PERUSASIAT Selitettävä muuttuja on jatkuva Selittävät muuttujat ovat kategorisia (factor, CLASS) tai jatkuvia (covariate) Onko selitettävän muuttujan keskiarvoissa eroa selittävän muuttujan ryhmien välillä Selittävien muuttujien interaktioita voidaan myös mallintaa Sopii hypoteesien testaamiseen, erityisesti käytetty kokeellisissa tutkimuksissa

PERUSASIAT Factor A (toimiala) Level 1 (teollisuus) Level 2 (kauppa) Factor B (koko) Level 1 (pieni) Cell Level 2 (keskisuuri) Level 3 (suuri) 3 X 2 full factorial design (full: kaikissa soluissa on havaintoja) Balanced design: kaikissa soluissa yhtä paljon havaintoja

EDELLYTYKSIÄ Onko kussakin ryhmässä tarpeeksi havaintoja? (miel. >20) Havaintojen riippumattomuus Varianssi-kovarianssimatriisien samanlaisuus (ei haittaa jos suurin ryhmä < 1.5*pienin ryhmä, 4* jos yhtäsuuret ryhmät) Normaalisuus Lineaarisuus Ei outlier-havaintoja

VARIANSSIANALYYSIN TULKINTA Onko malli merkitsevä? F-testi ja R square Welch, jos varianssit erisuuret (testataan Levenen tai Brown-Forsythen testillä) Minkä selittäjämuuttujien vaikutukset ovat merkitseviä? (F-testit ja partial eta squared) Mitkä ryhmät eroavat? Post hoc tai kontrastit Miten ryhmät eroavat? Estimoidut ryhmäkeskiarvot

Oneway ANOVA Yksi selitettävä jatkuva muuttuja (y) ja yksi selittävä muuttuja (x), jossa min. 3 luokkaa, luokkien määrä k Edellytyksiä: selitettävä (y) normaalijakautunut ja sen varianssit eri luokissa samat H0: y:n keskiarvot samat kaikissa x:n luokissa Vaihtelu jaetaan kahteen komponenttiin: within groups (error) ja between groups (model, treatment) -> ks. TAP prujusta kaavat Testisuure on between / within ja noudattaa F-jakaumaa vapausastein k-1, n-k Jos varianssit erisuuret, niin F-testin asemesta Welch Jos F-testi on merkitsevä, niin post hoc-testeillä katsotaan mitkä ryhmäparit poikkeavat toisistaan

Multiway ANOVA, GLM Yksi jatkuva selitettävä, kaksi tai useampia luokiteltuja selittäjiä (factorial design) ANCOVA, jos jonkin jatkuvan selittäjän vaikutus halutaan eliminoida Päävaikutukset tai suorat vaikutukset (main effect) ja yhdysvaikutukset eli interaktiot fixed factor, jos kaikki mahdolliset ryhmät ovat mukana ja random factor, jos otoksessa edustettuna satunnaisesti havaintoja joistakin mahdollisista ryhmistä

ANCOVA Mallissa mukana kovariaatti (= jatkuva selittäjä, jonka vaikutus halutaan eliminoida, esim. työkokemuksen vaikutus eliminoidaan sukupuolen ja palkan välisestä yhteydestä) Regressio kovariaatin ja selitettävän välille -> residuaalille ANOVA Kovariaatin ja selitettävän välillä oltava lineaarinen yhteys, joka on samanlainen kaikissa faktorimuuttujan ryhmissä kovariaatin ja faktoreiden välillä ei yhteyttä Kovariaatteja saa olla enintään 0.1*n – (k-1)

Interaktiot Kahden faktorin yhteisvaikutus, eron suuruus yhden faktorin ryhmien välillä riippuu toisen faktorin arvosta Crossing effect = interaction effect Ordinal (keskiarvokuviossa viivat erisuuntaiset, mutta eivät leikkaa) Disordinal (keskiarvokuviossa viivat leikkaavat toisensa)

Ei interaktiota Sekä koolla että toimialalla merkitsevä suora vaikutus Ei interaktiota, homogeneity of slopes

Interaktiot Ordinaalinen interaktio (koon vaikutus teollisuudessa voimakkaampi kuin kaupassa) Dis-ordinaalinen interaktio (koon vaikutus teollisuudessa eri suuntainen kuin kaupassa)

Sisäkkäiset vaikutukset Nested effect B(A) ”B nested within A” Koko (toimiala): koon vaikutus erikseen kullakin toimialalla Eroaa interaktiosta vain siinä että B:n (koko) suora vaikutus ei ole mallissa mukana B:n (koko) kulmakerroin vaihtelee A:n (toimiala) luokissa

Estimoidut ryhmäkeskiarvot Estimated marginal means tai LS (least squares) means Mallin tuottamat ennustetut ryhmäkeskiarvot, kun muiden selittäjien vaikutus on otettu huomioon Eri kuin otoksesta laskettu tavallinen ryhmäkeskiarvo, jos selittäjillä on yhteyttä keskenään

Neliösummat Tyyppi I ei kontrolloi mallissa myöhemmin tulevien selittäjien vaikutuksia Tyyppi II kontrolloi kaikkien muiden selittäjien vaikutukset Tyyppi III ja IV parhaat jos soluissa eri määrät havaintoja, IV jos on tyhjiä soluja

Post hoc-testit Multiple comparison procedures, mean separation tests Ajatuksena on välttää I tyypin virhettä joka johtuu siitä kun tehdään monta yksittäistä parivertailua, joissa jokaisessa on 5% riskitaso niin hylkäämisvirheitä tulee Esim. Bonferroni, Scheffe, Sidak,… Tukey-Kramer muita voimakkaampi H0: ryhmäkeskiarvot samat -> jos hylätään niin ovat eri mutta jos jää voimaan niin ei välttämättä ole samat (voi johtua vaikka otoksen pienuudesta ettei päästä hylkäämään)

SAS: analyze – ANOVA – linear models

Estimoitavat vaikutukset Interaktiovaikutus tästä, valitse ensin molemmat muuttujat, sitten Cross

Neliösummat

Muita optioita, tarpeeton

Post hoc-testit

Kuvaajat

SAS - koodi PROC GLM DATA=kirjasto.datatiedosto PLOTS(ONLY)=DIAGNOSTICS(UNPACK) PLOTS(ONLY)=RESIDUALS PLOTS(ONLY)=INTPLOT ; CLASS Elinkaari Perheyr; MODEL growthorient= ln_hlo Elinkaari Perheyr Elinkaari*Perheyr / SS3 SOLUTION SINGULAR=1E-07 LSMEANS Elinkaari Perheyr Elinkaari*Perheyr / PDIFF ADJUST=BON ; RUN; QUIT;

Mallin merkitsevyys ja sopivuus Class Level Information Class Levels Values Elinkaari 3 2 3 4 Perheyr 2 0 1 Number of Observations Read 181 Number of Observations Used 132 Source DF Sum of Squares Mean Square F Value Pr > F Model 6 13.03085542 2.17180924 3.59 0.0026 Error 125 75.69810081 0.60558481 Corrected Total 131 88.72895623 R-Square Coeff Var Root MSE growthorient Mean 0.146861 21.79382 0.778193 3.570707

Selittäjien merkitsevyydet Source DF Type III SS Mean Square F Value Pr > F ln_hlo 1 2.88693851 4.77 0.0309 Elinkaari 2 9.52176337 4.76088169 7.86 0.0006 Perheyr 0.28960870 0.48 0.4905 Elinkaari*Perheyr 1.99071120 0.99535560 1.64 0.1974

Parametriestimaatit Parameter Estimate Standard Error t Value Pr > |t| Intercept 3.196306815 B 0.49826714 6.41 <.0001 ln_hlo 0.161079578 0.07377500 2.18 0.0309 Elinkaari 2 0.372704251 0.49030119 0.76 0.4486 Elinkaari 3 -0.041166136 0.46224369 -0.09 0.9292 Elinkaari 4 0.000000000 . Perheyr 0 -0.862973482 0.92404272 -0.93 0.3522 Perheyr 1 Elinkaari*Perheyr 2 0 1.250588328 0.98491805 1.27 0.2065 Elinkaari*Perheyr 2 1 Elinkaari*Perheyr 3 0 0.654885600 0.94241380 0.69 0.4884 Elinkaari*Perheyr 3 1 Elinkaari*Perheyr 4 0 Elinkaari*Perheyr 4 1

Yhtälöt kullekin 6 solulle, esim. Elinkaari=2 ja perheyr=0 Growth = 3.20 + 0.16*ln_hlo + 0.37 – 0.86 + 1.25 = 3.96 + 0.16*ln_hlo Elinkaari=3 ja perheyr=0 Growth = 3.20 + 0.16*ln_hlo – 0.04 – 0.86 + 0.65 = 2.95 + 0.16*ln_hlo Elinkaari=4 ja perheyr=0 Growth = 3.20 + 0.16*ln_hlo + 0.00 – 0.86 + 0.00 = 2.34 + 0.16*ln_hlo Elinkaari=2 ja perheyr=1 Growth = 3.20 + 0.16*ln_hlo + 0.37 + 0.00 + 0.00 = 3.57 + 0.16*ln_hlo Elinkaari=3 ja perheyr=1 Growth = 3.20 + 0.16*ln_hlo - 0.04 + 0.00 + 0.00 = 3.16 + 0.16*ln_hlo Elinkaari=4 ja perheyr=1 Growth = 3.20 + 0.16*ln_hlo + 0.00 + 0.00 + 0.00 = 3.20 + 0.16*ln_hlo

Parametriestimaatit The X'X matrix has been found to be singular, and a generalized inverse was used to solve the normal equations. Terms whose estimates are followed by the letter 'B' are not uniquely estimable. Tämä huomautus tulee aina kun mallissa on kategorisia selittäjiä, SAS pystyy kuitenkin estimoimaan kertoimet

Homoskedastisuus

Havaintodiagnostiikkaa

Residuaalien jakaumat

Mallin sopivuus

Havaintojen vaikuttavuus

Residuaalin riippumattomuus

Ryhmäerojen merkitsevyys, suorat vaikutukset Least Squares Means for effect Elinkaari Pr > |t| for H0: LSMean(i)=LSMean(j) Dependent Variable: growthorient i/j 1 2 3 0.0006 0.1225 1.0000 Elinkaari growthorient LSMEAN LSMEAN Number 2 4.14643211 1 3 3.43471035 4 3.14843369 Perheyr growthorient LSMEAN H0:LSMean1=LSMean 2 Pr > |t| 3.46261763 0.4905 1 3.69043314

Ryhmäerojen merkitsevyys, interaktiot Elinkaari Perheyr growthorient LSMEAN LSMEAN Number 2 4.34023953 1 3.95262468 3 3.33066641 3.53875430 4 2.71694695 5 3.57992043 6 Least Squares Means for effect Elinkaari*Perheyr Pr > |t| for H0: LSMean(i)=LSMean(j) Dependent Variable: growthorient i/j 1 2 3 4 5 6 1.0000 0.0161 0.1052 0.8474 0.1040 0.8177 Kasvuvaiheen ei-perheyritykset eroavat vakiintuneen vaiheen ei-perheyrityksistä

RAPORTOINTI koko mallin merkitsevyys: F-testi ja selityskerroin suorien ja interaktiovaikutusten luonne ja merkitsevyys: parametriestimaatit B estimoidut ryhmäkeskiarvot post hoc testitulokset tai kontrastitestien tulokset

Estimoidut ryhmäkeskiarvot Henkilöstömäärä oletettu keskiarvoksi (20)