Luento 6 Predictive modelling – ennustava mallintaminen käyttäen GIS/RS-ohjelmistoja ja tilastollista mallintamista.

Slides:



Advertisements
Samankaltaiset esitykset
Konfirmatorinen faktorianalyysi
Advertisements

Testaus ja testausympäristöt
M M o o V V E E Ammatillisen huippuosaamisen mallintaminen Modeling Vocational Excellence.
ja aluetutkielmakysymykseen vastaaminen yo-kokeessa
Inventoinnin suunnittelu: kartta-analyysi ja GIS
ArcGis käyttömahdollisuuksia -aineistosta lopputulokseen
Tietokannan suunnittelu
TUME II / Tilastollinen osuus
Hypoteesin testeistä Testin valinta perustuu aina tutkimusongelmaan ja kuvailuun (joka perustuu mitta-asteikoihin) Testaus ei koskaan ole itsenäinen, vaan.
Opasnet-kanta/Päivi Meriläinen1 Opasnet-kanta tietovarastona ja -lähteenä. Juomaveden terveysriskit ja kloorauksen sivutuotteet Päivi Meriläinen,
C-ohjelmointi, kevät 2006 Taulukot Binääritiedostot Luento
T Automaatiotekniikka 2 4op
Mittausepävarmuuden määrittäminen 1
Vain demonstraatio- käyttöön © Menetelmäopetuksen tietovaranto 1 / 8 Ristiintaulukointi Ristiintaulukointia käytetään tutkittaessa kahden luokittelu- tai.
AINEISTOLÄHTÖINEN (eli LAADULLINEN) TUTKIMUSPROSESSI
TOLERATE research meeting Progress by FMI: some results for weather extremes Kirsti Jylhä Thanks to material: Seppo Saku, Ari Venäläinen, Teija.
Virhelähteet yksittäisten puiden latvusten ilmakuvamittauksessa Antti Mäkinen Maatalous-metsätieteellinen tiedekunta / Metsävarojen käytön laitos.
Tutkimus osuuskuntien alueellisesta syntyvyydestä Panu Kalmi / HKKK ja RUN Pellervon Päivä Helsinki.
Tilastoanalyysien merkitys ekologiassa
Monipuolista alakoulun kemian opetusta.
TEORIALÄHTÖINEN (eli MÄÄRÄLLINEN TUTKIMUSPROSESSI
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 3 - Outi Somervuori Optimointiopin seminaari - Kevät 2010 The trouble with choice: Studing.
Tilastollisia menetelmiä
Teoria ja metodi 2. luento epistemilogia ja analogia.
Käyttäytymistieteiden laitos
Elliptiset jakaumat Esitys 6 kpl Tuomas Nikoskinen Työn saa tallentaa ja julkistaa Aalto-yliopiston avoimilla verkkosivuilla. Muilta.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 11 - Teemu Mutanen Optimointiopin seminaari - Syksy 2005 / 1 Lisätiedon arvo.
Muuttujien riippuvuus
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä # - Esitelmöijän nimi Optimointiopin seminaari - Syksy 2010 Lineaarinen.
lineaarinen regressio
5. Lineaarinen optimointi
Standardointi tekee eri asteikollisista muuttujista vertailukelpoisia
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä 11 – Tuomas Nummelin Optimointiopin seminaari - Syksy 2010 Lokaalit uskottavuusmenetelmät.
TUME II / TILASTOLLINEN OSUUS DATAN LAATU SEPPO RÄSÄNEN SAVONIA-AMK TERVEYSALA KUOPIO KEVÄT TYTUT21.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmöijän nimi Systeemitieteiden kandidaattiseminaari – Syksy/Kevät 200X Virheraportoijien jakaumat.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Turkka Anttonen Systeemitieteiden kandidaattiseminaari – Syksy 2009 Epälineaariset pienimmän neliösumman.
1 Sensor Tasking and Control Jari Hassinen Riikka Asikainen
Kuinka kuvata materiaalin puristuvuutta tabletin kehityksen optimoimiseksi ? Laura Yrjänäinen Perustuu konferenssitiivistelmään: C.M.D. Gabaude,
TILASTOTIEDE ARKEOLOGIASSA Har 230h
S ysteemianalyysin Laboratorio Aalto-yliopisto Turkka Anttonen Systeemitieteiden kandidaattiseminaari – Syksy 2010 Gauss-Newton ja Levenberg- Marquardt.
GIS-perusteet ja kartografia -tehtävät. Tehtävä 1 Tutustuminen ArcMap-käyttöliittymään – Avaa Suomen rajat ja asutuskeskukset - tasot (Maastotietokanta.
1 Kvantitatiiviset menetelmät Pienryhmäkokoontumisissa tarvitaan EK03- aineiston haastattelulomake. Sen voi tulostaa verkosta. Linkki löytyy kurssin kotisivulta:
Matka-ajat ja etäisyydet saavutettavuuden mittareina - Poimintoja väitöskirjastani Maria Salonen Geotieteiden ja maantieteen laitos, HY
Toimintakausi Ydinporukka pieni, mutta aktiivinen! Lisää innostuneita mahtuu mukaan!
UNIVERSITY OF TURKU LOGISTINEN REGRESSIOANALYYSI.
UNIVERSITY OF TURKU MONIMUUTTUJAMENETELMÄT SOSIAALITYÖN TUTKIMUKSESSA Leena Koivusilta Turun yliopisto, Sosiaalipolitiikan laitos.
Paikkatietojärjestelmät Kaikesta tiedosta jopa 80 % on sidottavissa johonkin paikkaan (maantieteellinen koordinaatisto, hallinnollinen raja tai osoite)
Kvantitatiivinen ja kvalitatiivinen tutkimus
Määrällinen tutkimus.
REGRESSIOANALYYSI.
VARIANSSIANALYYSI.
Lineaariset regressiomenetelmät
Yleistä SPSS:stä Alunperin lyhennys sanoista Statistical Package for Social Sciences Valittu opiskeltavaksi ohjelmaksi, koska on helppokäyttöinen ja riittävän.
Monimuuttinimuuttuja-analyyseista
VaR-mallien toimivuuden testaus historian avulla (backtesting)
Tutkimuksen abc.
Kärkihankkeen tutkimusteemoja (WP1)
1 ALUETUTKIMUKSEN TEKEMINEN
Paikkatiedon käyttötapoja
Tilastollinen koneoppiminen -lyhyt oppimäärä-
Muuttujamuunnoksista
Bayes-päättelyn kertausta
TIETEELLINEN TUTKIMUS (7ET)
Hierarchical models Biotieteellinen tiedekunta / Henkilön nimi / Esityksen nimi
GIS-perusteet ja kartografia -tehtävät
ArcGIS 9.1 Spatial Analyst -laajennusosio
Tulevaisuuden talot ja uusiutuva energia – Mittaukset, analyysi ja mallintaminen Pekka Seppälä, Lauri Mikkonen
Aineiston kuvaaminen graafisin menetelmin
Luento V. Typologia ja tilastotiede
Luento V. Typologia ja tilastotiede
Esityksen transkriptio:

Luento 6 Predictive modelling – ennustava mallintaminen käyttäen GIS/RS-ohjelmistoja ja tilastollista mallintamista

Miksi laatia malleja - why modelling? •malleilla pyritään kuvaamaan, analysoimaan ja yksinkertaistamaan todellisia ilmiöitä ja systeemejä •tavoitteet: esim. kustannussäästö ; ennustaminen (esim. ilmastonmuutoksen vaikutus) • hypoteesien testaaminen •erilaisia malleja: kuvaava, käsitteellinen, matemaattinen ja spatiaalinen malli

Lähde: Guisan & Zimmermann 2000 Mallintamisen vaiheet (alueellinen aineisto ja tilastolliset menetelmät)

Tutkimusongelma •Afrikassa asutuksen levinneisyys (distribution) on paikoitellen heikosti tai erittäin heikosti tunnettu. Tämä aiheuttaa ongelmia mm. väestönlaskennassa •Voidaanko asutusten sijaintia ja väestön määrää selittää GIS/RS muuttujilla Taita Hills ylänköalueella - Mitkä tekijät vaikuttavat voimakkaimmin asutuksen sijaintiin? •Jos asutusten sijaintia voidaan selittää niin laaditaan tilastollinen prediktiivinen malli koko Taita Hills alueelle asutuksen todennäköisestä jakautumisesta

1. Käsitteellinen malli •Kenttähavainnot •kirjallisuuteen tutustuminen

2a. Tutkimusaineiston koonti: tutkittava ilmiö (vastemuuttuja) – esim. rakennusten sijainti Taitavuorten alueella Keniassa •ilmakuva- ja karttatulkinnat •maastotutkimukset (esim. GPS:llä paikannettua tietoa kohteesta) •olemassa olevat aineistot (mm. kartat, tietokannat ja inventointiaineistot)

Taita Hills and EnsoMOSAIC image mosaics

Vastemuuttujan teko – (creating response variable - digitizing populated houses from 0.5 meter resolution airborne images)

Mallin ekstrapolointi alue

Tutkimusalue (Taita Hills yli 1100m)

•valittava ilmiöiden kannalta tärkeitä, mutta melko helposti laadittavia muuttujia •maastotyöt •kartat ja kaukokartoitusaineistot •paikkatietoaineistot ja -mallit 2b. Tutkimusaineiston koonti: muu aineisto – selittävät muuttujat - (esim. ympäristötekijät)

Maastotyöt •mittaukset ja havainnoinnit  interpolointi (eri menetelmiä) tai mallintaminen alueelliseksi aineistoksi

Kartat ja kaukokartoitusaineistot •paperikartta: skannaus  tulkinta  digitointi  alueellista dataa •satelliittikuvat: esim. luokittelu (land cover) tai parametrien laskenta esim. kasvillisuusindeksit (NDVI), maaperän kosteus, albedo...

Paikkatietoaineistot ja tietokannat •korkeusmalli, (DEM) •maaperäkartat •biotoopit •maankäyttö •Ilmastotiedot •Etäisyys gridit (e.g. euclidean distance from main roads and main rivers) •muut

Digitaalinen korkeusmalli korkeuskäyristä •laadinta: korkeuskäyrät  interpolointi alueelliseksi malliksi (Topo to Raster)  haluttujen muuttujien laskeminen mallista •Slope, aspect, curvature ym.

Topografis- ja etäisyysperusteisia parametreja Slope Distance to rivers

Maankäyttöluokitus SPOT satelliittikuvasta

Mallinnusaineiston laadinta: ruutulähestymistapa •etuja (mm. mahdollisuus käyttää GIS- aineistoja analyyseissä  aineisto numeeriseen muotoon) •haittoja (mm. oikean mallinnusmittakaavan valinta, luokitusongelmat ja aineiston spatiaalinen autokorrelaatio)

Mallinnusaineiston laadinta: ruutulähestymistapa •tutkimusalue samankokoisiksi ruuduiksi (esim. 100 m tai 500 m  aineistosta muuttujataulukko). Analyysiruudukon tekoon voi käyttää esim. Arc Mapin Toolboxin – Create FISHNET funktiota

Mallinnusaineiston laadinta: ruutulähestymistapa Idea: lasketaan selittävistä muuttujista joka analyysi ruudulle Zonal statistics eli esim. keskikorkeus = Zonal mean elevation jokaiselle 500*500 metrin analyysiruudulle. Esim. käyttämällä ArcToolboxissa: Spatial Analyst Tools > Zonal > Zonal Statistics as Table. Joka selittävälle muuttujalle lasketaan taulukko ja kaikki muuttujat Yhdistetään yhdeksi tauluksi yhteisen ID-avainkentän avulla. Tähän tauluun liitetään myös Vastemuuttujan tiedot joka ruudulta (esim. esiintyy / ei esiinny (0-1) tai esim. kuinka monta Vastemuuttujaa esiintyy kussakin ruudussa (summa). Taulukko tallennetaan lopuksi esim. Excel formaattiin ja se on valmis esim. SPSS tilasto-ohjelmistoa varten.

Vastemuuttuja - asuttu / ei asuttu (0-1) ruudukko (esim. 100 * 100 meter)

Vastemuuttuja - 100m grid (talojen presence /absence 0-1) yli 1100 metrin korkeudessa tulkittu ilmakuvilta

Selittävät muuttujat, (explanatory variables) 100 x 100 m Zonal Statistics

Selittävä muuttuja mm. zonal mean elevation

Selittävä muuttuja mm. zonal max slope

Selittävä muuttuja mm. zonal max distance to roads

Selittävä muuttuja mm. pensaston osuus (%) 100m gridistä

Yhdistetään vastemuuttuja (asunto) ja selittävät muuttujat yhteen tauluun •Yhdistäminen ArcMap = Join (huom! ArcMap ohjelma voi kaatua jos monta taulua yhdistetään toisiinsa). •Taulukoiden yhdistäminen mahdollista : Excelissä •MS Accessissa – kätevin tapa •SPSS:ssä •Jne.

Lähde: Guisan & Zimmermann 2000

Tilastollisen menetelmän valinta •1) optimaalisen tilastollisen lähestymistavan valinta mallinnustarkoitus huomioiden •2) sopivan algoritmin valintaa tietyn tyyppisen vasteen mallintamiseen ja mallin kerrointen estimointiin •aineiston tarkastelu erittäin keskeisessä asemassa

Tutkimusaineistoon tutustuminen •jakauma (vaikuttaa mallinnusmenetelmän valintaan) •vasteen spatiaalisuus (trendit ja spatiaalinen autokorrelaatio) •hajontakuviot •perustunnusluvut (keski- ja hajontaluvut) •selittävien tekijöiden korrelaatiot

Jakaumat

Hajontakuviot

Lähde: Guisan & Zimmermann 2000

Mallin kalibrointi •1) selittävien muuttujien valinta (tilastolliset perusteet vs. hypoteesit) •2) mallin parametrien ja vakion estimointi ja sovitus (esim. pienimmän neliösumman menetelmä vs. suurimman todennäköisyyden menetelmä)

Tilastollinen mallinnusesimerkki: yleistetty additiivinen regressiomalli generalized additive model (GAM)

GAM Modelling

GAM

GAM mallinnus ja tulokset Regressiomallinnus: lineaariset mallit OLS; yleiset lineaariset mallit GLM – Generalized linear models; ja additiiviset mallit - Generalized additive models GAM GLM ja GAM mallit ”joustavampia” kuin OLS – sopii paremmin maantieteellisen aineiston mallintamiseen jossa muuttujat eivät usein ole normaalisti jakautuneita Mallinnus (kalibrointi – evaluointi) ilmaisella R-ohjelmistolla

Mallinnusaineisto GAM-regressiomalliin

GAM mallin selittävät muuttujat (explanatory variables)

Validation

Response shapes in one of the spatial GAM models based on the Akaike information criterion (AIC) selection method for dwelling units. The dashed lines are approximate 95% point-wise confidence intervals; tickmarks show the location of observations along the variable range; y-axes represent the effect of the respective variable; s represents the smooth term of the GAM.

Lähde: Guisan & Zimmermann 2000

Taita Hills: asutuksen todennäköisyyskartta (ekstrapolointi)

Asutuksen todennäköisyys ekstrapoloitu koko Taita Hillsin alueelle

Asutuksen todennäköisyyden ennustemalli – Ngangao, Taita Hills

Mallin kalibrointi Kappa-arvo ± keskivirhe AUC-arvo ± keskivirhe Oikeinluokitus 0-ruudut (%) Oikeinluokitus 1-ruudut (%) Oikeinluokitu s yhteensä (%) Esiintymis- malli (kal.) ± ±  mallin kalibroinnin arviointi (kalibroinnin ”hyvyys”)

Mallin evaluointi •mallit testattava evaluointiaineistolla  esiintymismallin kalibrointi- ja evaluointitulosten vertailu: MalliKappa ± keskivirhe AUC ± keskivirhe Oikeinluokitus 0-ruudut (%) Oikeinluokitus 1- ruudut (%) Oikeinluokitus yhteensä (%) Kalibrointidata ± ± Evaluointidata ± ±

Mallin evaluointi: visuaalinen tarkastelu

Lähde: Guisan & Zimmermann 2000

3. SWOT-analyysi tilastollisten menetelmien ja paikkatietojärjestelmien käytöstä maantieteellisessä tutkimuksissa

VAHVUUDET •objektiivisuuden lisääntyminen (kvantitatiiviset menetelmät alueellisiin analyyseihin  perinteisesti deskriptiivistä ja tulkinnat melko subjektiivisia) •monipuolista muuttujadataa GIS- ja kaukokartoitusmenetelmin  GIS + RS  synenergiaetu •tulosten (eli mallien) evaluointimahdollisuus  testaus itsenäisellä testiaineistolla

VAHVUUDET •laajoja ja monipuolisia valmiita aineistoja  vrt. heikkoudet •GIS tutkimustiedon aineistopankkina (vasteet ja selittäjät  esim. maastodata, topografiset parametrit…) •GIS myös visuaalisessa analyysissä (voi olla joskus järkevin / ainoa anal. tapa) •valmiita työkaluja

HEIKKOUDET •GIS datan laatu!!!!!!  tarkat arvioinnit (visuaaliset ja laskennalliset) •alueellisten ilmiöiden rajausongelmat •spatiaalinen autokorrelaatio yleensä aina läsnä alueellisissa aineistoissa  riippumattomuussäännön rikkominen tilastollisissa analyyseissä  eri ratkaisumenetelmiä

HEIKKOUDET •spatiaalisten ympäristömuuttujien laadintavaikeudet (usein vain pistedataa  interpolointi  tuloksena malli, jossa on yleensä tuntematon määrä virhettä) •mallin hyvyyden arvioinnin subjektiivisuus •mallit toimivat usein vain mallinnusympäristöissä (-alueella/-aineistolla) (ei kunnolla ekstrapoloitavissa)  mukaan kausaalisia tekijöitä

MAHDOLLISUUDET •hypoteesien testaus (uudenlainen lähestymistapa  uusi näkökulma vanhaan ongelmaan) •geostatistiikan sovellukset ympäristömuuttujien laadinnassa (mm. kriging  virhearvioinnit) •erimittakaavaiset mallinnukset •alueellinen ennustaminen  selkeä kustannussäästö tutkimusaineiston keruussa

UHAT •mallien tulkintaongelmat / malliin epärelevantteja (epäsuoria) muuttujia  tutkittava ilmiö tunnettava hyvin! •aineiston laatu (mm. tuntemattomat virheet) •tilastolliset mallit olettavat yleensä staattista tilaa •väärä mallinnusmittakaava (prosessit toimivat eri mittakaavassa kuin ilmiöitä tutkittu)  mallinnus eri mittakaavoissa

UHAT •väärän mallinnusmenetelmän valinta (mm. muuttujien jakaumat tiedettävä) •spatiaalinen autokorrelaatio (vahvuus, heikkous, uhka vai mahdollisuus?) •multikollineaarisuus (selittävien tekijöiden korrelointi  ”väärä” muuttuja malliin) •vuorovaikutussuhteet usein epälineaarisia ja muuttujat ei-normaalijakautuneita