Lataa esitys
Esittely latautuu. Ole hyvä ja odota
JulkaistuIlmari Haavisto Muutettu yli 9 vuotta sitten
1
Luento 6 Predictive modelling – ennustava mallintaminen käyttäen GIS/RS-ohjelmistoja ja tilastollista mallintamista
2
Miksi laatia malleja - why modelling? •malleilla pyritään kuvaamaan, analysoimaan ja yksinkertaistamaan todellisia ilmiöitä ja systeemejä •tavoitteet: esim. kustannussäästö ; ennustaminen (esim. ilmastonmuutoksen vaikutus) • hypoteesien testaaminen •erilaisia malleja: kuvaava, käsitteellinen, matemaattinen ja spatiaalinen malli
3
Lähde: Guisan & Zimmermann 2000 Mallintamisen vaiheet (alueellinen aineisto ja tilastolliset menetelmät)
4
Tutkimusongelma •Afrikassa asutuksen levinneisyys (distribution) on paikoitellen heikosti tai erittäin heikosti tunnettu. Tämä aiheuttaa ongelmia mm. väestönlaskennassa •Voidaanko asutusten sijaintia ja väestön määrää selittää GIS/RS muuttujilla Taita Hills ylänköalueella - Mitkä tekijät vaikuttavat voimakkaimmin asutuksen sijaintiin? •Jos asutusten sijaintia voidaan selittää niin laaditaan tilastollinen prediktiivinen malli koko Taita Hills alueelle asutuksen todennäköisestä jakautumisesta
5
1. Käsitteellinen malli •Kenttähavainnot •kirjallisuuteen tutustuminen
6
2a. Tutkimusaineiston koonti: tutkittava ilmiö (vastemuuttuja) – esim. rakennusten sijainti Taitavuorten alueella Keniassa •ilmakuva- ja karttatulkinnat •maastotutkimukset (esim. GPS:llä paikannettua tietoa kohteesta) •olemassa olevat aineistot (mm. kartat, tietokannat ja inventointiaineistot)
7
Taita Hills and EnsoMOSAIC image mosaics
8
Vastemuuttujan teko – (creating response variable - digitizing populated houses from 0.5 meter resolution airborne images)
9
Mallin ekstrapolointi alue
10
Tutkimusalue (Taita Hills yli 1100m)
11
•valittava ilmiöiden kannalta tärkeitä, mutta melko helposti laadittavia muuttujia •maastotyöt •kartat ja kaukokartoitusaineistot •paikkatietoaineistot ja -mallit 2b. Tutkimusaineiston koonti: muu aineisto – selittävät muuttujat - (esim. ympäristötekijät)
12
Maastotyöt •mittaukset ja havainnoinnit interpolointi (eri menetelmiä) tai mallintaminen alueelliseksi aineistoksi
13
Kartat ja kaukokartoitusaineistot •paperikartta: skannaus tulkinta digitointi alueellista dataa •satelliittikuvat: esim. luokittelu (land cover) tai parametrien laskenta esim. kasvillisuusindeksit (NDVI), maaperän kosteus, albedo...
14
Paikkatietoaineistot ja tietokannat •korkeusmalli, (DEM) •maaperäkartat •biotoopit •maankäyttö •Ilmastotiedot •Etäisyys gridit (e.g. euclidean distance from main roads and main rivers) •muut
15
Digitaalinen korkeusmalli korkeuskäyristä •laadinta: korkeuskäyrät interpolointi alueelliseksi malliksi (Topo to Raster) haluttujen muuttujien laskeminen mallista •Slope, aspect, curvature ym.
16
Topografis- ja etäisyysperusteisia parametreja Slope Distance to rivers
17
Maankäyttöluokitus SPOT satelliittikuvasta
18
Mallinnusaineiston laadinta: ruutulähestymistapa •etuja (mm. mahdollisuus käyttää GIS- aineistoja analyyseissä aineisto numeeriseen muotoon) •haittoja (mm. oikean mallinnusmittakaavan valinta, luokitusongelmat ja aineiston spatiaalinen autokorrelaatio)
19
Mallinnusaineiston laadinta: ruutulähestymistapa •tutkimusalue samankokoisiksi ruuduiksi (esim. 100 m tai 500 m aineistosta muuttujataulukko). Analyysiruudukon tekoon voi käyttää esim. Arc Mapin Toolboxin – Create FISHNET funktiota
20
Mallinnusaineiston laadinta: ruutulähestymistapa Idea: lasketaan selittävistä muuttujista joka analyysi ruudulle Zonal statistics eli esim. keskikorkeus = Zonal mean elevation jokaiselle 500*500 metrin analyysiruudulle. Esim. käyttämällä ArcToolboxissa: Spatial Analyst Tools > Zonal > Zonal Statistics as Table. Joka selittävälle muuttujalle lasketaan taulukko ja kaikki muuttujat Yhdistetään yhdeksi tauluksi yhteisen ID-avainkentän avulla. Tähän tauluun liitetään myös Vastemuuttujan tiedot joka ruudulta (esim. esiintyy / ei esiinny (0-1) tai esim. kuinka monta Vastemuuttujaa esiintyy kussakin ruudussa (summa). Taulukko tallennetaan lopuksi esim. Excel formaattiin ja se on valmis esim. SPSS tilasto-ohjelmistoa varten.
21
Vastemuuttuja - asuttu / ei asuttu (0-1) ruudukko (esim. 100 * 100 meter)
22
Vastemuuttuja - 100m grid (talojen presence /absence 0-1) yli 1100 metrin korkeudessa tulkittu ilmakuvilta
23
Selittävät muuttujat, (explanatory variables) 100 x 100 m Zonal Statistics
25
Selittävä muuttuja mm. zonal mean elevation
26
Selittävä muuttuja mm. zonal max slope
27
Selittävä muuttuja mm. zonal max distance to roads
28
Selittävä muuttuja mm. pensaston osuus (%) 100m gridistä
29
Yhdistetään vastemuuttuja (asunto) ja selittävät muuttujat yhteen tauluun •Yhdistäminen ArcMap = Join (huom! ArcMap ohjelma voi kaatua jos monta taulua yhdistetään toisiinsa). •Taulukoiden yhdistäminen mahdollista : Excelissä •MS Accessissa – kätevin tapa •SPSS:ssä •Jne.
30
Lähde: Guisan & Zimmermann 2000
31
Tilastollisen menetelmän valinta •1) optimaalisen tilastollisen lähestymistavan valinta mallinnustarkoitus huomioiden •2) sopivan algoritmin valintaa tietyn tyyppisen vasteen mallintamiseen ja mallin kerrointen estimointiin •aineiston tarkastelu erittäin keskeisessä asemassa
32
Tutkimusaineistoon tutustuminen •jakauma (vaikuttaa mallinnusmenetelmän valintaan) •vasteen spatiaalisuus (trendit ja spatiaalinen autokorrelaatio) •hajontakuviot •perustunnusluvut (keski- ja hajontaluvut) •selittävien tekijöiden korrelaatiot
33
Jakaumat
35
Hajontakuviot
37
Lähde: Guisan & Zimmermann 2000
38
Mallin kalibrointi •1) selittävien muuttujien valinta (tilastolliset perusteet vs. hypoteesit) •2) mallin parametrien ja vakion estimointi ja sovitus (esim. pienimmän neliösumman menetelmä vs. suurimman todennäköisyyden menetelmä)
39
Tilastollinen mallinnusesimerkki: yleistetty additiivinen regressiomalli generalized additive model (GAM)
40
GAM Modelling
41
GAM
42
GAM mallinnus ja tulokset Regressiomallinnus: lineaariset mallit OLS; yleiset lineaariset mallit GLM – Generalized linear models; ja additiiviset mallit - Generalized additive models GAM GLM ja GAM mallit ”joustavampia” kuin OLS – sopii paremmin maantieteellisen aineiston mallintamiseen jossa muuttujat eivät usein ole normaalisti jakautuneita Mallinnus (kalibrointi – evaluointi) ilmaisella R-ohjelmistolla http://www.r-project.org/
43
Mallinnusaineisto GAM-regressiomalliin
44
GAM mallin selittävät muuttujat (explanatory variables)
45
Validation
47
Response shapes in one of the spatial GAM models based on the Akaike information criterion (AIC) selection method for dwelling units. The dashed lines are approximate 95% point-wise confidence intervals; tickmarks show the location of observations along the variable range; y-axes represent the effect of the respective variable; s represents the smooth term of the GAM.
49
Lähde: Guisan & Zimmermann 2000
50
Taita Hills: asutuksen todennäköisyyskartta (ekstrapolointi)
51
Asutuksen todennäköisyys ekstrapoloitu koko Taita Hillsin alueelle
52
Asutuksen todennäköisyyden ennustemalli – Ngangao, Taita Hills
53
Mallin kalibrointi Kappa-arvo ± keskivirhe AUC-arvo ± keskivirhe Oikeinluokitus 0-ruudut (%) Oikeinluokitus 1-ruudut (%) Oikeinluokitu s yhteensä (%) Esiintymis- malli (kal.) 0.652 ± 0.020.921 ± 0.00783.4684.4884.15 mallin kalibroinnin arviointi (kalibroinnin ”hyvyys”)
54
Mallin evaluointi •mallit testattava evaluointiaineistolla esiintymismallin kalibrointi- ja evaluointitulosten vertailu: MalliKappa ± keskivirhe AUC ± keskivirhe Oikeinluokitus 0-ruudut (%) Oikeinluokitus 1- ruudut (%) Oikeinluokitus yhteensä (%) Kalibrointidata 0.652 ± 0.020.921 ± 0.00783.4684.4884.15 Evaluointidata 0.637 ± 0.0320.92 ± 0.01180.4985.7484.16
55
Mallin evaluointi: visuaalinen tarkastelu
56
Lähde: Guisan & Zimmermann 2000
57
3. SWOT-analyysi tilastollisten menetelmien ja paikkatietojärjestelmien käytöstä maantieteellisessä tutkimuksissa
58
VAHVUUDET •objektiivisuuden lisääntyminen (kvantitatiiviset menetelmät alueellisiin analyyseihin perinteisesti deskriptiivistä ja tulkinnat melko subjektiivisia) •monipuolista muuttujadataa GIS- ja kaukokartoitusmenetelmin GIS + RS synenergiaetu •tulosten (eli mallien) evaluointimahdollisuus testaus itsenäisellä testiaineistolla
59
VAHVUUDET •laajoja ja monipuolisia valmiita aineistoja vrt. heikkoudet •GIS tutkimustiedon aineistopankkina (vasteet ja selittäjät esim. maastodata, topografiset parametrit…) •GIS myös visuaalisessa analyysissä (voi olla joskus järkevin / ainoa anal. tapa) •valmiita työkaluja
60
HEIKKOUDET •GIS datan laatu!!!!!! tarkat arvioinnit (visuaaliset ja laskennalliset) •alueellisten ilmiöiden rajausongelmat •spatiaalinen autokorrelaatio yleensä aina läsnä alueellisissa aineistoissa riippumattomuussäännön rikkominen tilastollisissa analyyseissä eri ratkaisumenetelmiä
61
HEIKKOUDET •spatiaalisten ympäristömuuttujien laadintavaikeudet (usein vain pistedataa interpolointi tuloksena malli, jossa on yleensä tuntematon määrä virhettä) •mallin hyvyyden arvioinnin subjektiivisuus •mallit toimivat usein vain mallinnusympäristöissä (-alueella/-aineistolla) (ei kunnolla ekstrapoloitavissa) mukaan kausaalisia tekijöitä
62
MAHDOLLISUUDET •hypoteesien testaus (uudenlainen lähestymistapa uusi näkökulma vanhaan ongelmaan) •geostatistiikan sovellukset ympäristömuuttujien laadinnassa (mm. kriging virhearvioinnit) •erimittakaavaiset mallinnukset •alueellinen ennustaminen selkeä kustannussäästö tutkimusaineiston keruussa
63
UHAT •mallien tulkintaongelmat / malliin epärelevantteja (epäsuoria) muuttujia tutkittava ilmiö tunnettava hyvin! •aineiston laatu (mm. tuntemattomat virheet) •tilastolliset mallit olettavat yleensä staattista tilaa •väärä mallinnusmittakaava (prosessit toimivat eri mittakaavassa kuin ilmiöitä tutkittu) mallinnus eri mittakaavoissa
64
UHAT •väärän mallinnusmenetelmän valinta (mm. muuttujien jakaumat tiedettävä) •spatiaalinen autokorrelaatio (vahvuus, heikkous, uhka vai mahdollisuus?) •multikollineaarisuus (selittävien tekijöiden korrelointi ”väärä” muuttuja malliin) •vuorovaikutussuhteet usein epälineaarisia ja muuttujat ei-normaalijakautuneita
Samankaltaiset esitykset
© 2024 SlidePlayer.fi Inc.
All rights reserved.