Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

Luento 6 Predictive modelling – ennustava mallintaminen käyttäen GIS/RS-ohjelmistoja ja tilastollista mallintamista.

Samankaltaiset esitykset


Esitys aiheesta: "Luento 6 Predictive modelling – ennustava mallintaminen käyttäen GIS/RS-ohjelmistoja ja tilastollista mallintamista."— Esityksen transkriptio:

1 Luento 6 Predictive modelling – ennustava mallintaminen käyttäen GIS/RS-ohjelmistoja ja tilastollista mallintamista

2 Miksi laatia malleja - why modelling? •malleilla pyritään kuvaamaan, analysoimaan ja yksinkertaistamaan todellisia ilmiöitä ja systeemejä •tavoitteet: esim. kustannussäästö ; ennustaminen (esim. ilmastonmuutoksen vaikutus) • hypoteesien testaaminen •erilaisia malleja: kuvaava, käsitteellinen, matemaattinen ja spatiaalinen malli

3 Lähde: Guisan & Zimmermann 2000 Mallintamisen vaiheet (alueellinen aineisto ja tilastolliset menetelmät)

4 Tutkimusongelma •Afrikassa asutuksen levinneisyys (distribution) on paikoitellen heikosti tai erittäin heikosti tunnettu. Tämä aiheuttaa ongelmia mm. väestönlaskennassa •Voidaanko asutusten sijaintia ja väestön määrää selittää GIS/RS muuttujilla Taita Hills ylänköalueella - Mitkä tekijät vaikuttavat voimakkaimmin asutuksen sijaintiin? •Jos asutusten sijaintia voidaan selittää niin laaditaan tilastollinen prediktiivinen malli koko Taita Hills alueelle asutuksen todennäköisestä jakautumisesta

5 1. Käsitteellinen malli •Kenttähavainnot •kirjallisuuteen tutustuminen

6 2a. Tutkimusaineiston koonti: tutkittava ilmiö (vastemuuttuja) – esim. rakennusten sijainti Taitavuorten alueella Keniassa •ilmakuva- ja karttatulkinnat •maastotutkimukset (esim. GPS:llä paikannettua tietoa kohteesta) •olemassa olevat aineistot (mm. kartat, tietokannat ja inventointiaineistot)

7 Taita Hills and EnsoMOSAIC image mosaics

8 Vastemuuttujan teko – (creating response variable - digitizing populated houses from 0.5 meter resolution airborne images)

9 Mallin ekstrapolointi alue

10 Tutkimusalue (Taita Hills yli 1100m)

11 •valittava ilmiöiden kannalta tärkeitä, mutta melko helposti laadittavia muuttujia •maastotyöt •kartat ja kaukokartoitusaineistot •paikkatietoaineistot ja -mallit 2b. Tutkimusaineiston koonti: muu aineisto – selittävät muuttujat - (esim. ympäristötekijät)

12 Maastotyöt •mittaukset ja havainnoinnit  interpolointi (eri menetelmiä) tai mallintaminen alueelliseksi aineistoksi

13 Kartat ja kaukokartoitusaineistot •paperikartta: skannaus  tulkinta  digitointi  alueellista dataa •satelliittikuvat: esim. luokittelu (land cover) tai parametrien laskenta esim. kasvillisuusindeksit (NDVI), maaperän kosteus, albedo...

14 Paikkatietoaineistot ja tietokannat •korkeusmalli, (DEM) •maaperäkartat •biotoopit •maankäyttö •Ilmastotiedot •Etäisyys gridit (e.g. euclidean distance from main roads and main rivers) •muut

15 Digitaalinen korkeusmalli korkeuskäyristä •laadinta: korkeuskäyrät  interpolointi alueelliseksi malliksi (Topo to Raster)  haluttujen muuttujien laskeminen mallista •Slope, aspect, curvature ym.

16 Topografis- ja etäisyysperusteisia parametreja Slope Distance to rivers

17 Maankäyttöluokitus SPOT satelliittikuvasta

18 Mallinnusaineiston laadinta: ruutulähestymistapa •etuja (mm. mahdollisuus käyttää GIS- aineistoja analyyseissä  aineisto numeeriseen muotoon) •haittoja (mm. oikean mallinnusmittakaavan valinta, luokitusongelmat ja aineiston spatiaalinen autokorrelaatio)

19 Mallinnusaineiston laadinta: ruutulähestymistapa •tutkimusalue samankokoisiksi ruuduiksi (esim. 100 m tai 500 m  aineistosta muuttujataulukko). Analyysiruudukon tekoon voi käyttää esim. Arc Mapin Toolboxin – Create FISHNET funktiota

20 Mallinnusaineiston laadinta: ruutulähestymistapa Idea: lasketaan selittävistä muuttujista joka analyysi ruudulle Zonal statistics eli esim. keskikorkeus = Zonal mean elevation jokaiselle 500*500 metrin analyysiruudulle. Esim. käyttämällä ArcToolboxissa: Spatial Analyst Tools > Zonal > Zonal Statistics as Table. Joka selittävälle muuttujalle lasketaan taulukko ja kaikki muuttujat Yhdistetään yhdeksi tauluksi yhteisen ID-avainkentän avulla. Tähän tauluun liitetään myös Vastemuuttujan tiedot joka ruudulta (esim. esiintyy / ei esiinny (0-1) tai esim. kuinka monta Vastemuuttujaa esiintyy kussakin ruudussa (summa). Taulukko tallennetaan lopuksi esim. Excel formaattiin ja se on valmis esim. SPSS tilasto-ohjelmistoa varten.

21 Vastemuuttuja - asuttu / ei asuttu (0-1) ruudukko (esim. 100 * 100 meter)

22 Vastemuuttuja - 100m grid (talojen presence /absence 0-1) yli 1100 metrin korkeudessa tulkittu ilmakuvilta

23 Selittävät muuttujat, (explanatory variables) 100 x 100 m Zonal Statistics

24

25 Selittävä muuttuja mm. zonal mean elevation

26 Selittävä muuttuja mm. zonal max slope

27 Selittävä muuttuja mm. zonal max distance to roads

28 Selittävä muuttuja mm. pensaston osuus (%) 100m gridistä

29 Yhdistetään vastemuuttuja (asunto) ja selittävät muuttujat yhteen tauluun •Yhdistäminen ArcMap = Join (huom! ArcMap ohjelma voi kaatua jos monta taulua yhdistetään toisiinsa). •Taulukoiden yhdistäminen mahdollista : Excelissä •MS Accessissa – kätevin tapa •SPSS:ssä •Jne.

30 Lähde: Guisan & Zimmermann 2000

31 Tilastollisen menetelmän valinta •1) optimaalisen tilastollisen lähestymistavan valinta mallinnustarkoitus huomioiden •2) sopivan algoritmin valintaa tietyn tyyppisen vasteen mallintamiseen ja mallin kerrointen estimointiin •aineiston tarkastelu erittäin keskeisessä asemassa

32 Tutkimusaineistoon tutustuminen •jakauma (vaikuttaa mallinnusmenetelmän valintaan) •vasteen spatiaalisuus (trendit ja spatiaalinen autokorrelaatio) •hajontakuviot •perustunnusluvut (keski- ja hajontaluvut) •selittävien tekijöiden korrelaatiot

33 Jakaumat

34

35 Hajontakuviot

36

37 Lähde: Guisan & Zimmermann 2000

38 Mallin kalibrointi •1) selittävien muuttujien valinta (tilastolliset perusteet vs. hypoteesit) •2) mallin parametrien ja vakion estimointi ja sovitus (esim. pienimmän neliösumman menetelmä vs. suurimman todennäköisyyden menetelmä)

39 Tilastollinen mallinnusesimerkki: yleistetty additiivinen regressiomalli generalized additive model (GAM)

40 GAM Modelling

41 GAM

42 GAM mallinnus ja tulokset Regressiomallinnus: lineaariset mallit OLS; yleiset lineaariset mallit GLM – Generalized linear models; ja additiiviset mallit - Generalized additive models GAM GLM ja GAM mallit ”joustavampia” kuin OLS – sopii paremmin maantieteellisen aineiston mallintamiseen jossa muuttujat eivät usein ole normaalisti jakautuneita Mallinnus (kalibrointi – evaluointi) ilmaisella R-ohjelmistolla http://www.r-project.org/

43 Mallinnusaineisto GAM-regressiomalliin

44 GAM mallin selittävät muuttujat (explanatory variables)

45 Validation

46

47 Response shapes in one of the spatial GAM models based on the Akaike information criterion (AIC) selection method for dwelling units. The dashed lines are approximate 95% point-wise confidence intervals; tickmarks show the location of observations along the variable range; y-axes represent the effect of the respective variable; s represents the smooth term of the GAM.

48

49 Lähde: Guisan & Zimmermann 2000

50 Taita Hills: asutuksen todennäköisyyskartta (ekstrapolointi)

51 Asutuksen todennäköisyys ekstrapoloitu koko Taita Hillsin alueelle

52 Asutuksen todennäköisyyden ennustemalli – Ngangao, Taita Hills

53 Mallin kalibrointi Kappa-arvo ± keskivirhe AUC-arvo ± keskivirhe Oikeinluokitus 0-ruudut (%) Oikeinluokitus 1-ruudut (%) Oikeinluokitu s yhteensä (%) Esiintymis- malli (kal.) 0.652 ± 0.020.921 ± 0.00783.4684.4884.15  mallin kalibroinnin arviointi (kalibroinnin ”hyvyys”)

54 Mallin evaluointi •mallit testattava evaluointiaineistolla  esiintymismallin kalibrointi- ja evaluointitulosten vertailu: MalliKappa ± keskivirhe AUC ± keskivirhe Oikeinluokitus 0-ruudut (%) Oikeinluokitus 1- ruudut (%) Oikeinluokitus yhteensä (%) Kalibrointidata 0.652 ± 0.020.921 ± 0.00783.4684.4884.15 Evaluointidata 0.637 ± 0.0320.92 ± 0.01180.4985.7484.16

55 Mallin evaluointi: visuaalinen tarkastelu

56 Lähde: Guisan & Zimmermann 2000

57 3. SWOT-analyysi tilastollisten menetelmien ja paikkatietojärjestelmien käytöstä maantieteellisessä tutkimuksissa

58 VAHVUUDET •objektiivisuuden lisääntyminen (kvantitatiiviset menetelmät alueellisiin analyyseihin  perinteisesti deskriptiivistä ja tulkinnat melko subjektiivisia) •monipuolista muuttujadataa GIS- ja kaukokartoitusmenetelmin  GIS + RS  synenergiaetu •tulosten (eli mallien) evaluointimahdollisuus  testaus itsenäisellä testiaineistolla

59 VAHVUUDET •laajoja ja monipuolisia valmiita aineistoja  vrt. heikkoudet •GIS tutkimustiedon aineistopankkina (vasteet ja selittäjät  esim. maastodata, topografiset parametrit…) •GIS myös visuaalisessa analyysissä (voi olla joskus järkevin / ainoa anal. tapa) •valmiita työkaluja

60 HEIKKOUDET •GIS datan laatu!!!!!!  tarkat arvioinnit (visuaaliset ja laskennalliset) •alueellisten ilmiöiden rajausongelmat •spatiaalinen autokorrelaatio yleensä aina läsnä alueellisissa aineistoissa  riippumattomuussäännön rikkominen tilastollisissa analyyseissä  eri ratkaisumenetelmiä

61 HEIKKOUDET •spatiaalisten ympäristömuuttujien laadintavaikeudet (usein vain pistedataa  interpolointi  tuloksena malli, jossa on yleensä tuntematon määrä virhettä) •mallin hyvyyden arvioinnin subjektiivisuus •mallit toimivat usein vain mallinnusympäristöissä (-alueella/-aineistolla) (ei kunnolla ekstrapoloitavissa)  mukaan kausaalisia tekijöitä

62 MAHDOLLISUUDET •hypoteesien testaus (uudenlainen lähestymistapa  uusi näkökulma vanhaan ongelmaan) •geostatistiikan sovellukset ympäristömuuttujien laadinnassa (mm. kriging  virhearvioinnit) •erimittakaavaiset mallinnukset •alueellinen ennustaminen  selkeä kustannussäästö tutkimusaineiston keruussa

63 UHAT •mallien tulkintaongelmat / malliin epärelevantteja (epäsuoria) muuttujia  tutkittava ilmiö tunnettava hyvin! •aineiston laatu (mm. tuntemattomat virheet) •tilastolliset mallit olettavat yleensä staattista tilaa •väärä mallinnusmittakaava (prosessit toimivat eri mittakaavassa kuin ilmiöitä tutkittu)  mallinnus eri mittakaavoissa

64 UHAT •väärän mallinnusmenetelmän valinta (mm. muuttujien jakaumat tiedettävä) •spatiaalinen autokorrelaatio (vahvuus, heikkous, uhka vai mahdollisuus?) •multikollineaarisuus (selittävien tekijöiden korrelointi  ”väärä” muuttuja malliin) •vuorovaikutussuhteet usein epälineaarisia ja muuttujat ei-normaalijakautuneita


Lataa ppt "Luento 6 Predictive modelling – ennustava mallintaminen käyttäen GIS/RS-ohjelmistoja ja tilastollista mallintamista."

Samankaltaiset esitykset


Iklan oleh Google