Semantic Computing Research Group (SeCo) Kulttuurisampo.fi – Suomalainen kulttuuri ja semanttinen web – mitä, miksi ja miten? 2.4.2009 Eetu Mäkelä Semantic Computing Research Group (SeCo) Helsinki University of Technology (TKK), Department of Media Technology and University of Helsinki, Department of Computer Science http://www.seco.tkk.fi
Sisältö Semanttisen webin hyödyt Suomalainen konteksti: FinnONTO 2.0-projekti Suomalainen kulttuuri semanttisessa webissä: Kulttuurisampo.fi Heterogeenisen tiedon yhdistäminen ja älykkäät palvelut Miten tämä toimii? Tesauruksista ja sanastoista ontologioihin Miten pääsen mukaan? Mitä apuja on?
Sisältö Semanttisen webin hyödyt Suomalainen konteksti: FinnONTO 2.0-projekti Suomalainen kulttuuri semanttisessa webissä: Kulttuurisampo.fi Heterogeenisen tiedon yhdistäminen ja älykkäät palvelut Miten tämä toimii? Tesauruksista ja sanastoista ontologioihin Miten pääsen mukaan? Mitä apuja on?
Miksi semanttinen web? Jos semanttisesta webistä tulee totta, seuraavat asiat muuttuvat halvemmiksi toteuttaa: Älykkäämmät ja siten käyttökelpoisemmat webpalvelut Sisällöntuotannon tehostaminen Sisällön uusiokäyttö Sisällöntuotannon hajauttaminen Eri toimijoiden tuottamien sisältöjen yhdistäminen Kieli- ja kulttuurirajojen ylittäminen palveluissa Yhteentoimivat eri toimijoiden ohjelmistojärjestelmät Ohjelmistopalvelujen uudelleenkäyttö ja jakaminen eri toimijoiden välillä Web 2.0-ideologiassakin pääosassa yhteisöllisyys ja tietojen ja palvelujen yhdistäminen. Semanttinen web tarjoaa seuraavan sukupolven teknologia-alustan web 2.0-ideologialle → Web 3.0
Mikä semanttinen web? Hyvin lyhyesti: semanttinen web on teknologia, jossa tieto ja ymmärrys koodataan niin että tyhmä konekin sen ymmärtää Kansainvälinen konteksti: Yksi keskeinen sovellusalue on World Wide Webin (WWW) seuraava sukupolvi Tunnetuin puolestapuhuja webin ”isä” prof. Tim Berners-Lee Teknologian kypsyys: Standardit W3C:n ylimmässä standardiluokassa Oracle 10.2 tukee semanttisen webin teknologioita Adoben tuotteiden metadatan tallennus kauttaaltaan SW- pohjaista Euroopan digitaalisen kirjastoportaalin Europeanan kehittyneempi versio rakennetaan SW-teknologialle
Suomalainen konteksti: FinnONTO-projekti Tekes-tutkimushanke, tutkimusosapuolina TKK, Helsingin yliopisto ja Tampereen yliopisto Ydintavoite: luoda Suomelle yhteinen kansallinen semanttisen webin infrastruktuuri, joka mahdollistaa teknologian hyödyntämisen mahdollisimman halvalla Käytännössä: Loppukäyttäjille suunnattuja palvelukonsepteja ja työkaluja niiden toteuttamiseen (Kulttuurisampo, TerveSuomi.fi, Opintie, ...) Apuvälineitä tiedon tuotantoon ja yhdistämiseen Pääpaino organisaatioiden yhteistoiminnassa (yksilöt mukaan 2009) Käynnistyi vuonna 2003 2003-2004: 14 rahoittajaa 2004-2005: 16 rahoittajaa 2005-2006: 30 rahoittajaa 2006-2007: 37 rahoittajaa 2008-2009: 38 rahoittajaa 2009-2010: uusi haku, tervetuloa mukaan!
FinnONTO-projektin rahoittajat 2008-2009 AAC Global Oy Antikvaria-ryhmä CelAmanzi Oy Connexor Oy Coronaria Oy Eduskunta Ego Beta Oy Elisa Oy Espoon kaupunginmuseo Geol. tutkimusk. GTK Hgin kaupunginkirjasto Hgin yliopiston Viikin tiedekirjasto Kansallisarkisto Kansalliskirjasto Kansanterveyslaitos Koulutuskeskus Dipoli Maa- ja metsätalousministeriö Maanmittauslaitos M-Cult Merenkulkulaitos Museovirasto Mysema Oy Osuuspankkikeskus OSK PKT-Säätiö Profium Oy Rautaruukki Oyj Sanastokeskus TSK Sininen Meteoriitti Oy Stakes Suomen Asiakastieto Oy Suomalaisen kirjallisuuden seura SKS Suomen valokuvataiteen museo Taideteollisen korkeakoulun kirjasto Terveyden edistämisen keskus (Tekry) TietoEnator Oyj Valtion taidemuseo Valtiovarainministeriö / ValtIT Wärtsilä Oyj Pilotointialueet 2008-2009: kulttuuri, terveydenhuolto, yrityspalvelut, asiakirjanhallinta
Sisältö Semanttisen webin hyödyt Suomalainen konteksti: FinnONTO 2.0-projekti Suomalainen kulttuuri semanttisessa webissä: Kulttuurisampo.fi Heterogeenisen tiedon yhdistäminen ja älykkäät palvelut Miten tämä toimii? Tesauruksista ja sanastoista ontologioihin Miten pääsen mukaan? Mitä apuja on?
Kulttuurisampo.fi – Mistä on kyse? Kulttuurisampo on keskitetty web-portaali, joka esittelee semanttisen webin teknologioista saatavaa lisäarvoa monimuotoisten ja monilähteisten kulttuurisisältöjen yhteisöllisessä julkaisussa Museoesineet (Espoon kaupunginmuseo, Lahden kaupunginmuseo, Kansallismuseo, Pohjois-Karjalan museo, Suomen maatalousmuseo Sarka) Maalaukset, veistokset, piirustukset ja muu esittävä ja abstrakti taide (Valtion taidemuseo) Kaunokirjallisuus (Helsingin kaupunginkirjasto) WWW-tietosivut (Wikipedia) Runot (ml. Kalevala) (Suomen kansan vanhat runot, SKS) Kalevalan paikat ja henkilöt Kansansävelmät (Jyväskylän yliopiston musiikin laitos ja SKS) Valokuvat (Kuopion kulttuurihistoriallinen museo, Kansallismuseo) Ilmavalokuvat (Veljekset Karhumäki Oy) Henkilöt ja organisaatiot (Getty Union List of Artist Names) Biografiat (Kansallisbiografia, SKS) Historialliset tapahtumat (Agricola – Suomen historiaverkko) Taidot (Taideteollisen korkeakoulun kirjasto, Suomen maatalousmuseo Sarka) Videot (Espoon kaupunginmuseo) Rakennetut kohteet (Espoon kaupunginmuseo) Muinaismuistokohteet (Museovirasto)
Kulttuurisammon teknologia mahdollistaa: Eri toimijoiden eri tyyppisiä objekteja sisältävien tietokantojen yhdistämisen kustannustehokkaasti ja mielekkäästi Moniaineistoselailun ja suosittelun Kalevalan tekstistä kuvien kautta maalarin elämänkertaan Paremmat hakutoiminnot Historialliset paikat, Ontologinen tekstihaku Yhteyksien löytämisen ja visualisoinnin Mitä yhteistä on Akseli Gallen-Kallelalla ja Napoleonilla? Aineiston jäsentelyn ja esitysten muodostamisen Näyttely, aikajana, karttanäkymä Kaikki tämä ihmisen ymmärtämien merkitysten tasolla, kielestä riippumatta
Kulttuurisammon teknologia mahdollistaa: Eri toimijoiden eri tyyppisiä objekteja sisältävien tietokantojen yhdistämisen kustannustehokkaasti ja mielekkäästi Moniaineistoselailun ja suosittelun Kalevalan tekstistä kuvien kautta maalarin elämänkertaan Paremmat hakutoiminnot Historialliset paikat, Ontologinen tekstihaku Yhteyksien löytämisen ja visualisoinnin Mitä yhteistä on Akseli Gallen-Kallelalla ja Napoleonilla? Aineiston jäsentelyn ja esitysten muodostamisen Näyttely, aikajana, karttanäkymä Kaikki tämä ihmisen ymmärtämien merkitysten tasolla, kielestä riippumatta
Kulttuurisammon teknologia mahdollistaa: Eri toimijoiden eri tyyppisiä objekteja sisältävien tietokantojen yhdistämisen kustannustehokkaasti ja mielekkäästi Moniaineistoselailun ja suosittelun Kalevalan tekstistä kuvien kautta maalarin elämänkertaan Paremmat hakutoiminnot Historialliset paikat, Ontologinen tekstihaku Yhteyksien löytämisen ja visualisoinnin Mitä yhteistä on Akseli Gallen-Kallelalla ja Napoleonilla? Aineiston jäsentelyn ja esitysten muodostamisen Näyttely, aikajana, karttanäkymä Kaikki tämä ihmisen ymmärtämien merkitysten tasolla, kielestä riippumatta
Kulttuurisammon teknologia mahdollistaa: Eri toimijoiden eri tyyppisiä objekteja sisältävien tietokantojen yhdistämisen kustannustehokkaasti ja mielekkäästi Moniaineistoselailun ja suosittelun Kalevalan tekstistä kuvien kautta maalarin elämänkertaan Paremmat hakutoiminnot Historialliset paikat, Ontologinen tekstihaku Yhteyksien löytämisen ja visualisoinnin Mitä yhteistä on Akseli Gallen-Kallelalla ja Napoleonilla? Aineiston jäsentelyn ja esitysten muodostamisen Näyttely, aikajana, karttanäkymä Kaikki tämä ihmisen ymmärtämien merkitysten tasolla, kielestä riippumatta
Kulttuurisammon teknologia mahdollistaa: Eri toimijoiden eri tyyppisiä objekteja sisältävien tietokantojen yhdistämisen kustannustehokkaasti ja mielekkäästi Moniaineistoselailun ja suosittelun Kalevalan tekstistä kuvien kautta maalarin elämänkertaan Paremmat hakutoiminnot Historialliset paikat, Ontologinen tekstihaku Yhteyksien löytämisen ja visualisoinnin Mitä yhteistä on Akseli Gallen-Kallelalla ja Napoleonilla? Aineiston jäsentelyn ja esitysten muodostamisen Näyttely, aikajana, karttanäkymä Kaikki tämä ihmisen ymmärtämien merkitysten tasolla, kielestä riippumatta
Hyötyä myös koneille: Kulttuurisammon Web 2.0-arkkitehtuuri Kulttuurisammon sekä toiminnallisuus että käyttöliittymät on rakennettu yleisistä, uudelleenkäytettävistä palikoista Tästä johtuen lähes kaikki Kulttuurisammon toiminnallisuus on kenen tahansa omaan palveluun liitettävissä http://www.seco.tkk.fi/applications/kulttuurisampo/ Tulevia käyttäjiä: Yleisten kirjastojen kaunokirjallisuusportaali Kirjasampo SmartMuseum EU-hanke
Sisältö Semanttisen webin hyödyt Suomalainen konteksti: FinnONTO 2.0-projekti Suomalainen kulttuuri semanttisessa webissä: Kulttuurisampo.fi Heterogeenisen tiedon yhdistäminen ja älykkäät palvelut Miten tämä toimii? Tesauruksista ja sanastoista ontologioihin Miten pääsen mukaan? Mitä apuja on?
Tesauruksista ja luokituksista ontologioihin Semanttinen web perustuu pitkälti ontologoihin, jotka ovat tesaurusten ja luokitusten sukulaisia. Mikseivät tesaurukset ja luokitukset sitten riitä? Tesaurukset ja luokitukset suunnitellaan yleisesti ihmiskäyttäjää varten. Kone on tyhmempi, ja tarvitsee tarkemmin määriteltyä tietoa Ontologiat määrittelevät käsitteiden suhteet formaalisti ja tarkasti niin että sekä ihmiset että koneet voivat niitä käyttää Lisähyötynä keskittymällä formaaleihin käsitemalleihin päästään eroon kieli- ja kulttuuririippuvasta ajattelusta. Neutraaleille käsitteille voidaan sitten antaa nimi/kirjoittaa kuvaus kaikilla halutuilla kielillä.
Esimerkki ongelmasta: Suomen Museot OnLine -formaatti Myös kentät jotka ovat aikaisemmin olleet vain vapaatekstiä pitää saattaa yhdenmukaisiksi Päivämäärät/vuodet ”1768, jälk.” ”1300-luku, keskiaika” ”1870 - 1960, 1870-n.1960” ”, n. 1965 - talvi 1976-77” Henkilöt "K. E. Ståhlberg" "Ståhlberg, K. E." Paikat ”, Suomi, Karjala, Viipurin pitäjä, Hanhijoki, asuinrakennus” ”Marokko, Sus (Sous)” ”Lappi” -> Koneluettavuus kärsii, käsittelyyn tarvitaan käsityötä (n. 90% ohjelmakoodista aineiston korjailuun)
Esimerkkejä ontologisoinnista: YSA->YSO Aurinkokunta Ovatko komeetat aurinkokuntia vai niiden osia? Onko Halleyn komeetta yksilö vai luokka? LT Komeetta LT Halleyn komeetta Aurinkokunta Taivaankappale Ontologiatyössä: Yksilöt erotetaan luokista Luokat asetetaan taksonomiseen hierarkiaan Asioiden väliset suhteet erotellaan Suhteiden merkitys kirjataan formaalisti partOf subClassOf Komeetta type Halleyn komeetta
Esimerkkejä käsitteiden ja yksilöiden merkitysten erottelusta Ontologiatyössä: Sanojen eri merkitykset erotellaan Jokaiselle käsitteelle ja yksilölle annetaan oma globaali yksilötunnisteensa (URI) Nokia yrityksenä <-> Nokia kaupunkina Suomen 49 Pyhäjärvi-nimistä paikkaa
Sisältö Semanttisen webin hyödyt Suomalainen konteksti: FinnONTO 2.0-projekti Suomalainen kulttuuri semanttisessa webissä: Kulttuurisampo.fi Heterogeenisen tiedon yhdistäminen ja älykkäät palvelut Miten tämä toimii? Tesauruksista ja sanastoista ontologioihin Miten pääsen mukaan? Mitä apuja on?
Apuvälineitä tiedon tuotantoon ja yhdistämiseen KOKO -ontologiainfrastruktuuri: yhteinen yläontologia YSO, tusina erikoisalalontologiaa Palveluja ontologoiden hajautettuun kehittämiseen ja käyttöön tiedon kuvailussa ja haussa Standardoitavia toiminta- ja kuvailutapoja Työkaluja valmiiden tietovarantojen muuttamiseen semanttisen webin muotoon
KOKO -ontologiainfrastruktuuri Yläontologia YSO (fi,sv,en) liittää yhteen erikoisalaontologiat, mm. Museoalan ontologia MAO (fi) Paikkaontologia SUO (fi,sv,saamet,en) Ajallinen paikkaontologia SAPO (fi) Toimijaontologia TOIMO (monikielinen) Taideteollisen alan ontologia TAO (fi) Valokuvausontologia VALO (fi) Agriforest maa- ja metsätalousontologia AFO (fi,en) Muiden luokittelujärjestelmien liittäminen YKL + HKLJ + YSO, Kaunokki + YSO, ICONCLASS + YSO Kansainväliset kytkökset: AAT, ULAN, TGN, WordNet, DBPedia, ... Paljonko ontologiatyö vaatii aikaa ja rahaa? Ennen YSOa: MASA → MAO ~30 käsitettä/päivä YSO:n jälkeen: Agriforest → AFO ~50-100 käsitettä/päivä Demo: http://www.yso.fi/onki/koko/?c=http://www.yso.fi/onto/koko/p35193&q=kala Kansallinen yläontologia YSO (20-25 000 käsitettä) Museoalan ontologia MAO (7000) Agriforest Ontologia AFO (10 000) ... ...
ONKI-ontologiakirjastopalvelin Ei pelkästään keskitettyjä sanastoja, vaan myös jaettua toiminnallisuutta Ontologioiden ja sanastojen selaus ja käsite/asiasanavalinta Sekä indeksoinnin että haun tarpeisiin Myös upotettuna omiin indeksointi- ja hakujärjestelmiin Oma SKOS-muodossa oleva sanasto käden käänteessä palvelimelle Demo Indeksointi: http://www.yso.fi/onki/yso/app/annotation/ Haku: http://www.yso.fi/onki/yso/app/annotation/lusto-demo.html,http://www- db.helsinki.fi/eviikki/eviikkihaku.html Pysyvää infrastuktuuria Kansalliskirjasto korvaa kuukauden sisällä VESA-sanastopalvelunsa ONKI- SKOS-YSA-palvelimella ja selvittää projektin kanssa pysyviä ylläpitokuvioita “Uusi ONKI-YSA, ONKI-ympäristön sanastot ja ontologiat sekä ONKI itsessään ovat tärkeitä kansallisia palveluita, joiden jatkuva kehittäminen on turvattava” Tunnistettu myös Kansallinen digitaalinen kirjasto -hankkeessa “välttämättömäksi kansalliseksi palveluksi” Käytössä edellämainittujen lisäksi myös Kysy kirjastonhoitajalta-palvelussa
SAHA annotaatioeditori Organisaatioille joilla ei ole omaa sisällönhallinta/indeksointijärjestelmää tai mahdollisuutta kytkeä ONKI:n SW-toiminnallisuuksia järjestelmänsä osaksi tarjoamme myös kokonaisen sisällönhallintaeditorin Käytössä mm. Kirjasampo-hankkeessa Demo: http://demo.seco.tkk.fi/smetana/frameset.shtml?model=kaunokk i_saha&lang=fi
Työkaluja valmiiden tietovarantojen muuttamiseen: Kulttuurisammon tiedontuotantoputki Suomen Museot Online -museoesineet, Muusa-taideteokset, Getty- ULAN -henkilötiedot: XML HelMet-teostiedot: Excel Karhumäen veljesten ilmavalokuvat, Latvavesiltä-kirjailijatiedot: SQL-kanta Museot.fi-näyttelytietokanta: CSV Kalevala, Opintie, Historialliset tapahtumat: RDF … Ehdottomasti suurin työ on saada aineisto RDF-muotoon. Tämän jälkeen loppu voidaan tehdä vähitellen tarkoitusta varten rakennetuilla standardityökaluilla
Kiitos Kulttuurisampo osoitteessa http://www.kulttuurisampo.fi/ Lisätietoja osoitteesta http://www.seco.tkk.fi/ Oma sähköpostiosoitteeni: eetu.makela@tkk.fi