Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

Mitä metadata on – ja miksi se on tärkeää

Samankaltaiset esitykset


Esitys aiheesta: "Mitä metadata on – ja miksi se on tärkeää"— Esityksen transkriptio:

1 Mitä metadata on – ja miksi se on tärkeää
Juha Hakala Kansalliskirjasto

2 Metadatan (-tiedon) määritelmiä
Metadata = ”data about data” informaatiota, jolla kuvataan periaatteessa mitä vain: julkaisuja, asiakirjoja, esineitä, ihmisiä, organisaatioita,… Metadataa tallennetaan, säilytetään ja asetetaan käyttöön kaikkialla Kirjastot, arkistot ja museot, mutta myös yliopistot, tutkimuslaitokset, julkishallinto, yritykset, tiedustelupalvelut… Monet organisaatiot ovat riippuvaisia laadukkaasta metadatasta Tässä esityksessä keskitytään tutkimusaineistojen metadataan Julkaisujen kuvailussa kirjastoilla on ollut vakiintuneita käytänteitä jo yli 100 vuoden ajan, mutta tutkimusaineistojen osalta yhteiset linjaukset ovat osittain vielä kehitteillä Metadata

3 Metadatan tehtävistä Metadata mahdollistaa tutkimusaineistojen löydettävyyden ja saatavuuden Kuvataan esim. aineiston tekijät, nimeke, aihe, vastuuorganisaatio ja sijaintipaikka (-paikat) Metadata luo edellytykset tutkimusaineistojen uudelleenkäytölle ja pitkäaikaissäilytykselle Kuvataan esim. aineiston eri versioiden tiedostomuodot ja sovellukset, joiden avulla ne ovat käsiteltävissä Metadatan avulla voidaan ilmaista tutkimusaineiston tekijänoikeudellinen tila ja käyttöehdot Lisenssi, mahdolliset tietosuojamääräykset ”Omien” lisenssien kuvaaminen ymmärrettävästi voi olla hankalaa Metadata

4 Metadataan liittyvät läheisesti…
Kuvailusäännöt, jotka määrittelevät terminologian, tallennettavat tiedot ja sen, ja mistä ne poimitaan ”Kirjan tekijä ja nimeke otetaan sen nimiösivulta” Tutkimusaineistojen monimuotoisuus vaikeuttaa yhtenäisten sääntöjen luomista Eri toimialoilla sovelletaan erilaisia sääntöjä Kirjastojen, arkistojen ja museoiden metadatoissa on silti yhteinen nimittäjä, joka mahdollistaa Finnan kaltaisen kattavan hakupalvelun Metadataformaatti, joka määrittelee tallennettavat tietoelementit ja niiden rakenteen Tutkimusaineistojen kuvailuun on olemassa sekä rikkaita että yksinkertaisia formaatteja Jälkimmäisten soveltaminen ei edellytä perusteellista koulutusta Metadata

5 Formaateista ja kuvailusäännöistä
Kuvailusäännöt perustuvat toimialan (kirjasto, arkisto, museo,…) aineistoihin ja niiden hallitsemiseen kehitettyihin menetelmiin; perinteet voivat olla pitkiäkin Tutkimusaineistojen osalta pisin perinne on yhteiskuntatieteellisillä tietoarkistoilla Elektroniset aineistot ovat lisänneet kuvailutarpeita radikaalisti Käytettävyyden ja pitkäaikaissäilytyksen takaaminen Formaatit ovat kuvailusääntöjen lisäksi sidoksissa myös tekniikkaan Semanttisen Webin myötä on syntynyt tarve esittää toimialakohtaiset metadatat yleisesti tuetussa muodossa Metadata

6 Metadatan alalajit Kuvaileva metadata Hallinnollinen metadata
Julkaisun ”perinteiset”, tunnistamiseen ja hakuun liittyvät tiedot kuten tekijä, nimeke, tunnus, kustantaja, julkaisuaika ja -paikka Hallinnollinen metadata Jakautuu tekniseen metadataan, oikeuksien hallinnan metadataan sekä pitkäaikaissäilytyksen metadataan Tekninen ja pitkäaikaissäilytyksen metadata liittyvät e-aineistoihin Rakenteellinen metadata E-aineiston rakenteen määrittely (esimerkiksi kirjan digitoitujen sivukuvien järjestys), jonka avulla aineisto on esitettävissä oikein Eri tyyppisillä metadatoilla on omat formaattinsa; yksikään formaatti ei kata koko kenttää, vaikka jossakin formaatissa voi olla tietoelementtejä joka osa-alueelta Kuvaileviin metatietoihin voidaan tallentaa tiedoston koko Lisää keskustelua URN:n, URL:n ja URI,n suhteesta tarjolla täällä: Sivulla mainittu URC (Uniform Resource Characteristics) on resurssia koskevaa metadataa. IETF ei koskaan saanut URC:tä kehitetyksi, mutta sen aseman on tavallaan ottanut Dublin Core. Se on julkaistu RFC:nä (RFC 5013), mutta vain Informational-kategoriassa eli IETF ei ole standardoinut DC:tä. ISO on, ja ISO:n Dublin Core –standardia ollaan parhaillaan uudistamassa niin että se sisältää jatkossa kaikki DC-termit, ei vain 15:ttä ydintermiä. Metadata

7 Tekninen metadata Metadataa, jonka avulla e-aineisto on esitettävissä ja/tai muokattavissa Perustasolla esim. tiedostomuoto (esim. PDF), tiedoston koko, tiedoston luonti- ja viimeisin muokkausaika Lisäksi tarvitaan esim. tarkistussumma, ohjelmisto (ohjelmistot) jolla aineisto voidaan esittää tai muokata, ja tietoa siitä, miten kuva on luotu (esim. still-kuvasta skanneri ja sen säädöt) Teknistä metadataa voidaan luoda ohjelmallisesti osana tutkimusaineiston tuotantoprosessia Prosessit tulisi suunnitella niin, että tarvittava tekninen metadata syntyy samalla kuin tutkimusaineistokin Osa metadataelementeistä (kuten tarkistussumma) pitää generoida niin aikaisin kuin mahdollista Metadata

8 Oikeuksien hallinnan metadata
Kuvaa aineistoon liittyviä pääsyn ja käytön rajoituksia esim. tekijänoikeudellinen status, oikeuksien haltijat sekä mahdollinen käytön salliva lisenssi kuten CC BY 4.0 Jos aineiston käyttö on tietosuojasyistä rajoitettu, kuvataan rajoitus ja sen perustana oleva lainsäädäntö Haasteita Oikeuksien haltijoiden selvittäminen on työlästä jälkikäteen Lisenssien kuvaaminen voi olla vaikeaa silloin kun lisenssi ei ole yleisesti tunnettu tai verkossa saatavilla (tiivistelmänä) Oikeuksien hallinnan metadataa on tallennettu vähän, eivätkä tiedot ole kattavia tai informatiivisia (”all rights reserved”) Tutkimusaineistoille tarvitaan ensin lisensointia koskevia linjauksia ja suosituksia, Metadata

9 Pitkäaikaissäilytyksen metadata
Ehto e-aineistojen käytettävyyden ja ymmärrettävyyden ainakin vuosikymmeniä kestävälle säilyttämiselle Pitkäaikaissäilytyksen metadataan tallennetaan kaikki operaatiot, joita aineistolle on tehty (kopioinnit, migraatiot yms.) sekä toimijat (henkilöt ja sovellukset) jotka niistä vastasivat Lisäksi kuvataan e-aineiston käyttöympäristö riittävällä tarkkuudella Esim. ohjelmistot, joilla aineistoa voi käsitellä, sekä laitteistot ja varusohjelmat joita nämä ohjelmistot edellyttävät Tallennukseen käytetään ATT-PAS -hankkeessa PREMIS-formaattia Suuri osa pitkäaikaissäilytyksen metadatan tuottamisesta voidaan automatisoida Metadata

10 Tutkimusaineistojen metadatasta
Tutkimusaineistoille ei ole olemassa kansainvälistä yleisesti hyväksyttyä kuvailusääntöä, mutta best practices –ohjeistuksia on tehty hanke- ja tieteenalakohtaisesti; esim.: ICPSR Best practices in creating metadata (social sciences) Research Data Alliance pyrkii laatimaan kattavia ohjeita Tutkimusaineistoille on useita tieteenalakohtaisia formaatteja Data Curation Center ylläpitää kattavaa luetteloa: Yleisiä kv. vaihtoehtoja on ainakin kaksi, DCAT ja CERIF Metadata

11 Tutkimusaineistojen metadatasta (2)
Yhteisten sääntöjen puuttuessa tutkimusdatan kuvailu on vapaampaa kuin esimerkiksi julkaisujen, mutta datan ymmärrettäväksi saaminen voi edellyttää paljon enemmän metatietoja kuin vastaava julkaisun kuvailu Cornellin yliopisto ohjeistaa tutkijoita: In a lab setting, much of the content used to describe data is initially collected in a notebook; metadata is a more formal, sharable expression of this information. It can include content such as contact information, geographic locations, details about units of measure, abbreviations or codes used in the dataset, instrument and protocol information, survey tool details, provenance and version information and much more. Where no appropriate, formal metadata standard exists, for internal use, writing “readme” style metadata is an appropriate strategy. Metadata

12 Tutkimusaineistojen metadatasta (3)
Tutkimusaineistojen hallinnollinen metadata pitää tallentaa sen ”oikeissa” formaateissa Tutkimusaineistojen kuvailevan metadatan formaateissa ei ole tarvittavia hallinnollisen metadatan tietoelementtejä Digitaaliset arkistot kuten ATT-PAS olettavat hallinnollisten metatietojen löytyvän sen formaateista kuten PREMISistä jo silloin kun data-aineistoja siirretään pysyvään säilytykseen Pitkäaikaissäilytysjärjestelmät tallentavat arkistoinnissa syntyvät hallinnolliset metatiedot esim. PREMIS-muodossa Kuten muillakin aineistoilla, hallinnollisen metadatan tuotanto voidaan ja pitäisi automatisoida niin pitkälle kuin mahdollista CSC tuottaa ohjelmistoja, jotka helpottavat data-aineiston paketoimista ATT-PAS –järjestelmän edellyttämään muotoon Metadata

13 ATT-hankkeen linjauksista
Kuvailevan metatiedon tallentamiseen kehitetään yhteistä, DCAT-formaattiin pohjautuvaa ratkaisua Esimerkiksi yhteiskuntatieteelliset tietoaineistot kuvaillaan silti jatkossakin DDI-formaatissa, jota alan tietoarkistot soveltavat ATT:n Etsin-palvelun tallennusalusta Hallinnollisen metadatan osalta nojaudutaan soveltuvin osin KDK PAS –hankkeen linjauksiin Tutkimusaineistojen säilytyspalvelu IDA tuottaa osan tarvittavasta hallinnollisesta metadatasta Metadata

14 Lopuksi Tutkimuksen tietoaineistoja pystyvät kuvailemaan tehokkaasti vain aineiston tuottaneet tutkijat ja tutkimusryhmät Kirjastojen asiantuntijat voivat tukea tutkijoita tässä prosessissa Metadatan pitää mahdollistaa aineiston löytäminen, uusiokäyttö ja luoda edellytykset pitkäaikaissäilytykselle Bittien säilytys ei riitä, datan pitää olla tulkittavissa Kuvailussa tulisi noudattaa ATT-hankkeessa sovittuja yhteisiä periaatteita eri organisaatioissa tuotetun metadatan yhteismitallisuuden takaamiseksi Mahdollisuudet metadatan muuntamiseen sektorikohtaisista formaateista kuten DDI:stä ATT-muotoon voidaan selvittää Hallinnollinen metadata ja aineiston paketointi PAS-järjestelmään siirtämistä varten tulisi tehdä ohjelmallisesti Metadata


Lataa ppt "Mitä metadata on – ja miksi se on tärkeää"

Samankaltaiset esitykset


Iklan oleh Google