Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Samankaltaiset esitykset


Esitys aiheesta: "Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys"— Esityksen transkriptio:

1 Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys
Jani Stenvall Sähköisen julkaisemisen workshop, Viikki

2 Kansalliskirjasto? Helsingin yliopiston kirjasto – Suomen kansalliskirjasto HY:n alainen erillislaitos Kaksinainen rooli: paikallispalvelut + kansalliset tehtävät Toimialan laajennusprosessi käynnissä (kirjastoverkon palvelut) Kolme toimipaikkaa Pääkirjasto (Hki keskusta) Vallila (mm. tietokantapalvelut) Mikkeli (Mikrofilmaus, digitointi, konservointi)

3 Mikä on verkkojulkaisu? Eri toimijat, eri näkemykset
Verkkojulkaisut Mikä on verkkojulkaisu? Yksittäinen dokumentti vs. web-sivu vs. web-sivusto Eri toimijat, eri näkemykset Kaupalliset kustantajat Yliopistot, tutkimuslaitokset tms. Julkishallinnon eri organisaatiot Yritykset ja järjestöt Yksityiset

4 Yliopistojen, tutkimuslaitoksten verkkojulkaisut
Laajat web-sivustot + “Oikeita” julkaisuja: Raportit, selvitykset, opinnäytteet, artikkelit, sarjajulkaisut, oppimateriaalit… Usein painettu esikuva olemassa PDF hallitsee Uskomus: vähän hyödynnetty digitaalisen dokumentin mahdollisuuksia Monilla käytössä oma julkaisutietokanta (-arkisto, -rekisteri)

5 Digitaalinen julkaiseminen: valikoituja trendejä
Yliopistojen ja oppilaitosten kasvava verkkojulkaiseminen Open Access - tieteellisten julkaisujen vapaa saatavuus sekä avoimet julkaisuarkistot OAI (Open Archives Iniative) sekä OAI-PMH (= Open Archives Iniative – Protocol for Metadata Harvesting) Muutos tavallisista web-sivuista tietokantapohjaisiin sivustoihin tai julkaisurekistereihin Kaupalliset ohjelmistot ja ilmaisohjelmistot Open source –ohjelmistot Itse rakennetut Semanttinen web

6 Kansalliskirjasto ja digitaalinen julkaisemisen trendit
Kansalliskirjaston oma verkkojulkaisutoiminta Digitointi Omien digiaineistojen hallinta ja järkevien palvelujen rakentaminen Muita vaikutuksia kansalliskirjaston toimintaan Digitaalisen kirjaston kehittäminen (tiedonhakuportaali, kirjastojärjestelmä, digitaalisten dokumenttien hallintajärjestelmät) Digiaineistojen arkistointi ja pitkäaikaissäilytys (vapaakappalelaki) Metadataformaattien ja id-tunnusten tuki Mukana Open access –kehityksessä mm. tavoitteena tukea avoimia julkaisuarkistoja (OAI-PMH) Mukana myös semanttisen webin kehityksessä (ns. ontologiakehityksessä)

7 Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys: Vapaakappalelain uudistus
Vapaakappalelaki Nykyinen laki vuodelta 1980 Uusi lakiluonnos esitetty opetusministerille 2003, eduskuntakäsittelyä odotellaan (Tekijänoikeuslain uudistus vaikuttaa myös) Aikataulu uudelle laille yhä avoin Valmistautuminen kuitenkin jo käynnissä Uusi vapaakappalelaki, uudet vastuut Kansalliskirjasto kansallisten verkkoaineistojen tallennus: ”edustavasti ja monipuolisesti avoimissa tietoverkoissa eri aikoina yleisön saatavilla olevaa aineistoa” tallenteiden (cd-rom etc.) tallennus Suomen Elokuva-arkisto Kotimaisten radio- ja tv-ohjelmien keräys ja tallennus

8 Suomalaisen web-sisällön arkistointi lakiluonnoksen mukaan
Lakiluonnoksessa periaatteessa määritelty kaksi tapaa: Keräysohjelmalla haravoidaan kansallista web-avaruutta ja sen osia Jos aineistoa ei voida automaattisesti kerätä ja kansalliskirjasto toteaa sen merkittäväksi: kirjasto tekee ilmoituksen verkkojulkaisijalle => verkkojulkaisija luovuttaa aineiston tai ”mahdollistaa” kirjastolle aineiston tallennuksen (velvoite) esim. maksulliset web-julkaisut, tietokannan kautta saatavia julkaisuja tai muita ”näkymättömän webin” aineistoja Verkkojulkaisukokoelmien luominen yhteistyössä julkaisijoiden kanssa

9 Sivuhyppy: Ketkä kaikki ”arkistoivat” verkkoaineistoja?
Yleensä kansalliskirjastot : kontekstina vapaakappalelainsäädäntö tai muu mandaatti Esim. pohjoismaat, Australia, Ranska, UK, Italia, USA... Internet Archive (globaalisti) Muut organisaatiot ”Itse-arkistointi” Yhteistyötä: International Internet Preservation Consortium (IIPC)

10 Sivuhyppy: Verkkoaineistojen arkistoinnin kaksi päälinjaa
Valintaan (ja arkistointilupaan) perustuvat Identifioidaan tallennettavat sivustot/dokumentit ja pyydetään lupa arkistointiin sivuston omistajalta Laaja haravointi (harvesting, crawling) Automaattisilla keräysohjelmilla kerätään suuria määriä dataa määritellyllä laajuudella (ilman yksittäisiä arkistointilupia = oikeutus yleensä lainsäädännössä) esim. maa-domain tasolla (fi, se, fr...) Verkkoarkistoinnin haasteita Itse keräys, saman sivun eri versiot Pitkäaikaissäilytys ja käytettävyys Näkymätön web, web tietokannat tms. Yhteistyö verkkojulkaisijoiden kanssa

11 Verkkoaineistojen arkistoinnin suunnitelmia kansalliskirjastossa
Internet/www-aineistojen tallennus ja säilytys Ohjelmallisesti tallentaminen (= haravointiohjelmat) Julkaisijan/kustantajan avulla Tallennettu aineisto lakipykälien mukaiseen käyttöön: tutkijakäyttö (tai muut tarvitsijat), vain paikallisesti (vapaakappalekirjastot) Vapaakappalelaki kattaa vain tämän, se ei poista esim. organisaation muita säilytysvelvoitteita Digitaalisen aineiston pitkäaikaissäilytykseen tulee panostaa

12 Verkkoaineistojen arkistoinnin suunnitelmia kansalliskirjastossa 2
Kokoelmapolitiikan ja digiarkisto(je)n määrittely Perustetaan vapaakappaletoiminnan neuvottelukunta Web-sivut vs. verkkojulkaisut? Web-sivujen keräyksen nykysuunnitelmat 1-2 kertaa vuodessa tehdään laaja haravointikierros (kaikki kotimainen mitä löydetään), massakeräys Kerätään tiheämmin joitakin usein päivttyviä sivustoja (esim. uutissivustot, lehdistö, media) Teemakeräyksiä (esim. vaalisivustot) Verkkojulkaisut Hyvien verkkojulkaisukokoelmien luominen yhteistyössä julkaisijoiden kanssa Yksilöllinen käsitely, kuvailu ja pitkäaikaissäilytyksen metadata Mahdolliset kytkökset ISBN- ja ISSN-tunnuksiin Vapaaehtoisesti luovutettuja julkaisuja otetaan jo nyt vastaan

13 Kaksi linjaa web-aineistojen vapaakappalearkistointiin
Suomalainen web Julkaisijan tarjoama erillinen metadata Haravointi Julkaisija luovuttaa ”Verkkoarkisto” Datavarasto(t) Metadata-tietokanta Full text indeksi ”Luovutetun aineiston arkisto” Käyttöliittymät Veera Doria

14 Digiarkistojen kaksi linjaa
“Verkkoarkisto” Web-sivut ja sivustot Kansallinen domain (.fi) + muut domain-nimet jotka tiedetään suomalaisiksi (com, net, org...) html, gif, jpeg... Jotkut sivustot joissa id + salasana Haravoinnin kohteet ja rajoitteet Kokoteksti-indeksointi, automaattisesti hyödynnettävä metadata “Luovutetun aineiston arkisto” Julkaisut joita ei voida kerätä haravointiohjelmistolla (käyttörajoitetut julkaisut, näkymättömän webin aineistoja, kokoelmia) Julkaisut jotka on määritelty laadukkaiksi (?) (esim. julkaisusarjat, e-kirjat) Julkaisut jotka halutaan luetteloida kansallisbibliografiaan (Fennica) Mahdollimman rikasta metadataa julkaisukohtaisesti Kokoelma-ajattelu

15 Verkkoarkisto: Veera Veera-käyttöliittymä: Nordic Web Archive Toolset
Haravointi: Heritrix Indeksointi: FAST Datan tallennus Tällä hetkellä testikeräyksissä kerättyä dataa noin 1,5 TB Aineisto tallennettu ns. ARC-formaatissa (Heritrix), mukana metadataa Kokonaissuunnittelu käynnissä digiarkistojen teknisestä ”tuotantoympäristöstä”, joka rakennetaan siinä vaiheessa kun vapaakappalelain uudistus on hyväksytty

16 Doria - käyttöympäristö
Doria on luonteeltaan ns. Digital Object Management System (DOMS) Tuotenimi: ENCompass for Digital Collections Käytössä kansalliskirjastossa (ja tulossa käyttöön myös muissa yliopisto- ja AMK-kirjastoissa) Julkaisukokoelmat + metadatakuvailut julkaisuista Metadata muokattavissa vapaasti aineistojen ehdoilla Käyttöoikeudet määriteltävissä Hakukäyttöliittymä voidaan rakentaa jokaiseen kokoelmaan erikseen (jos niin halutaan)

17 Doria ja vapaakappalejulkaisut (“Luovutetun aineiston arkisto”)
Aineisto jota ei haravoida verkkoarkistoon, liitetään haettavaksi ja käytettäväksi Doriaan Ratkottava: Dorian vapaakappalekokoelman rakenne Metadataformaatti, joka tulee julkaisujen hallintaa ja pitkäaikaissäilytystä Olemassa olevan metadatan hyödyntäminen E.g. MARC-tietueet, metadataa verkkojulkaisijalta, OAI-PMH

18 Yliopistojen ja tutkimuslaitosten tms
Yliopistojen ja tutkimuslaitosten tms. verkkojulkaisut ja vapaakappaleet Web-sivut haravointi ”Oikeat” julkaisut Laadukkaita julkaisuja, joita kansalliskirjasto haluaisi tallentaa tulevien tutkijoiden käyttöön. Mikäli mahdollista -> kokoelmaksi Doriaan Päällekkäisyyksiä tässä tulee olemaan Haravoinnin mukana tulee/voi tulla myös “oikeat” julkaisut Ohjeet ja suositukset verkkojulkaisijoille Mahdollisimman vähän työtä verkkojulkaisijoille

19 Digiaineistojen pitkäaikaissäilytys
Digitaalisen aineiston säilyvyydessä on ongelmia tietotekninen kehitys tuottaa uusia tuotteita, formaatteja Säilyvyys epävarmaa ja kallis toteuttaa OAIS-malli (Open Archival Information System) Pitkäaikaissäilytyksen menetelmiä kehitetään Yksi ratkaisu on tukeutua metadataan kuvailemalla objekteja niiden säilyvyyttä voidaan parantaa

20 Digiaineistojen pitkäaikaissäilytys Suomessa
Kansalliskirjasto, Kansallisarkisto, Suomen elokuva- arkisto, Yhteiskuntatieteellinen tietoarkisto ja CSC ovat aloittamassa pitkäaikaissäilytyksen yhteistyötä Joitakin näkemyksiä Tarvitaan pitkäaikaissäilytystä kuvaavaa metadata Tallennetaan metadata myös itse objektin yhteyteen “Migration” lienee järkevintä kirjastoympäristössä Tiedostoformaattien elinkyvyn seuraaminen (ks. Digital format repositories) Prosessien luominen (automatisointi, autenttisuuden varmistaminen) Seurataan ja osallistutaan kv-kehitykseen Resurssointi?

21 Vapaakappalekuviosta
Lisätietoja Vapaakappalekuviosta Jos kiinnostaa julkaisujen vapaaehtoinen luovutus vapaakappalekokoelmaan Yhteydenotot mieluiten sähköpostilla:


Lataa ppt "Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys"

Samankaltaiset esitykset


Iklan oleh Google