Metatieto ja HTML-dokumentit Markus Virkkala Esa Kaihlanen TJTD63 - Semanttinen Web - 4/2002
Metatieto ja HTML-dokumentit Mitä on metatieto? Metatiedon tuottaminen Metatieto ja HTML Metatietostandardit ja formaatit Hyötyjä Ongelmia
Mitä on metatieto? Metatieto on tietoa tiedosta, sen avulla voidaan kertoa esimerkiksi: - Sisällön alkuperästä - Sisällön käyttötarkoituksesta - Sisällön muutoksista - Sisällön sijainnista
Metatiedon tuottaminen Metatieto voidaan tuottaa: - Automaattisesti - Dokumenttien ominaisuustiedoista - Dokumentin sisällöstä rakenteisuutta hyödyntäen - Sisällönhallintajärjestelmistä - Työkaluohjelmat (HTML-editorit) - Manuaalisesti - Kaikki itse kirjoitettu lisätieto, jota dokumenttiin halutaan liittää. - Tarpeen aina, kun automaattinen tuotto ei ole mahdollista, tai se on epätäydellistä.
Metatieto ja HTML-sivustot Metatietoa käytetään HTML-dokumenteissa: - Helpottamaan relevanttien hakutulosten saamista - avainsanat - kielikoodit - aikaleimat - Välittämään lisätietoa dokumentista (tekijä, aika, jne.), - Voi sisältää muutakin informaatiota: - ohjaa hakukoneita esim. kieltämällä dokumentin indeksoinnin
Metatieto ja HTML-sivustot Metatiedon liittämiseen on kaksi tapaa: - Upottaa metatieto itse dokumenttiin - Varastoida metatieto ulkoisesti, erilleen dokumentista Metatieto voi myös olla: - Hajautettuna yksittäisiin dokumenttiin - Keskitettynä “metatietopankkiin” erilleen dokumenteista
Metatieto ja HTML-sivustot Metatiedon upottaminen HTML dokumenttiin 1/3: - Sijoitetaan -elementin sisään, -tagin sisään: - Kaksi pää-attribuuttia: name, content - Vaihtoehtoinen ‘scheme’ -attribuutti määrittää esitysmuodon: scheme=”päivä-kuukausi-vuosi” - Meta-attribuutit ovat käyttäjän vapaasti määriteltävissä
Metatieto ja HTML-sivustot Metatiedon upottaminen dokumenttiin 2/3: - Content -attribuutti voi sisältää tekstiä, tai entiteettejä. - Entiteettejä voivat olla mm. ©, &alpha - HTML-tageja ei saa käyttää - Robotit hakukoneita varten: - - index, noindex, follow, all, none
Metatieto ja HTML-sivustot Metatiedon upottaminen HTML dokumenttiin 3/3: - Kansainvälisyysattribuutit - &Lang, &Dir - Name-attribuutti voidaan korvata HTTP-EQUIV -attribuutilla -
Metatieto ja HTML-sivustot Ulkoinen metatieto: - Metatieto sijaitsee erillisessä dokumentissa tai metatietokannassa - Erillinen dokumentti voi olla esimerkiksi XML-muotoinen - Ainoa keino lisätä metatietoa webin ulkopuolisista asioista - Voi koskea myös dokumenttijoukkoa - Viitataan resurssiin esim. URI:n avulla (RDF) Esimerkki
Metatieto multimediassa Multimedia-metatiedot jaetaan kolmeen luokkaan: - Mediakohtainen metatieto - Median käsittelyyn liittyvä metatieto - Sisältöön liittyvä metatieto
Metatietostandardit / formaatit Metatietostandardeja ja formaatteja: - MARC (USMARC, CANMARC, MARC21, FINMARC) - IEEE LOM - Dublin Core - PICS - RFD - XML - XTM (TopicMaps) - Ohjaavat kehitystä ja yhtenäistävät metadatan esitystapoja
Metatietostandardit / formaatit - MARC - Lyhenne sanoista “Machine Readable Cataloging” - Kehitetty alunperin 30v sitten Yhdysvaltain kongressin kirjaston käyttöön - Tavoitteena luoda mekanismi, jonka avulla tietokoneet pystyisivät vaihtamaan, käyttämään ja tulkitsemaan bibliografista informaatiota. - Suomalaistettu versio FINMARC MARC - esimerkki
Metatietostandardit / formaatit - IEEE LOM - IEEE:n määrittelemä standardi opetus- ja koulutus- materiaalien metadatan esittämiseen (Learning Objects Metadata) (ei vielä valmis) - Tavoitteena auttaa sekä opiskelijoita, että opettajia löytämään, arvioimaan, hankkimaan ja hyödyntäämän erilaisia opetuskäyttöön suunniteltuja resursseja. - Ei suunniteltu suoraan HTML- käyttöön, mutta mahdollisesti hyödynnettävissä verkkopohjaisissa opetusympäristöissä. Lisätietoja
Metatietostandardit / formaatit - Dublin Core 1/2 - DCMI eli Dublin Core Metadata Initiative - Suunniteltu kuvaamaan WWW-resursseja - Koostuu 15 elementistä - Perustuu pitkälti kirjastomaailmaan - Ei välttämättä sovellu kaikille WWW-dokumenteille - Ehkä tunnetuin metadataformaatti
Metatietostandardit / formaatit - Dublin Core 2/2 - Liitetään HTML dokumenttiin osioon, -tagien sisään Tie Unelmiin - Väinö Mattila <link rel = "schema.DC" href = " <meta name = "DC.Title" content = ”Tie Unelmiin"> <meta name = "DC.Creator" content = ”Mattila,, Väinö Juhani"> <meta name = "DC.Type" content = ”Kaunokirjallisuus"> <meta name = "DC.Date" content = "1951"> <meta name = "DC.Format" content = ”teksti/ASCII"> <meta name = "DC.Language" content = ”FI"> Dublin Core - elementit
Metatietostandardit / formaatit - PICS 1/2 - Platform for Internet Content Selection - Mahdollistaa WWW-sivujen sisällön soveliaisuuden kuvaamisen erilaisille käyttäjäryhmille. - PICS Label määrittelee minkälaisesta siällöstä on kyse - PICS Label voidaan asettaa HTML-dokumentin tagin sisään PICS Esimerkki
Metatietostandardit / formaatit - PICS 2/2 - PICSRules - formaatti suodatinmäärityksille Esimerkki pääsyn kontrolloinnista: (PicsRule-1.1 ( serviceinfo ( " shortname "Cool" bureauURL " UseEmbedded "N" ) Policy (RejectIf "((Cool.Coolness = 3))") Policy (AcceptIf "otherwise") ) Lähde:
Metatietostandardit / formaatit - RDF 1/2 - Resource Description Framework - W3C:n suositus standardiksi - Malli minkä tahansa resurssin kuvaamiseen Internetissä - Syntaksi pohjautuu XML:ään - Lisätään HTML-dokumenttiin -tagien väliin - Resurssiin viitataan URI:n avulla
Metatietostandardit / formaatit - RDF 2/2 RDF-metatiedon liittäminen HTML-dokumenttiin: <rdf:RDF xmlns:rdf=" xmlns:dc=" <rdf:Seq ID="CreatorsAlphabeticalBySurname" rdf:_1=”Matti Aavikko" rdf:_2=”Juhani Heino"/> Tämä on käypä HTML-dokumentti. Esimerkin lähde:
Metatietostandardit / formaatit - XML - eXtensible Markup Language - Oleellinen metatiedon kannalta rakenteelisuutensa vuoksi, esitetty metatiedon tallennusmuodoksi - Unicode-tuki mahdollistaa kaikkien maailman kielien käytön - Ulkoisen metatiedon luonti automaattisesti suhteellisen helppoa - Hyödynnetään mm. RDF:ssä
Metatietostandardit / formaatit - XTM - Toiselta nimeltään TopicMaps, eli aihekartta - XTM = XML Topic Map - Aihekartta on XML-dokumentti, jolla kuvataan jonkin olemassa olevan tiedon rakenne - TopicMaps pyrkii tuomaan paremman vaihtoehdon perinteisille hakemistoille TopicMaps
HTML -metatiedon hyödyt - Relevantin tiedon nopeampi löytyminen - Kuvien, videon, äänen ja muun multimedian kuvaaminen - WWW:n ulkopuolisten resurssien saaminen mukaan (taideteokset, muut ei sähköisesssä muodossa olevat resurssit) - Sähköinen kaupankäynti ja tekijänoikeudet
Ongelmia metatiedon hyödyntämisessä - WWW:n ulkopuolisten resurssien saaminen mukaan - Luonnollisten kielien runsaus - Koneellisen tulkinnan vaikeus - Erilaisia määrittelyjä on monia - WWW-dokumenttien sijainnin pysyvyys epävarmaa - Hakukoneiden indeksoinnin hitaus, ja indeksien ajan tasalla pitäminen
Mahdollisia ratkaisuja - Tarpeeksi monipuolisten standardien laaja käyttöönotto - WWW:n ulkopuolisten resurssien saaminen mukaan - Automaattinen metatiedon luonti ja tulkinta - Metatietostandardit tuntevat hakukoneet - Luonnollisista kielistä riippumaton “koodattu” metatieto
Hyödyllisiä linkkejä: World Wide Web Consortium: Dublin Core RDF IEEE Learning Technology Standards Committee HTML 4.0 Spesifikaatio