Pasi Tuominen MARC21 -tietuejoukkojen deduplikointi.

Slides:



Advertisements
Samankaltaiset esitykset
MB 3 Lineaarisia polynomifunktioita
Advertisements

Ohjelmiston tekninen suunnittelu
Käyttötavarat ja WS1 Sinfos
KTL:n nykytila ja tulevaisuus Ryhmätyöskentely Ryhmä 5 Koulutuksen tutkimuslaitos - Finnish Institute for Educational Research.
WLAN Tekijät: Petri Koskinen Miika Kulla Veli-Pekka Koskinen.
Osaamisen ja sivistyksen parhaaksi Oppijan verkkopalveluiden hyväksymistestauksen raportointiohje Testitapauksen raportointi Havainnon raportointi.
Aineistojen tuonti Finnaan
Tekninen suunnit-telu
Tuplatiimi -työmenetelmä
Constructing scalable services Ville Kyrki 1757 Rinnakkaislaskennan jk Kevät 2000.
Liisa Laakso, Projektihakemusten arviointi Euroopan komissiossa tutkimuksen puiteohjelma.
CEFLING Yleiseurooppalaisen viitekehyksen taitotasojen lingvistinen perusta: toisen kielen oppimisen ja kielitaidon arvioinnin yhdistäminen Suomen Akatemia.
T Personal SE assignment Project progress tracking and control.
TIETO JA TIETOKONEOHJELMA TIETOKONEOHJELMA KÄSITTELEE TIETOJA TIETOJA VOIDAAN KÄSITELLÄ OHJELMASSA VAIN SALLITUILLA MENETELMILLÄ.
 Tutkimuksemme kantavana ajatuksena on uskomus siitä, että yhdistämällä matematiikan opetus johonkin konkreettiseen asiaan saavutetaan syvällisempää.
6. Relaatioalgebra ja relaatiokalkyyli
SPORTS TRACKER Tekijä: Nybäck Teemu TU09s Tiedonhaku internetistä.
Etappi Lauri Jokipii Opiskelijarekisteri. Etappi Tutkintojen valmistumisen seuranta- ja tukijärjestelmä Suunniteltu uutta voimaantullutta kaksiportaista.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 5 - Henri Tokola Optimointiopin seminaari - Syksy 2009 Työpajan skedulointi rajoiteohjelmoinnilla.
Asteri -demo Minttu Hurme, Kansalliskirjasto/Kirjastoverkkopalvelut Asiantuntijaseminaari
Mistä saa hyvää aineistoa? Gradunteon eväät -infotilaisuus
VERRANNOLLISUUS Ratk..
Kesätyöntekijöiden kommentteja Opasnetistä ja ydinvoimatyöstä: ”Kun tulin kesätöihin minulla oli vain jokin suuntaa antava aavistus siitä mitä meinattiin.
KANSALLISKIRJASTO - Kirjastoverkkopalvelut Kun kohtaat tuplatietueen: Merge+ -ohjelman käyttö tietueiden yhdistelyssä Talonmiehen tuokio 1, Minttu.
Tiedonhaku Kirjastot ja kirjat 4. (toiminta) 4 ● Valitun kirjaston verkkopalvelusta tulostetaan eri teosten viitetietoja ● Opiskelijoille jaetaan ryhmittäin.
KANSALLISKIRJASTO RDA-ohjeet Nimet ja nimien muutokset RDA-verkkokoulutus Maarit Huttunen, Kari Ahola Kansalliskirjasto.
KANSALLISKIRJASTO - Kirjastoverkkopalvelut Melinda-Piki – musiikkiluetteloinnista Ulla Ikäheimo Tampere
PYRAMIDIT. HAUTAMONUMENTTI PYRAMIDEJA RAKENNETTIIN HAUDOIKSI FAARAOILLE. FAARAOT MUUMIOITIIN ENSIKSI JA SITTEN NE LAITETTIIN HAUTAAN. FAARAOIDEN USKOTTIIN.
KANSALLISKIRJASTO - Kirjastoverkkopalvelut Melinda-Anders – musiikkiluetteloinnista Ulla Ikäheimo Kokkola
KANSALLISKIRJASTO - Kirjastoverkkopalvelut Melinda ja laatu Ulla Ikäheimo Melinda-työpajat, Helsinki 5.2. ja
Foreign Function Interface Antti Marttila Funktio-ohjelmointi 2.
Vaski-kirjastot esittäytyvät
Avoimen datan jakaminen ja uudelleenkäyttö
HT Eero Laesterä – KTM Tuomas Hanhela – KTM Katja Pesonen
Yhtenäisen metatiedon tärkeys loppukäyttäjän kannalta
Teema 3: Haasteet Uudet kuvailukäytännöt ja tarpeet: RDA, e-aineistot, avoin tieto Nina Hyvönen
CHILD-SLEEP -TUTKIMUSPROJEKTI
Monadeja siellä, monadeja täällä... monadeja kaikkialla?
kansanedustajasi oikein ydinvoimasta?
Tutkielman teko-ohjeet
Lasten kivunarviointi kirjaamisen näkökulmasta
Mukaan Finnaan - liittymisprosessin vaiheet
Talonmiehen tuokio klo 14-15
Otsikon asettelu Alaotsikko.
Lingsoft Language Management
21. Tasainen etenemisliike on liikettä, jossa kappaleen nopeus ei muutu  
Kuvailusäännöt, formaatti ja kirjastojärjestelmä
Melinda-päivän musiikkitunti
Talonmiehen tuokio klo 14-15
Tiedeprojektin otsikko
OHJELMOINTITAITO ICT02D 12 Leena Lahtinen Helia
Melindan laatuohjelma ”Yhteistyöllä laatua”
Melindan riittävä laatu
Osakohteiden yhdistäminen merge+-ohjelmalla
Melinda-kuvailutyöpaja - monografiat, tapauksia – työpajan purku
Kuvailun keventäminen
Melindan palveluposti Yleisiä ja ajankohtaisia asioita
Melindan laatuohjelma Käytännön toimenpiteitä
Talonmiehen tuokio klo 14-15
Otsikon asettelu Alaotsikko.
Linkit Melinda-tietueen ja paikalliskannan tietueen välillä
OHJELMOINTITAITO ICT02D 12 Leena Lahtinen Helia
Melindan laatuohjelma Lähtotietokyselyn tulokset ja toimenpiteet
Minttu Hurme Talonmiehen tuokio
Otsikon asettelu Alaotsikko.
ERÄTAUKO-KOULUTUKSEN SUUNNITTELUPOHJA
Otsikon asettelu Alaotsikko.
OHJELMOINTITAITO ICT02D 12 ECTS.
Miten omat aineistot saadaan Finnaan?
Kuva: Samuli Paulaharju, 1907, Museovirasto, CC BY 4.0
Esityksen transkriptio:

Pasi Tuominen MARC21 -tietuejoukkojen deduplikointi

Deduplikointi? Etsitään tietuejoukosta tietuepareja, jotka kuvaavat samaa asiaa ja yhdistetään ne. Aiheesta on tehty paljon tutkimusta kirjastoalan ulkopuolella Deduplikointiprosessin voi jakaa karkeasti kolmeen vaiheeseen.

Samankaltaisuuden tarkistus Ongelma: miten tietokoneella voidaan tarkistaa, kuvaavatko kaksi tietuetta samaa asiaa? Ratkaisu: koulutetaan tietokone jäljittelemään sitä, mitä asiantuntijat ovat tehneet. Koulutukseen soveltuvaa aineistoa on kerätty merge+:sta vuodesta 2011.

Neuroverkko Luokittelu on yksi koneoppimisen menetelmien perusjuttuja. Tietueparin luokittelu duplikaatiksi/ei- duplikaatiksi tehdään neuroverkolla. Käsiteltävästä tietueparista tehdään ominaisuusvektori. Neuroverkko on koulutettu tunnistamaan annetusta ominaisuusvektorista kuinka todennäköisesti kyseessä on duplikaatti.

Mergefunktio Millä tavalla kaksi marc21 -tietuetta yhdistetään? Paremman tietueen valinta pohjaksi (säilyväksi). Poistuvasta tietueesta siirretään erikseen määritelty joukko kenttiä säilyvään tietueeseen. Osalle kentistä tehdään hyvin monimutkaisia vertailuita paremman kentän määrittelyksi.

Paremman tietueen valinta Tietueparista toisen tietueen luokittelu paremmaksi valitseminen tehdään tiettyjen tietueissa esiintyvien piirteiden avulla. Kukin piirre on vielä painotettu erikseen painokertoimella. Painokertoimet on optimoitu geneettisen algoritmin avulla. Testiaineistona asiantuntijoiden paremmaksi valitsemaa tietuetta.

583 ja undo

Huomautus toimenpiteestä 583 aMERGED FROM (FI-MELINDA) (FI- MELINDA) c T10:12:45+03:00 5MELINDA Mikäli tietueen yhdistäminen perutaan myöhemmin, niin siitä tulee myös vastaavanlainen merkintä, jossa toimenpide on mainittuna.

Kandidaattien valinta Miten suuresta tietuejoukosta löydetään duplikaattikandidaatteja? Ongelmana on, että naiivi tapa verrata tietuejoukon kaikkia tietueita keskenään ei ole mahdollinen. Vertailujen lukumäärä kasvaa neliöisesti vertailtavan aineiston koon kasvaessa lineaarisesti.

Nopeudella 1ms/vertailu

Pienet ryhmät (1ms/vertailu)

Käytetyt ryhmittelymenetelmät Ratkaisu on siis ryhmitellä tietuejoukko pieniksi ryhmiksi. Tutkimuksessani parhaan tuloksen antoi kahden eri algoritmin yhdistelmä. Ne ovat järjestetty naapurusto ja suffiksitauluun perustuva ryhmittely. Ryhmittelyt tehty teosten nimekkeiden perusteella. Toinen hyvä ryhmittelytapa on käyttää tekijää ja julkaisuvuotta.

Deduplikointiprosessi

Jatko Tutkimusprojekti, kehitys iteratiivista Ensimmäinen yhdistäminen tuotantoympäristössä tällä järjestelmällä tehdään kesäkuun alussa. Deduplikointijärjestelmää ylläpidettävä sen mukaan miten kuvailusäännöt ja -käytännöt elävät.

Kysymykset Pasi Tuominen