Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

Pasi Tuominen MARC21 -tietuejoukkojen deduplikointi.

Samankaltaiset esitykset


Esitys aiheesta: "Pasi Tuominen MARC21 -tietuejoukkojen deduplikointi."— Esityksen transkriptio:

1 Pasi Tuominen MARC21 -tietuejoukkojen deduplikointi

2 Deduplikointi? Etsitään tietuejoukosta tietuepareja, jotka kuvaavat samaa asiaa ja yhdistetään ne. Aiheesta on tehty paljon tutkimusta kirjastoalan ulkopuolella Deduplikointiprosessin voi jakaa karkeasti kolmeen vaiheeseen.

3 Samankaltaisuuden tarkistus Ongelma: miten tietokoneella voidaan tarkistaa, kuvaavatko kaksi tietuetta samaa asiaa? Ratkaisu: koulutetaan tietokone jäljittelemään sitä, mitä asiantuntijat ovat tehneet. Koulutukseen soveltuvaa aineistoa on kerätty merge+:sta vuodesta 2011.

4 Neuroverkko Luokittelu on yksi koneoppimisen menetelmien perusjuttuja. Tietueparin luokittelu duplikaatiksi/ei- duplikaatiksi tehdään neuroverkolla. Käsiteltävästä tietueparista tehdään ominaisuusvektori. Neuroverkko on koulutettu tunnistamaan annetusta ominaisuusvektorista kuinka todennäköisesti kyseessä on duplikaatti.

5 Mergefunktio Millä tavalla kaksi marc21 -tietuetta yhdistetään? Paremman tietueen valinta pohjaksi (säilyväksi). Poistuvasta tietueesta siirretään erikseen määritelty joukko kenttiä säilyvään tietueeseen. Osalle kentistä tehdään hyvin monimutkaisia vertailuita paremman kentän määrittelyksi.

6 Paremman tietueen valinta Tietueparista toisen tietueen luokittelu paremmaksi valitseminen tehdään tiettyjen tietueissa esiintyvien piirteiden avulla. Kukin piirre on vielä painotettu erikseen painokertoimella. Painokertoimet on optimoitu geneettisen algoritmin avulla. Testiaineistona 12468 asiantuntijoiden paremmaksi valitsemaa tietuetta.

7 583 ja undo

8 Huomautus toimenpiteestä 583 aMERGED FROM (FI-MELINDA)005194321 + (FI- MELINDA)000383425 c2015-05-18T10:12:45+03:00 5MELINDA Mikäli tietueen yhdistäminen perutaan myöhemmin, niin siitä tulee myös vastaavanlainen merkintä, jossa toimenpide on mainittuna.

9 Kandidaattien valinta Miten suuresta tietuejoukosta löydetään duplikaattikandidaatteja? Ongelmana on, että naiivi tapa verrata tietuejoukon kaikkia tietueita keskenään ei ole mahdollinen. Vertailujen lukumäärä kasvaa neliöisesti vertailtavan aineiston koon kasvaessa lineaarisesti.

10 Nopeudella 1ms/vertailu

11 Pienet ryhmät (1ms/vertailu)

12 Käytetyt ryhmittelymenetelmät Ratkaisu on siis ryhmitellä tietuejoukko pieniksi ryhmiksi. Tutkimuksessani parhaan tuloksen antoi kahden eri algoritmin yhdistelmä. Ne ovat järjestetty naapurusto ja suffiksitauluun perustuva ryhmittely. Ryhmittelyt tehty teosten nimekkeiden perusteella. Toinen hyvä ryhmittelytapa on käyttää tekijää ja julkaisuvuotta.

13 Deduplikointiprosessi

14 Jatko Tutkimusprojekti, kehitys iteratiivista Ensimmäinen yhdistäminen tuotantoympäristössä tällä järjestelmällä tehdään kesäkuun alussa. Deduplikointijärjestelmää ylläpidettävä sen mukaan miten kuvailusäännöt ja -käytännöt elävät.

15 Kysymykset Pasi Tuominen pasi.e.tuominen@helsinki.fi


Lataa ppt "Pasi Tuominen MARC21 -tietuejoukkojen deduplikointi."

Samankaltaiset esitykset


Iklan oleh Google