Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

A! Aalto University 1 Case SÄHKE-asiakirjojen automaattinen luokittaminen asiakirjojen tekstin pohjalta Katariina Nyberg Semantic Computing Research Group.

Samankaltaiset esitykset


Esitys aiheesta: "A! Aalto University 1 Case SÄHKE-asiakirjojen automaattinen luokittaminen asiakirjojen tekstin pohjalta Katariina Nyberg Semantic Computing Research Group."— Esityksen transkriptio:

1 A! Aalto University 1 Case SÄHKE-asiakirjojen automaattinen luokittaminen asiakirjojen tekstin pohjalta Katariina Nyberg Semantic Computing Research Group (SeCo) Aalto University School of Science and Technology, Department of Media Technology and University of Helsinki, Department of Computer Science http://www.seco.tkk.fi

2 A! Aalto University SÄHKE Kansallisarkisto: digitaalisesti säilytettävät asiankirjat noudattavat SAHKE-mallia Arkiston muodostaja Arkisto Ryhmä Asia Toimedpide Asiakirja

3 A! Aalto University SÄHKE Kansallisarkisto: digitaalisesti säilytettävät asiankirjat noudattavat SAHKE-mallia. Kansallisarkistolta vastaanotettu aineisto. Arkiston muodostaja Arkisto Ryhmä Asia Toimedpide 7252 32325 3469 67 Asiakirja

4 A! Aalto University Asiakirjojen teksti 7252 asiakirjaa –4748 teksti digitaalisessa muodossa Connexorin Machinese Syntax -analyysi: –Sanan perusmuoto –Sanan sijainti lauseessa ja lausenumerot –Sanojen väliset syntaktiset suhteet Analyysin parsinta – RDF – CSV-taulukko, jossa jokainen sana yhdellä rivillä

5 A! Aalto University Ohjattu koneoppiminen englanniksi Supervised Machine Learning Tietokoneohjelma optimoi toimepiteen esimerkkiaineistolla. (Alapydin 2004)‏ –Toimenpide: asiakirjojen luokittelu –Esimerkkiaineisto: 4748 jo luokiteltua asiakirjaa Tietokoneohjelman optimointi tehty yhteistyössä TKK:n Tietojenkäsittelytieteen laitoksen Tilastollinen koneoppiminen ja bioinformatiikka -tutkimusryhmän kanssa

6 A! Aalto University Ensimmäiset tulokset Tietokoneohjelma oppii tilastollisesti sanojen vaikutuksen asiakirjan luokkaan. YSO Ontologia lisää tietoa sanojen suhteista toisiinsa 74.18% 5.94% 3.82%


Lataa ppt "A! Aalto University 1 Case SÄHKE-asiakirjojen automaattinen luokittaminen asiakirjojen tekstin pohjalta Katariina Nyberg Semantic Computing Research Group."

Samankaltaiset esitykset


Iklan oleh Google