Esittely latautuu. Ole hyvä ja odota

Esittely latautuu. Ole hyvä ja odota

Hakukyselyn laajentaminen Query Expansion. Query: papal travels 259 total matching documents, 4.0 out of 16 relevant rankings: [4][25][126][170] Query:

Samankaltaiset esitykset


Esitys aiheesta: "Hakukyselyn laajentaminen Query Expansion. Query: papal travels 259 total matching documents, 4.0 out of 16 relevant rankings: [4][25][126][170] Query:"— Esityksen transkriptio:

1 Hakukyselyn laajentaminen Query Expansion

2 Query: papal travels 259 total matching documents, 4.0 out of 16 relevant rankings: [4][25][126][170] Query: (papal pontifical apostolical apostolic pope) (travels travelling traveling travel) 3016 total matching documents, 16.0 out of 16 relevant rankings: [2][3][14][44][290][291][292][293][294][304][317][318][320][32 1][329][388]

3 Tutkimuksia lähivuosilta Massachusetts: James P. Callan, W. Bruce Croft, John Broglio Recent Experiments with InQuery Tampere: Järvelin, K. & Kristensen, I. & Niemi, T. & Sormunen, E. & Keskustalo, H. (1996) A deductive data model for thesaurus navigation and query expansion

4 Lähestymistapoja: relevanssipalautteen perusteella voidaan valita hakuavainten ympäristöstä usein löytyviä hahmoja, joita sovittamalla muihin dokumentteihin voidaan löytää hakuavainten synonyymejä yleisempää kuin tekstikokoelmasta riippumattomat menetelmät, jotka käyttävät jotain sanastoa tai tesaurusta esim. WordNet, ROGET's

5 Tilastollisia menetelmiä SMART Harvardin yliopisto 1961 relevanssipalautteen perusteella muokkaa kyselyä tarvittaessa useita kertoja OKAPI Lontoo (City University) Käyttää jonkin verran sanastoa apuna laajennuksessa lisää kyselyyn varmasti sopivina pitämiään hakuavaimia esim: Britain -> GB, UK Great Britain jne. muokkaa kyselyä lisää relevanssipalautteen perusteella

6 Sanastopohjaisia kokeiluja: Boyd, Driscoll & Syu (1994) ROGET's thesaurus (vuoden 1911 versio) ei kovin rohkaisevia tuloksia Voorhees (1994) WordNet automaattista & manuaalista kokeilua, tulokset eivät kovin kiinnostavia automaattisissa kokeissa synsetin tuli olla yhdistettävissä osaan muista hakuavaimista

7 Gonzalo & al. tutkivat kyselyn laajennusta lisäämällä kyselyihin kontrolloidusti huonoja hakuavaimia kyselyt sietävät keskimäärin 10% vääriä termejä Disambiguointi fdg jäsennys Lesk-algoritmi

8 luonnolliskielisen kyselyn jäsennys - poistaa yleensä vääriä tulkintoja parien muodostaminen hakuavaimista disambiguoitavan hakuavaimen merkitysten määritelmiä verrataan parin määritelmiin, valitaan sopivin määritelmä Laajennus lisätään valittuun merkitykseen sopivat synonyymit kyselyyn rakenteistetaan kysely Disambiguointi

9 score(q,d) = Σ tf (t in d) * idf (t) * getBoost (t.field in d) * lengthNorm (t.field in d) * coord (q,d) * queryNorm (q) t in q Lucene: InQuery:

10 Cross Language Evaluation Forum CLEF 55 000 Englanninkielistä dokumenttia 50 kyselyä relevanssitietoineen 2004 Testidata

11 Precision P P = relevantit tulosjoukossa / koko tulosjoukko Recall R R = relevantit tulosjoukossa / kaikki relevantit Kyselyiden tarkkuuden keskiarvo, kun R = 100% Mittareita

12 Toistaiseksi testattu lähinnä WordNet:n synsetistä saatavien synonyymien lisäämistä kyselyihin alkuperäisten avainten painottamista

13

14

15

16

17 Tuloksista erot menetelmien välillä eivät kovin merkittäviä tulokset todennäköisesti vaihtelevat eri kokoelmilla kuitenkin pääosin positiivisia

18 Loppu


Lataa ppt "Hakukyselyn laajentaminen Query Expansion. Query: papal travels 259 total matching documents, 4.0 out of 16 relevant rankings: [4][25][126][170] Query:"

Samankaltaiset esitykset


Iklan oleh Google