Lataa esitys
Esittely latautuu. Ole hyvä ja odota
JulkaistuJyrki Oksanen Muutettu yli 9 vuotta sitten
1
Hakukyselyn laajentaminen Query Expansion
2
Query: papal travels 259 total matching documents, 4.0 out of 16 relevant rankings: [4][25][126][170] Query: (papal pontifical apostolical apostolic pope) (travels travelling traveling travel) 3016 total matching documents, 16.0 out of 16 relevant rankings: [2][3][14][44][290][291][292][293][294][304][317][318][320][32 1][329][388]
3
Tutkimuksia lähivuosilta Massachusetts: James P. Callan, W. Bruce Croft, John Broglio Recent Experiments with InQuery Tampere: Järvelin, K. & Kristensen, I. & Niemi, T. & Sormunen, E. & Keskustalo, H. (1996) A deductive data model for thesaurus navigation and query expansion
4
Lähestymistapoja: relevanssipalautteen perusteella voidaan valita hakuavainten ympäristöstä usein löytyviä hahmoja, joita sovittamalla muihin dokumentteihin voidaan löytää hakuavainten synonyymejä yleisempää kuin tekstikokoelmasta riippumattomat menetelmät, jotka käyttävät jotain sanastoa tai tesaurusta esim. WordNet, ROGET's
5
Tilastollisia menetelmiä SMART Harvardin yliopisto 1961 relevanssipalautteen perusteella muokkaa kyselyä tarvittaessa useita kertoja OKAPI Lontoo (City University) Käyttää jonkin verran sanastoa apuna laajennuksessa lisää kyselyyn varmasti sopivina pitämiään hakuavaimia esim: Britain -> GB, UK Great Britain jne. muokkaa kyselyä lisää relevanssipalautteen perusteella
6
Sanastopohjaisia kokeiluja: Boyd, Driscoll & Syu (1994) ROGET's thesaurus (vuoden 1911 versio) ei kovin rohkaisevia tuloksia Voorhees (1994) WordNet automaattista & manuaalista kokeilua, tulokset eivät kovin kiinnostavia automaattisissa kokeissa synsetin tuli olla yhdistettävissä osaan muista hakuavaimista
7
Gonzalo & al. tutkivat kyselyn laajennusta lisäämällä kyselyihin kontrolloidusti huonoja hakuavaimia kyselyt sietävät keskimäärin 10% vääriä termejä Disambiguointi fdg jäsennys Lesk-algoritmi
8
luonnolliskielisen kyselyn jäsennys - poistaa yleensä vääriä tulkintoja parien muodostaminen hakuavaimista disambiguoitavan hakuavaimen merkitysten määritelmiä verrataan parin määritelmiin, valitaan sopivin määritelmä Laajennus lisätään valittuun merkitykseen sopivat synonyymit kyselyyn rakenteistetaan kysely Disambiguointi
9
score(q,d) = Σ tf (t in d) * idf (t) * getBoost (t.field in d) * lengthNorm (t.field in d) * coord (q,d) * queryNorm (q) t in q Lucene: InQuery:
10
Cross Language Evaluation Forum CLEF 55 000 Englanninkielistä dokumenttia 50 kyselyä relevanssitietoineen 2004 Testidata
11
Precision P P = relevantit tulosjoukossa / koko tulosjoukko Recall R R = relevantit tulosjoukossa / kaikki relevantit Kyselyiden tarkkuuden keskiarvo, kun R = 100% Mittareita
12
Toistaiseksi testattu lähinnä WordNet:n synsetistä saatavien synonyymien lisäämistä kyselyihin alkuperäisten avainten painottamista
17
Tuloksista erot menetelmien välillä eivät kovin merkittäviä tulokset todennäköisesti vaihtelevat eri kokoelmilla kuitenkin pääosin positiivisia
18
Loppu
Samankaltaiset esitykset
© 2024 SlidePlayer.fi Inc.
All rights reserved.