Etsintä verkosta (Searching from the Web) T-61.2010 Datasta tietoon Heikki Mannila, Jouni Seppänen 12.12.2007.

Slides:



Advertisements
Samankaltaiset esitykset
makramee-tekniikalla
Advertisements

15. Loogiset operaatiot.
SkyDrive ja Office Web Apps –sovellusten käyttäminen
Hakukoneet Kotimaiset hakukoneetPortaalit Ulkomaisia hakukoneitaMetahakukoneet.
Vaihtuvia e-kirjoja it-alalta
Tiedonhaku Internetistä PODCASTING Katarina Andersson TU08se
Toimintaohjeet opelle
Yritysjohdon koulutuskeskus
Robust LQR Control for PWM Converters: An LMI Approach
Lineaarisia malleja.
JavaScript (c) Irja & Reino Aarinen, 2007
Suunnitelma ohjelmiston testaukseen
Web-kyselyistä Kyselyt internetissä RM 2011.
Luku 5 – Tietojen hakeminen sovelluksiin
Jouni Juntunen Oulun seudun ammattikorkeakoulu Liiketalouden yksikkö Netbeans ja XAMPP Projektin luominen.
2.8.3 Abstraktit tietotyypit
TÖIDEN PRIORISOINTI JA AJAN HALLINTA
Ohjelmistokehittäminen. Luku 1 – Mitä on ohjelmistokehittäminen?
Aggregaattifunktiot (1)
Yhteystila-algoritmi
Konvergenssin haasteita Internetin Quality of Service (QoS) –QoS hallinta, tarvitaanko montaa palveluluokkaa? –QoS monitorointi (mittaukset) Kapasiteetin.
DIIGO TIEDONHALLINNASSA Kiravo – kirjasto avoimena oppimisympäristönä Biblär – biblioteket som ett öppet lärcentra Krista Auvinen, Marjut Lahtela ja Katariina.
Auli Jaakkola 1 Palkkatiedustelun tietomallin mukaisen tilastovastauksen luonti Tässä esimerkissä tiedosto tuotetaan excelistä csv-muotoon. 1.Oletetaan,
Duaali Teemu Myllynen.
AS Automaation signaalinkäsittelymenetelmät
Poikkeuskäsittely- lohkot tMyn1 Poikkeuskäsittelylohkot try-catch Poikkeustilanteiden käsittelymekanismi toteutetaan varatuilla sanoilla try, throw ja.
Taylor polynomi usean muuttujan funktiolle
Prosessin analysointi ja töiden viimeistely
T Personal SE assignment Project progress tracking and control.
Tiedonhakumenetelmät Helena Ahonen-Myka Kevät 2004, osa 9 Merkkijonohahmon etsintä selaamalla.
ict1td002 - Copyright Raine Kauppinen 1 Alkuarvot ja tyyppimuunnokset (1/5)  Aiemmin olemme jo antaneet muuttujille alkuarvoja, esimerkiksi: int.
Tiedonhakumenetelmät
Murtoyhtälöt - Yhtälö, jossa nimittäjässä tuntematon
Hyrrä-verkkopalvelu Hanketukien infotilaisuus
Miksi tämä on vaikeaa? Ilman minkäänlaisia rajoitteita ongelmat ei ole vaikeita ratkaista. Siihen löytyy jopa valmis ”kaava”. Valitettavasti jokaisessa.
Heuristinen arviointi Antti Nummiaho Johdanto (1/3) Heuristinen arviointi on käytettävyyden arviointia ilman käyttäjää. Se on yksinkertainen,
Metropolian kirjasto oppimisen tukena. Häkkinen / Ylitalo-Kallio Mistä tietoa? Metropolian kirjaston kokoelmat ja www-sivut
Elliptiset jakaumat Esitys 6 kpl Tuomas Nikoskinen Työn saa tallentaa ja julkistaa Aalto-yliopiston avoimilla verkkosivuilla. Muilta.
Muuttujat ja vakiottMyn1 Muuttujat ja vakiot PHP-kielen syntaksi on lainattu suurimmaksi osaksi C- kielestä. PHP on erityisesti HTML-dokumenttien sisään.
© 2010 IBM Corporation1 Sivustoalue  Internet sivu rakentuu sivustoalueista, jotka yleensä on jaoteltuna toiminnoittain osa-alueisiin.  Sivustoalueella.
4. Attribuutit 4.1. Sisällys Yleistä attribuuteista. Näkyvyys luokan sisällä ja ulkopuolelta. Attribuuttien arvojen käsittely aksessoreilla. 4.2.
Tässä on kokoelma kaikista 8lk:lla tekemistäni töistä.
Heuristinen arviointi Käyttöliittymäseminaari Jere Salonen.
6. Relaatioalgebra ja relaatiokalkyyli
PARAABELI (2. ASTEEN FUNKTION KUVAAJIA)
1.4. Integroimismenetelmiä
5. Lineaarinen optimointi
© 2010 IBM Corporation1 Palautesivun esittely  Palautesivua käytetään pääasiassa palautteen lähettämiseen virastoihin. Palautesivun pitäisi löytyä jokaisesta.
© Jukka Juslin1 Osio2 Olio-ohjelmointi: Merkkijonot eli Stringit Jukka Juslin.
4. Optimointia T
ITKY104 IT kaikkialla, 2 op Alku- ja perusinfo
Heikki Hyötyniemi Teknillinen korkeakoulu, Systeemitekniikan laboratorio 1. Älykäs WWW Totuus vai Todellisuus - tutkimuksen haasteet Heikki.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 4 – Jussi Kangaspunta Optimointiopin seminaari - Kevät 2007 Kaksiulotteiset kuvaukset 2/2.
FunktiottMyn1 Funktiot Funktiot voidaan jakaa –Kirjastofunktioihin, jotka ovat valmiina kaikkien käytössä. Erikoisempien kirjastofunktioiden käyttöönotto.
Poikkeustenkäsittely- lohkot tMyn1 Poikkeustenkäsittelylohkot try-catch Poikkeustilanteiden käsittelymekanismi toteutetaan varatuilla sanoilla try, throw.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä 2 - Jirka Poropudas Optimointiopin seminaari - Kevät 2005 / 1 Bayes-verkoista s
Johdetun luokan olion alustus tMyn1 Johdetun luokan olion alustus määrätyillä arvoilla Kun ohjelmassa esiintyy johdetun luokan olion määrittely, järjestelmä.
YE12.1 Dynaamiset mallit. Tänään Luonnonvarataloustieteen esimerkkejä (YE4 & YE10) Schäfer-Gordon –malli (kun r=0) (bioekonomiaopt.m) Clark-Munro –malli.
Javascript 2: Ohjelmointikielen ominaisuudet Jaana Holvikivi Metropolia.
Funktio.
Toimintaohjeet opelle
Funktion jatkuva kohdassa x = x0 joss
S ysteemianalyysin Laboratorio Aalto-yliopiston teknillinen korkeakoulu Esitelmä 22 – Jussi Kangaspunta Optimointiopin seminaari - Syksy 2010 Ohjaamaton.
S ysteemianalyysin Laboratorio Teknillinen korkeakoulu Esitelmä # - Esitelmöijän nimi Optimointiopin seminaari - Syksy 2000 / 1 Potentiaalien kertaus ja.
MAB3 prosenttilasku.
TIEP114 Tietokoneen rakenne ja arkkitehtuuri, 3 op Assembler.
Poikkeustenkäsittelylohkot try-catch
13. Loogiset operaatiot.
Stabiilit monistot ja kriisit
3 Tiedonhaku Sanahakupalvelut.
Esityksen transkriptio:

Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen

Webin lyhyt historia

Etsintä verkosta

Miten löydetään verkosta hyviä sivuja, jotka kertovat tiedon louhinnasta? info.cern.ch: ilmoitustaulu uusista sivuista Yahoo: käsin toimitettu hakemisto Skaalautuvat huonosti...

Etsintä verkosta Annettuna kysely ”data mining” Miten löydetään automaattisesti sivut, joilla nuo sanat esiintyvät (tai esiintyvät peräkkäin)? Miten löydetään näistä sivuista hyödyllisimmät?

Sanahaku Merkkijonomenetelmät (string algorithms): paljon hauskoja algoritmeja Esivalmisteluna käydään koko verkko läpi seuraamalla linkkejä. Kullakin sanalla X tallennetaan lista sivuista, joilla X esiintyy.

Sanahaku Kyselyyn ”X ja Y” vastattessa käydään kummankin sanan osoitelistat läpi ja palautetaan ne osoitteet, jotka esiintyvät molemmissa. Käytännössä hankalampaa kuin näyttää paperilla: dataa on paljon, vastaus pitäisi saada alle sekunnissa. Paljon mielenkiintoista tekniikkaa (ks. esim. )

Relevanssi ”Results 1 – 10 of about 50,300,000” Vanha tapa ratkaista ongelma: käyttäjä tarkentaa kyselyä lisäämällä ovelasti valittuja sanoja ja operaattoreilla AND, OR, NOT, NEAR.

Relevanssi ”Results 1 – 10 of about 50,300,000” Miten valitaan ne sivut, jotka näytetään ensimmäiseksi? Heuristiikkoja: –Sanojen esiintymisfrekvenssi (huono idea) –Sivu on hyvä, jos siihen viitataan paljon –Sivu on hyvä lähde asiasta X, jos X mainitaan sivuun viittaavissa linkeissä.

Keskukset ja auktoriteetit

”Hubs and authorities”: Jon M. Kleinberg, Authoritative Sources in a Hyperlinked Environment, IBM Research Report 1997; SODA 1998 Hyvillä auktoriteetti- sivuilla on paljon yhteisiä linkittäjiä, keskuksia.

Keskukset ja auktoriteetit Etsitään ensin sivut, joilla ”X ja Y” esiintyy Otetaan näistä heuristiikkojen perusteella esim. 200 parasta; olkoon tämä sivujen ”ydinjoukko” S. Muodostetaan joukko T: S ja sivut jotka viittaavat johonkin joukon S sivuun ja sivut joihin jokin S:n sivu viittaa.

Keskukset ja auktoriteetit Tarkastellaan joukkoa T verkkona: solmuina sivut, kaarina linkit (suunnattuja kaaria) Olkoon E verkon T kaarien joukko: (u,v) ∈ E kun sivulta u on linkki sivulle v Pelkkä sivuun osoittavien linkkien määrä ei ole kovin hyvä relevanssin mittari.

Keskukset ja auktoriteetit Hyvä keskus osoittaa hyviin auktoriteetteihin. Hyviin auktoriteetteihin tulee linkkejä hyvistä keskuksista. Kehämääritelmä?

Keskukset ja auktoriteetit Kehämääritelmästä selvitään iteratiivisella menetelmällä (vrt. c–means). Kullekin joukon T sivulle s määritellään keskuspaino k s ja auktoriteettipaino a s. Skaalataan painojen neliöiden summat 1:ksi:

Keskukset ja auktoriteetit Tarvitaan jotkin alkuarvot: Iteratiiviset päivityssäännöt:

Keskukset ja auktoriteetit Ajatellaan painoja vektoreina ja verkkoa matriisina Nyt iteraatio voidaan kirjoittaa helposti:

Keskukset ja auktoriteetit Oikeastaan

Keskukset ja auktoriteetit Siis i:n iteraation jälkeen Matriisi M T M on symmetrinen, joten sillä on reaaliset ominaisarvot ja -vektorit ja se voidaan diagonalisoida:, missä. Teknisellä oletuksella saadaan

Keskukset ja auktoriteetit Siis a on matriisin M T M suurinta ominaisarvoa vastaava ominaisvektori. Vastaavasti k on matriisin MM T ominaisvektori. Ominaisvektorit voitaisiin laskea millä tahansa menetelmällä, esim. Matlabissa funktiolla eig.

Tuloksia Jon M. Kleinberg, Authoritative Sources in a Hyperlinked Environment

Toinen sovellus Samankaltaisten sivujen löytäminen: sen sijasta, että aloitettaisiin sanahaun löytämistä sivuista, aloitetaan johonkin sivuun linkittävistä sivuista.

PageRank

Sergey Brin and Larry Page, 1998 (Google) Sivu on relevantti, jos relevantit sivut viittaavat siihen. Kehämääritelmä? →iteratiivinen menetelmä

PageRank Jos sivulta t on linkit sivuille s 1, s 2,..., s k, sivun t relevanssista välittyy 1/k jokaiselle näistä sivuista. Siis, missä matriisin F määrittelee (deg(t) on linkkien määrä eli k yllä).

PageRank Sopivilla oletuksilla r on F:n suurinta ominaisarvoa 1 vastaava ominaisvektori, joten iteraatio konvergoi. Toinen tulkinta: Satunnainen surffailija aloittaa joltain sivulta ja seuraa linkkejä satunnaisesti. Sivun relevanssi on todennäköisyys, jolla surffailija päätyy sivulle (pitkän ajan kuluessa).

Entä jos...

PageRank Jos sivusta ei ole linkkejä minnekään, lisätään linkit kaikkialle. (Tässä n on sivujen määrä.)

PageRank Lisätään linkkejä saman tien kaikkialle: sallitaan surffaajan joskus kyllästyä (lisäksi vältytään teknisiltä hankaluuksilta konvergenssitodistuksessa)