Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

INF 295 Algoritmer og datastrukturer Web-spider Oblig 3 Hans Fr. Nordhaug (Ola Bø)

Liknende presentasjoner


Presentasjon om: "INF 295 Algoritmer og datastrukturer Web-spider Oblig 3 Hans Fr. Nordhaug (Ola Bø)"— Utskrift av presentasjonen:

1 INF 295 Algoritmer og datastrukturer Web-spider Oblig 3 Hans Fr. Nordhaug (Ola Bø)

2 Presentasjon av Oblig 2 Web-spider Indeksering Hente nettsideadresse fra kø Lese inn og analysere nettsiden Legge de av sidens utlenker som ikke er behandlet før i køen Hente ord fra siden, plassere dem i et ord-søketre For hvert ord registrere siden der ordet forekommer Søking Bruker skriver inn ord Ordet søkes opp i ord-søketreet og sidetittel og lenke til nettsider der ordet finnes vises sortert etter hvor "god" siden er

3 Oblig 3 Løsningsstruktur Side-tre Sidekø Ord-hash ForekomstlisteOrdForek omst Side Side- Info Lenker Ord

4 Oblig 3 Begrensninger Lagring i indre lager begrenser antall sider og ord Parseren håndterer bare sider av typen tekst Respekterer ikke robotbegrensninger - Kan være belastning for nettstedet som indekseres Bare ord fra siden blir brukt som søkeord - teksten i lenken burde også vært brukt. Ord som det ikke er aktuelt å søke på blir også behandlet: er, det, men, og osv. osv.

5 Oblig 3 Mulige utvidelser Web-grensesnitt (Søk via servlet, resultatene presentert med hyperlinker) Nettstedinternt søkesystem som produkt. Fjerning av ikke informative ord - Ord som forekommer på mer enn xx % av sidene Bør ikke gjøres helt fra starten Lenketekster på innlenker med som søkeord. Tittel, Keywords og Description som søkeord av høy kvalitet. Adlyde robot-regler Registrere hvilke lenker som følges etter søk Vise første 50 ord sammen med tittelen Søk på flere ord med obligatorisk, logiske operasjoner og rekkefølge


Laste ned ppt "INF 295 Algoritmer og datastrukturer Web-spider Oblig 3 Hans Fr. Nordhaug (Ola Bø)"

Liknende presentasjoner


Annonser fra Google