Laste ned presentasjonen
Presentasjon lastes. Vennligst vent
PublisertAxel Antonsen Endret for 9 år siden
1
INF 295 Algoritmer og datastrukturer Web-spider Oblig 3 Hans Fr. Nordhaug (Ola Bø)
2
Presentasjon av Oblig 2 Web-spider Indeksering Hente nettsideadresse fra kø Lese inn og analysere nettsiden Legge de av sidens utlenker som ikke er behandlet før i køen Hente ord fra siden, plassere dem i et ord-søketre For hvert ord registrere siden der ordet forekommer Søking Bruker skriver inn ord Ordet søkes opp i ord-søketreet og sidetittel og lenke til nettsider der ordet finnes vises sortert etter hvor "god" siden er
3
Oblig 3 Løsningsstruktur Side-tre Sidekø Ord-hash ForekomstlisteOrdForek omst Side Side- Info Lenker Ord
4
Oblig 3 Begrensninger Lagring i indre lager begrenser antall sider og ord Parseren håndterer bare sider av typen tekst Respekterer ikke robotbegrensninger - Kan være belastning for nettstedet som indekseres Bare ord fra siden blir brukt som søkeord - teksten i lenken burde også vært brukt. Ord som det ikke er aktuelt å søke på blir også behandlet: er, det, men, og osv. osv.
5
Oblig 3 Mulige utvidelser Web-grensesnitt (Søk via servlet, resultatene presentert med hyperlinker) Nettstedinternt søkesystem som produkt. Fjerning av ikke informative ord - Ord som forekommer på mer enn xx % av sidene Bør ikke gjøres helt fra starten Lenketekster på innlenker med som søkeord. Tittel, Keywords og Description som søkeord av høy kvalitet. Adlyde robot-regler Registrere hvilke lenker som følges etter søk Vise første 50 ord sammen med tittelen Søk på flere ord med obligatorisk, logiske operasjoner og rekkefølge
Liknende presentasjoner
© 2024 SlidePlayer.no Inc.
All rights reserved.