Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Digitale Dokumenter Introduksjon til digitale dokumenter Søkemotorer, agenter og roboter bygget på en forelesning skrevet av Gisle Hannemyr, bearbeidet.

Liknende presentasjoner


Presentasjon om: "Digitale Dokumenter Introduksjon til digitale dokumenter Søkemotorer, agenter og roboter bygget på en forelesning skrevet av Gisle Hannemyr, bearbeidet."— Utskrift av presentasjonen:

1 Digitale Dokumenter Introduksjon til digitale dokumenter Søkemotorer, agenter og roboter bygget på en forelesning skrevet av Gisle Hannemyr, bearbeidet av Runar Eggen Høsten 2004

2 Hypertekst Røttene går tilbake til Vannevar Bush og essayet «As we may think» (1945) Begrepet «hypertekst» ble skapt av Ted Nelson (1965), som i boka Literary Machines (1981) definerer det som «ikke-sekvensiell tekst». Gjort til et et signifikant fenomen av Tim Berners-Lee gjennom World Wide Web (1989).

3 As we may think […] publication has been extended far beyond our present ability to make real use of the record. The summation of human experience is being expanded at a prodigious rate, and the means we use for threading through the consequent maze to the momentarily important item is the same as was used in the days of square-rigged ships. (Bush, 1945)

4 Digitale dokumenter Siden WWW dukket opp på begynnelsen av 1990-tallet, har produksjonen av hypertekst vært formidabel (alle tall er fra 3. kvartal 2000 og må tas med en stor klype salt): De mest pålitelige målingene gir nå en nedre grense for datamengden i den ”statiske” delen av WWW på 19 Terabyte/19 millioner bøker (Inktomi) ”Deep web”: 7500 Terabyte (BrightPlanet) Library of Congress, 17 millioner bøker/ 17 Terabyte Lexis-Nexis: 11 Terabyte Dialog: 11 Terabyte

5 Internett og Wold Wide Web
Det er nå mer enn ti år siden Tim Berners-Lee første gang slapp løs World Wide Web og dermed skapte den største omveltningen siden Gutenberg i hvordan vi reproduserer og distribuerer informasjon. Nå foreslår han at verden tar det neste steget på veien mot informasjons-samfunnet. Konseptet han nå forsøker å få aksept for er «den semantiske veven».

6 Semantisk – hva betyr det?
Semantisk kommer fra det greske verbet semaino og betyr ”betyr”. Det semantiske nettet blir dermed nettet med mening. Dette henspiller på markupspråket, at labels (merkelapper) får mening.

7 XML XML står for extensible markup language.
Det er et språk for å definere markup-språk Har dermed mange flere muligheter enn HTML. Dere vil lære mer om dette i Tor Arne Dahls forelesning om XML.

8 Wold Wide Web og publisering
Mulighetene for å publisere digitale dokumenter innebærer så mange endringer i forhold til tradisjonelle medier som bøker og fjernsyn at det ikke er plass til å beskrive alle her. Men en av de viktigste endringene som World Wide Web, sammen med den underliggende infrastrukturen vi kaller Internett, brakte med seg var, på godt og ondt, en enorm demokratisering i adgang til å være «utgiver». Før burde man helst eie et forlagshus og ha adgang til et større distribusjonsapparat gjennom bibliotek og bokhandler for å kunne publisere noe som hadde nedslagsfelt utenfor den nære familie og vennekrets.

9 Informasjonsinfrastruktur
Infrastruktur: For å sette opp en forretningsvirksomhet, administrasjons- eller utdanningsprosjekt måtte man tidligere bygge bygninger, kontorer, veier, telefonlinjer, posttjenester og så videre. Informasjons-infrastruktur: I dag kan man skape en forretningsvirksomhet, et administrasjons- eller utdanningsprosjekt ved å bruke Internett som infrastruktur.

10 Dot.com-boblen ”Alle” skulle drive handel over Internett.
Hvorfor sprakk boblen? Er den kommet tilbake, og vil den sprekke igjen? ”Brick and mortar”-bedrifter driver nå forretningsvirksomheten sin over internett Flyselskaper og banker har rasjonalisert ved hjelp av Internett. Hvorfor ikke bilbiotek?

11 Internett og Wold Wide Web
World Wide Web (sammen med Internett) har imidlertid gitt enhver med en datamaskin og minimale kunnskaper om å bruke et redigeringsprogram et redskap der man bokstavelig talt for noen få tusenlapper hadde adgang til et medium og et distribusjonsapparat som hadde hele verden som sitt nedslagsfelt. Resultatet har blitt en eksplosjon av publikasjoner. Legger vi sammen det antall «sider» med tekst som i dag ligger offentlig tilgjengelig i World Wide Web, så tilsvarer det mer enn 7 milliarder bøker. Det er langt flere bøker enn det som for tiden befinner seg i verdens største bibliotek, amerikanske Library of Congress.

12 WWW er ikke noe bibliotek
I et bibliotek er verkene i samlingen kategorisert og katalogisert, og de administreres av en kunnskapsrik stab som kan hjelpe brukerne til rette i informasjonsjungelen. Ikke noe av dette finner vi på verdensveven. Selv slike selvsagte kategorier i bibliotekssammenheng som «forfatter» og «utgiver» kan det være en utfordring å finne ut av når vi står foran en nettpublikasjon.

13 HTTP er en protokoll En protokoll er en standard måte for datamaskiner å snakke sammen på. står for hypertext transfer protocol Andre protokoller: ftp, mail osv.

14 Internett er mye mer enn web
World wide web er bare en del av internett. Internett er ”nettet mellom nettene” Omfatter blant annet epost, filoverføring (ftp), nyhetsgrupper m.m. Internett er en gammel oppfinnelse sammenliknet med www.

15 Formal definition of the Internet
The global information system that: is logically linked together by a globally unique address space based upon the Internet protocol (IP) or its subsequent extensions/follow-ons, is able to support communications using the transmission- control protocol/Internet protocol (TCP/IP) suite or its subsequent extensions/follow-ons and/or other IP-compatible protocols, and provides, uses or makes accessible either publicly or privatly, high-level services layered on the communications and related infrastructure described herein.” — Federal Networking Council in a resolution, October 24, 1995

16 Uformell definisjon av Internett
A chaotic repository for the collective output of the world’s digital «printing presses». —Lynch 1997 Oversatt: Et kaotisk lager for den samlede produksjonen til verdens ”digitale trykkerier”.

17 The Resource Discovery Problem
Først formulert av Alan Emtage og Peter Deutsch i Archie - an Electronic Directory Service for the Internet (1992) Archie var en søkemotor innen ftp som kom før de weborienterte søkemotorene. Før en bruker kan utnytte tjenestene som tilbys av internettsamfunnet eller aksessere informasjonen som tilbys av slike tjenester, må han vite om både eksistensen til tjenestene og vertene hvor de er tilgjengelige.

18 Den overdrevne betydning av agenter
I litteraturen om softwareagenter blir det ofte hevdet at denne teknologien er i stand til å løse flere av de svært synlige problemene som brukere av moderne nettilkoblede datamaskiner møter, inkludert: informasjonsoverflods-problemet ressursoppdagelses-problemet overdrevent kompliserte brukergrensesnitt En agent er et program som handler (agerer) for brukeren, det vil si utfører oppgaver det har blitt pålagt. F.eks. vil Finn.no si fra hver gang det finner en jobb som passer med brukerens beskrivelse av hva han er interessert i.

19 Status for agentene Så langt har ikke software-agenter klart å få så mye som ventet ut av elektroniske kunnskapskilder. Grunnen er antakelig at det er svært lite semantisk informasjon elektronisk tilgjengelig.

20 Tidlig eksempel på elektronisk ressurs-gjenfinning
I 1956 vedtok delstaten Pennsylvania en lov om å endre uttrykket “retarded child” til “exceptional child”. For å iverksette loven måtte man lokalisere alle steder i lovtekstene hvor ordet forekom. Først ble en student satt til å lese gjennom lovene og liste opp alle forekomster av termen. Dessverre var unøyaktigheten for høy til å aksepteres. Deretter ble lovene registrert på hullkort. Det ble da en triviell oppgave for datamaskinen å lese gjennom materialet og finne alle forekomster av termen. Problemet var løst. Som et biprodukt fikk Health Law Center at University of Pittsburgh den fulle teksten av lovene i maskinlesbar form. Senteret fant andre og mer spennende måter å utnytte dette materialet på. Fritekst elektroniske søkesystemer var født.

21 Copernic Copernic er en agent Søker på Internett
Søker på din egen harddisk Søker i filer Lager sammendrag Fjerner irrelevant stoff som annonser fra websider Søkeagenten kan lastes ned gratis

22 Tidlig ”ressursoppdagelse”
Lexis-Nexis, Dialog – proprietary space Archie - ftp-space (recorded pathname only) Veronica (Very Easy Rodent Oriented Net-wide Index of Computerized Archives) – gopher-space WAIS (Wide Area Information Services) – self contained, directory of servers exchange Yahoo – manual indexing of web resources AltaVista – first true web search engine

23 The Resource Discovery Problem
The resource discovery problem encompasses not only how to find resources. Having discovered a resource, the user needs to assess its quality, relevance, topicality, significance and suitability. If the discovery process yields pointers to several alternative resources, the user needs the means to qualify them and to identify the resource or resources that provide the “best fit” for the problem at hand.

24 Så kom søkemotorene for web
De er radikalt forskjellige fra tidligere systemer i og med at de: bruker roboter istedenfor arkivarer til datafangst. Skiller mellom dataspace og search space. Initielt var de 100% basert på fritekstsøk. Kjernebegrep: URI

25 Løsningen på kaoset? Roboter og søkemotorer
Roboter (spidere) går gjennom nettet og legger inn nettsider i kjempemessige databaser ”uberørt av menneskehånd”. Søkemotorene søker i databasene. Eksempler på søkemotorer: google, kartoo, vivissimo, exalead, teoma, alltheweb, hotbot, altavista osv...

26 A Resource According to RFC 2396 (Uniform Resource Identifier: URI)
A resource is anything that has identity: Familiar examples include an electronic document, an image, a service (e.g., «today's weather report for Los Angeles»), and a collection of other resources. Not all resources are network «retrievable»; e.g., human beings, corporations, and bound books in a library can also be considered resources. More complex than a database key or a Dewey identifier: The resource is the conceptual mapping to an entity or set of entities, not necessarily the entity which corresponds to that mapping at any particular instance in time. Thus, a resource can remain constant even when its content - the entities to which it currently corresponds - changes over time, provided that the conceptual mapping is not changed in the process.

27 Søkemotorer http://internetbrus.com/blog.php Globale søkemotorer
Google (størst) Exalead (bedre søk) AltaVista (var først) Metasøkemotorer AskJeeves DogPile MetaCrawler Mediaorienterte s.m. Google Image Search ftp-søk Mp3-søk Emneorienterte s.m. Cora (naturvitenskap) Sara (statistikk) Kulturnettsøk (kultur i Norge) Informasjon om søkemotorer:

28 Hvordan fungerer de Et program, vanligvis kalt en “robot” (også kjent som en “scooter”, “drone”, “spider” eller “web crawler”) går gjennom Internett og trekker ut data om ressursene som det finner Dataene som ble trukket ut av roboten lagres i en database på søkemotorens vertsmaskin(er) og bearbeides og struktureres for søking Dataene søkes i gjennom et brukergrensesnitt, og resultatet av søkene vises som et ordnet sett.

29 Virkemåten til en søkemotor
Figur 1: Anatomien til en typisk Internett søkeportal Søkbart datasett Robot (datafangst) Søkespesifikasjon Filterspesifikasjon Resultatsett Rangering Presentasjon Søket etableres gjennom at brukeren angir hva det skal søkes etter (en søkespesifikasjon). Ofte har bruken brukeren muligheten til å begrense søket gjennom ett eller flere filtre som typisk er knyttet til metadata som under datafangsten er syntetisert ut fra dataene selv, URLen og/eller HTML-markeringer.

30 Bruk av søkemotorer De klassiske informasjonstjenestene ble typisk bygget opp for å håndtere søkebehovene til profesjonelle søkere (for eksempel ble Dialog started som en intern service ved Lockheed Aerospace Corporations bibliotek i 1965). Da denne tjenesten ble tilgjengelig for eksterne kunder i begynnelsen av 1980-årene, var deres typiske bruker en profesjonell bibliotekar som handlet på vegne av en akademisk institusjon eller en betalende kunde som brukte systemet for profesjonell research. Internetts søkemotorer er gratis tilgjengelige, og hovedvekten av deres brukere anvender dem ikke for arbeidsrelaterte aktiviteter. En analyse av loggen til den en gang så populære AltaVista-søkemaskinen foretatt høsten 1998 gav disse mest brukte termene: sex, applet, porno, mp3, chat, warez, yahoo, playboy, xxx, hotmail (Silverstein et al 1998). En tilsvarende sjekk i mars 1999 (Blast 1999) gav en nesten identisk liste.

31 Internett er blitt for stort
Internettet er blitt for stort for manuell registrering av websider Noen av de manuelle forsøkene har imidlertid svært høy kvalitet, som for eksempel Yahoo.

32 Hva er forskjellen -1 Forskjellen på en robot og en søkemotor er at roboten samler inn dataene og søkemotoren finner dem fram for deg når du søker. Forskjellen på katalogtjenesten Yahoo og en søkemotor er at Yahoo er bygget opp av mennesker.

33 Hva er forskjellen - 2 Forskjellen på en typisk arkiv/biblioteksdatabase og en søkemotor er at arkiv/biblioteksbasen er bygget ”for hånd” av bibliotekarer. De første hybridene har imidlertid kommet. Bibliotek- og arkivsystemer kan bruke roboter for å fulltekstindeksere organisasjonens dokumenter. Forfatteren kan legge inn metadata. Hva blir bibliotekarens rolle?

34 En bekymret katolikk «Når jeg for eksempel ønsker informasjon om hva som er riktig katolsk lære går jeg til den katolske kirkes egne websider. Fortrinnsvis den norske katolske kirke – altså de offisielle katolske websidene for Norge. Av og til går jeg også til New Advent, selv om jeg vet at de en god del for konservative for min smak, de er for eksempel litt mer rosende ovenfor en del kontroversielle paver enn jeg ville vært, men absolutt en troverdig kilde. Det er viktig for oss katolikker at vi får korrekt informasjon. Tenk deg for eksempel at noen tok et offisielt pavelig dokument og fjernet ordet “ikke”. Måten jeg vet at de nevnte webstedene er troverdige på er at jeg ser på den informasjonen som ligger der, og måten de har strukturert informasjonen på, og ut fra det bygges tilliten til disse webstedene opp over tid.»

35 Hvordan vurdere kilder på nett
”Løkskrelling” for å se hvem som står bak. Er det en offentlig myndighet eller en kilde du kjenner? Refererer andre til kilden? Virker stoffet gjennomarbeidet og ortografien bra? Vi kommer tilbake til dette på slutten av forelesningen.

36 Hvordan lure søkemotorene
Meta-data Man kan legge inn repeterte ord. Man kan legge inn ord som ikke beskriver egen side. Lenker Søkemotorene ser gjerne på hvor mange ganger en side er blitt lenket til fra andre nettsteder. Hvis flere nettsteder samarbeider om å lenke til hverandre, får de høy rangering. Bruke spesialister

37 Synliggjøring av biblioteksystemer
Biblioteksystemer AS: <meta name="keywords" content="biblioteksystem, biblioteksystemer, samsøk, kikkhullet, websøk, safarisøk, dugnadsbasen"> Bibliotekenes IT-senter: <META NAME="keywords" CONTENT="Mikromarc,service,tidsskrifter,bibliotek,biblotek,Micromarc,Library automation software, Mikromarc, Micromark, biblioteksystem, bibliotekssystem, biblioteksystemer, tidsskrifthåndtering, tidsskriftsystem, periodikasystem, z39.50, Aleph, Metalib, SFX, DigiTool, NetLoan, portal, ebib, bibliotek, sentral drift, sentraldrift, ASP, programvare, bibliotekautomatisering, biblioteksautomatisering Win32, Windows, Win95, Windows 95, NT, WebCat, Websæk, WebOPAC, OPAC, bibliotekscentrum, BIC, Europe, Norway, Sweden, Denmark, Iceland, Samisk, English, Internet search, Norge, Sverige, Danmark"> <META NAME="description" CONTENT="Mikromarc library automation software. PC/Windows/NT/Windows 2000/Windows XP/DOS, Client/Server, RDBMS"> Søk i forskjellige søkemotorer på biblioteksystem gir svært forskjellige treff.

38 Roboter kan manipuleres

39 Hva er spam? SPAM er opprinnelig en forkortelse for SPiced hAM fra Hormel Foods. Se Ordets mer moderne betydning ble introdusert av Monty Python’s Flying Circus i en sketsj der en gjeng med vikinger synger ordet ”spam” og stanser all videre konversasjon. Se Ordet brukes nå mest om uønsket reklame-epost, (Unsolicited Commercial eller UCE). Har også blitt brukt om ”index spam”, det vil si manipulerte, verdiløse søkemotortreff)

40 Searching for “Bauhaus”

41 Keyword spam Siden gir 66% score – ledsaget av følgende forklarende tekst: INFORMATION CONTENT IS FOCUSED TOWARDS KEY TOPICS The text appears to be very significant. It should be highly interesting due to high information value. It addresses key issues such as bauhau, art, architecture, bauhau style, national socialism, architecture movement, nazism, craft movement and craft. Relevant. Some core concepts such as architect ludwig mie van der rohe, dessau, germany, fine art, international style, art academy, craftsmanship, craftsman william morri and aesthetic standard are addressed in an informative way. Denne siden er imidlertid bare en online ordliste inneholdende drøyt 45 tusen ord i alfabetisk rekkefølge, inklusive: art, academy, aesthetic, architect, architecture, bauhaus, craft, craftsman, fine, germany, international, ludwig, morris, movement, national, nazism, socialism, standard, style, van og william.

42 Problemer med søkemotorer
Fritekstsøk gir for dårlig kvalifiserte data: Ikke vanskelig å finne materiale på web om George W. Bush Vanskeligere å finne materiale der George W. Bush er forfatteren. Kan bruke

43 Søking er big business Fast og Google Finn.no og Notar.no
Norske Fast tapte kampen om Internett, men gjør det bra med søking i bedriftenes egne data som forretningsområde Finn.no og Notar.no Notar er et eiendomsmeglerfirma og de lanserte et søk som søkte i Aftenpostens Finn.no sine boligannonser. Dette likte Finn.no så dårlig at de forsøkte å stenge Notar ute, både teknisk (IP-adresse) og rettslig.

44 Kamp om faglitteraturen
OAIster er navnet på en ny søkemotor for felles faglitteratursøk. Den utvikles ved Universitetet i Michigan. "OAI" står for "Open Archives Initiative". Universitetet i Michigan mistenker, ifølge Universitetsavisa, at Google prøver å inkludere OAIster-materiale i sitt søk uten tillatelse, slik at Google-søket skal bli mest mulig fullstendig. Da Chronicle of Higher Education prøvde å spørre Google om dette, ønsket de ikke å uttale seg.

45 Mer enn Google http://www.exalead.com http://www.mooter.com
Bærum folkebibliotek

46 Egenskaper Google: stor, ikke trunkering (primitivt søk)
Exalead: avansert søk, clustering, fonetisk søk (eks.: sannefjoor) Webbrain: Visuell clustering Vivissimo: Clustering Mooter: Visuell clustering, ikke æøå Teoma: Forslag til innsnevring, markerer sponsede lenker kartoo: Visuell clustering, viser sponsing, metasøkemotor

47 Hvordan søker folk? Ifølge Jansen og Pooch. A review of web searching studies and a framework for future research (2000) Ca to ord per søk De fleste ser på ti eller færre dokumenter 10 % av søk med boolske operatorer 70 % hevder de fant relevant stoff

48 Søkemotorer, ytelsemåling
Klassisk vurderes søkemotorer ved at man ser på: Relevans: dvs. evnen i form av evne til å finne relevante dokumenter og evne til å ekskludere irrelevante. Presisjon: dvs. evnen til å rangere relevante dokumenter først.

49 Søkemotorer, ytelsemåling
Når man søker på Internett er funnmengden i praksis ubegrenset oppad. Vi må altså modifisere de klassiske målemetidene ved å velge et begrensningspunkt (cut-off point, eller cop, i figuren neste lysbilde). Erfaring viser at brukere av søkemotorer sjelden forholder seg til funn ut over side 1 (vanligvis de 10 første funn), så det ble valgt å sette avskjæringspunktet til 10. Dokumentene deles så inn i fire mengder. som illustrert i tabellen på neste slide.

50 Søkemotorer, ytelsemåling
ABOVE COP BELOW COP F(ok) relevant over cop ¬F(ok) noise1 (ok) all wanted F(¬ok) noise2 ¬F(¬ok) irrelevant below cop (¬ok) all unwanted (acop) = F(ok+¬ok) (bcop) = ¬F(ok+¬ok)  all resources yes Relevant no

51 Relevans (1) Relevansbegrepet er svært komplekst. Det opereres i litteraturen med flere ulike relevansbegreper. I forsøket ble det valgt å bruke følgende to relevanskriterier: Topikalitet (også kalt for innholdsrelevans) Topikalitet er et mål for samstemmighetsrelasjonen mellom søkeforespørsel og søkesvar. Topikalitet er uavhengig av brukerens behov eller situasjon. Topikalitet bør derfor bedømmes av domene­eksperter. Kvalitet Dette er et mål for systemets evne til å rangere høyverdige ressurser (definert langs slike definisjoner som lødig innhold, troverdig kilde, relevant genre) foran mindre verdige ressurser. Også kvalitet bedømmes best av en domene-ekspert.

52 Topikalitet (0-1) Siden omhandler et annet emne = 0.
Siden har marginal relevans = 0,1-0,2 Siden gir referanser til eksterne kilder med relevant informasjon (0,3-0,4) Siden inneholder en del relevant informasjon 0,5-0,6 Siden har et innhold som er svært relevant i forhold til forespørselen (0,7-0,9) Full klaff (1.0)

53 Kvalitet (Skala: 0-1) Eier av nettstedet:
kjent som upålitelig = 0; ukjent = 0,1; tilsynelatende tilforlatelig kilde = 0,2; kjent og respektert organisasjon, men med diclaimer = 0,3; offisiell informasjon fra en kjent og respektert publisher = 0,4 Angitt byline for forfatter eller annen kilde (0,1) Forfatters/kildes affiliasjon er angitt (0,1) Forfatter/kilde kjent og respektert (0,1) Dato for publisering oppgitt (0,1) Språkføring og grammatikk av profesjonell standard (0,1) Typografi/layout av profesjonell standard (0,1)

54 Relevans (++) I litteraturen opereres med et tredje mål som vanligvis kalles for nytteverdi (utility) eller subjektiv relevans. Dette er et mål for relasjonen mellom brukerens situasjonsbestemte behov for informasjonsressurser og resulatet av søket. Nytteverdi påvirkes både av hva brukeren akter å bruke informasjonen til, og hva slags kunnskaper brukeren har om emnet på forhånd (brukere har for eksempel mer nytte av informasjon som gir dem ny informasjon, og mindre nytte av å informasjon som de allerede kjenner til.) Nytteverdi må derfor bedømmes av brukeren av informasjonen.

55 Test av relevans To kjøringer:
Kjøring 1 henter inn resultatsett for en gitt Internett søkemotor (referanse) Typisk er dette 300 dokumenter, hvorav de fleste var irrelevante. For å vurdere relevans (topikalitet) ble det rett og slett summert opp relevansscore x 10 for de ti høyest rangerte sidene. Testsøk ble så kjørt mot resultat-settet produsert av referanse-søkemotoren. Det innebærer at det samme sett av sider er rangert for hvert enkelt par tester.

56 Test av relevans To søk:
Biografi over den norske politikeren Einar Gerhardsen. Bare fem kjente dokumenter på web som er relevante. Bauhaus, i betydningen arkitekturretning Ukjent antall kjente dokumenter, mange falske positive (rockeband, busselskap, butikker)

57 Test av relevans (Bauhaus)
#1 #2 #3 #4 #5 #6 #7 #8 #9 10 SUM Referanse (Google) 4 7 8 51 TESTSØKE- MOTOR 3 2 9 34 For å vurdere innholdsrelevans (dvs. topikalitet) ble det summert opp innholdsrelevansscore for de ti høyest rangerte sidene. Nytteverdi er ikke testet.

58 Test av kvalitet Sidene ble også evaluert for kvalitet, men dataene ga ikke grunnlag for å trekke noen konklusjoner. Sider av ulik kvalitet var distribuert helt jevnt over hele rangeringstabellen. Dette var et uventet resultat for Google, som forskeren i utgangspunktet trodde hadde en rangeringsfunksjon som ville favorisere kvalitet.

59 Presisjon Presisjon er egentlig et mål for evne til å rangere relevante dokumenter først, og beregnes fra følgende formel: En søkemotor som plasserer samtlige relevante dokumenter i søkemengden over avskjæringspunktet vil ha en presisjon lik 1, en som ikke plasserer noen der vil ha en presisjon lik 0.

60 Test av presisjon Testen «Gerhardsen» gjør det relativt enkelt å evaluere presisjon, fordi det så vidt vites bare er fem engelskspråklige dokumenter på web som er relevante i forhold til å gi biografiske opplysninger om Einar Gerhardsen. Av søkemotorene var det forøvrig bare Google som fanget inn samtlige fem i de data vi høstet for testen (ca. 300 sider pr. søkemotor), men bare 3 over COP (som il si 60% presisjon). COP er satt til 10.

61 Test av presisjon (Gerhardsen)
Resultat, Referansemotor Resultat, TESTSØKEMOTOR Referanse (ok) F(ok) P AllTheWeb 4 1.0 3 0.75 Excite 2 0.5 Google 5 0.6

62 The fallacy of abundance
Don Swanson: The fallacy of abundance is the mistake a searcher makes when he uses a large IR system and is able to find some useful documents. On a sufficiently large system […] almost any query will retrieve some useful documents. The mistake is to think that just because you got some useful documents the IR system is performing well. What you don’t know is how many better documents the system missed.

63 The games people play Misuse of metatags Keyword hijacking Dictionary spam Faking link cardinality

64 Problemer med veven - oppsummering
Generell orientering mot visuell presentasjon Vevens fri-for-alle blanding av genrer og formater Juks fra vevmestre for å øke deres siders synlighet i søkemotorene Manglende evne til å håndtere endringer og forskjellige typer dynamisk innhold (f.eks. kortvarige sider, dynamiske databasesøk, versjonsoverskriving) Lite støtte for metadata Manglende autentiseringsmekanismer og rettighetsadministrasjon

65 From metadata to support of online communities
The idea behind introducing metadata is to enable an IR Owner (e.g. the creator or publisher) to create metadata describing own resources. The same scheme would be used by individuals (e.g. individual shareware programmers), corporations (e.g. software companies) and organizations (such as a user group aligned with some development platform) to bind metadata to resources. As with PICS, it is possible for other entities than the creator or publisher to create metadata files. One possible scenario is that a cooperative body such as the (fictional) Gazonk User Group (GUG) organizes an effort to document through metadata files all the resources on the web of value to the Gazonk using community. Gazonk hackers searching the web can then specify to the search engine that they are only interested in hits associated with metadata files bearing the GUG signature.

66 Platform for Internet Content Selection
The PICSTM specification enables labels (metadata) to be associated with Internet content. It was originally designed to help parents and teachers control what children access on the Internet, but it also facilitates other uses for labels, including code signing and privacy. The PICS platform is one on which other rating services and filtering software have been built.

67 To forskjellige tjenester
The two worlds:

68 Viktig å huske Internett er ikke et bibliotek Internet er ikke en venn
Det er viktig å separere lokale kilder fra globale Kildekritikk er enda viktigere enn det har vært før


Laste ned ppt "Digitale Dokumenter Introduksjon til digitale dokumenter Søkemotorer, agenter og roboter bygget på en forelesning skrevet av Gisle Hannemyr, bearbeidet."

Liknende presentasjoner


Annonser fra Google