Digitale Dokumenter Introduksjon til digitale dokumenter Søkemotorer, agenter og roboter bygget på en forelesning skrevet av Gisle Hannemyr, bearbeidet.

Slides:



Advertisements
Liknende presentasjoner
HVA ER ?.
Advertisements

Hvordan skrive en vitenskapelig artikkel?
Support, nye funksjoner og tjenester fra Uni Pluss
v/Tormod Engebu, IKAVA KDRS 13. november 2013
GoOnline publisering Hvordan komme i gang med GoOnline. Denne presentasjonen tar deg steg for steg gjennom oppsett av nettsted med bruk av GoOnline Proffesional.
Nytt fra IF Innhold • Justeringer på • Messer • Aftenposten-bilag • Studentum • Studiestart • Folkehøgskolekatalogen.
Rett på sak.
PowerPoint laget av Bendik S. Søvegjarto Konsept, tekst og regler av Skage Hansen.
PowerPoint laget av Bendik S. Søvegjarto Konsept, tekst og regler av Skage Hansen.
HVA ER ?.
Bokanmeldelser..
Slik kommer du til «Personverninnstillinger»: Logg inn på Facebook.
Introduksjon til Internett
B IBLIOTEKSKURS 2 INFORMASJONSSØK KILDEKRITIKK. ATEKST Du finner ATEKST i Fronter eller på bibliotekets forside. Kun datamaskiner på skolen har tilgang.
Lars OpdalHøgskolen i Buskerud Hvorfor Google? ”Jeg lurer på hva som egentlig er bra med en søkemaskin på Internett som kommer tilbake med
Gjenfinningssystemer og verktøy II
Hvem var Ellen White? • Født i USA i 1827 • Et av 8 barn • Vokste opp som metodist • Ble kristen da hun var 12 • Ble Adventist etter hvert • Fikk drømmer.
Sikkerhet - bakgrunn og introduksjon til kryptosystemer
Grunnleggende spørsmål om naturfag
”Utryddelsen av de europeiske jødene”
Databasehåndtering med MySQL
Forside Korteste sti BFS Modifikasjon Dijkstra Eksempel Korrekthet Analyse Øving Spørsmål Dijkstras algoritme Åsmund Eldhuset asmunde *at* stud.ntnu.no.
Mars 2008 Ole Husby Nettlesere. Nettlesere finnes På Windows-PC-er på Mac’er på Linux på mobiltelefoner og forskjellige andre steder også.
Kvalitetssikring av analyser til forskningsbruk
Gå inn på denne internettadressen:
Prosjekt og forskningsrapport
Velkommen til Medisinsk bibliotek
1 Information search for the research protocol in IIC/IID Medical Library, 2013.
UBiT - veven
MetaLib og SFX Demonstrasjon 16 oktober Program Utfordringer for bibliotek og brukere Hva er MetaLib og SFX? Live-demo Systemene i bruk Produkter.
© 2010 KPMG AS, a Norwegian member firm of KPMG network of independent member firms affiliated with KPMG International, a Swiss cooperative. All rights.
Publisering på verdensveven Kursdag 2 VÅFF, våren 2002.
Internett i undervisningen – de vanskelige spørsmåla Utdanningstorget 4. februar 2004 Leikny Øgrim IT-seksjonen Avdeling for lærerutdanning Høgskolen.
Innledning om HTML IT20 oktober Bakgrunn Konseptet WWW ble født i 1983 i CERN, Geneve Opphavsmann: Tim Berners-Lee, MIT Spre informasjon uavhengig.
Oppgaveformatet. Oversikt XML-format, spesifisert gjennom et XML Schema. Består av et sett lovlige elementer og attributter og hvordan de kan ordnes i.
PARLAY/OSA Referanser: Referanser Foredraget er i all hovedsak basert på to artikler. Disse kan finnes på:
Workshop for masterstudenter Torsdag. 5.februar 2009.
10 regler for å skrive for web
RSS og Alerts JDD 21. mai Ting jeg skal si litt om RSS Alerts (TOC) Hvordan fungerer disse funksjonene? Hva kan de brukes til?
TIPS OM SØKING PÅ INTERNETT
DRI1002-V04 Fforelesning uke 17,19 Arild Jansen, AFIN DRI IKT og informasjonssøking Forelesning uke 17 og 18 Hovedpunktene i forelesningen Litt om.
De 222 mest brukte ordene i det norske språket..
Disaster Preparation/Recovery Solutions and Messaging Backup/Restore Exchange server 2003.
Digitalt prosjektrom og samarbeidsteknologi Muligheter for meningsskaping og relevans i et «kombinert klasserom» Jorunn Thortveit og Hans Erik Bugge IGIS.
123 Data - Førstehjelp Krokelvdalen Skole. Hva skal vi lære Slå på/av datamaskinen Hva som må til for å komme på internett Hvilke typer kommunikasjonsformer.
Evaluering av informasjon på Internett Kildebruk og kritikk Universitetsbibliotekar Hilde Westbye Det juridiske fakultetsbibliotek Universitetet i Oslo.
Johan From Professor Handelshøyskolen BI
What is a good text? And how do we get pupils to write them?
Rettslige aspekter ved informasjonsinfrastrukturer og semantisk interoperabilitet Dag Wiese Schartum.
DRI 1002 Våren 2004 Oppsummering Overblikk over kurset : Mål og innhold Forelesningene Obligatoriske oppgaver 2.Litt om eksamen 3.Evaluering.
Protokoller Pensum: Olsen, kap. 5 og 6. Kommunikasjonsprotokoll Rutiner for å administrere og kontrollere oversending av data Telefonsamtale (”Hallo”,
1 Kap. 57 – Cloud Computing How Information Technology Is Conquering the World: Workplace, Private Life, and Society Professor Kai A. Olsen, Universitetet.
Misjon – å krysse grenser
2003 Ontopia AS1 Tanker om standarder for e-læring Emnekart og published subjects Lars Marius Garshol, utviklingsleder Ontopia,
Finn puslespillbitene Å være kildekritisk til informasjon på nett.
Velkommen som student Anne-Beathe Mortensen-Buan
Linked Data 2: Hvordan KoG31 Uke 8, 2013.
The Thompson Schools Improvement Project Process Improvement Training Slides (Current State Slides Only) October 2009.
Kap. 9 – Computer Intelligence How Information Technology Is Conquering the World: Workplace, Private Life, and Society Professor Kai A. Olsen,
Primary French Presentation 10 Colours L.I. C’est de quelle couleur?
Digital læring for publikum og bibliotekansatte
Citation and reference tools for your master thesis
Digital startpakke kurs 3
CAMPAIGNING From vision to action.
Welcome to an ALLIN (ALLEMED) workshop!
Når virker 1:1 kommunikasjon? Miriam Gade Nicolaisen
DRI IKT og informasjonssøking 2. Forelesning og seminar uke 4
- Og søking på internett
Internett som elektronisk kommunikasjonsmiddel
The courts February 2018 Court Administration.
Utskrift av presentasjonen:

Digitale Dokumenter Introduksjon til digitale dokumenter Søkemotorer, agenter og roboter bygget på en forelesning skrevet av Gisle Hannemyr, bearbeidet av Runar Eggen Høsten 2004

Hypertekst Røttene går tilbake til Vannevar Bush og essayet «As we may think» (1945) http://www.csi.uottawa.ca/~dduchier/misc/vbush/awmt.html Begrepet «hypertekst» ble skapt av Ted Nelson (1965), som i boka Literary Machines (1981) definerer det som «ikke-sekvensiell tekst». Gjort til et et signifikant fenomen av Tim Berners-Lee gjennom World Wide Web (1989).

As we may think […] publication has been extended far beyond our present ability to make real use of the record. The summation of human experience is being expanded at a prodigious rate, and the means we use for threading through the consequent maze to the momentarily important item is the same as was used in the days of square-rigged ships. (Bush, 1945)

Digitale dokumenter Siden WWW dukket opp på begynnelsen av 1990-tallet, har produksjonen av hypertekst vært formidabel (alle tall er fra 3. kvartal 2000 og må tas med en stor klype salt): De mest pålitelige målingene gir nå en nedre grense for datamengden i den ”statiske” delen av WWW på 19 Terabyte/19 millioner bøker (Inktomi) ”Deep web”: 7500 Terabyte (BrightPlanet) Library of Congress, 17 millioner bøker/ 17 Terabyte Lexis-Nexis: 11 Terabyte Dialog: 11 Terabyte

Internett og Wold Wide Web Det er nå mer enn ti år siden Tim Berners-Lee første gang slapp løs World Wide Web og dermed skapte den største omveltningen siden Gutenberg i hvordan vi reproduserer og distribuerer informasjon. Nå foreslår han at verden tar det neste steget på veien mot informasjons-samfunnet. Konseptet han nå forsøker å få aksept for er «den semantiske veven».

Semantisk – hva betyr det? Semantisk kommer fra det greske verbet semaino og betyr ”betyr”. Det semantiske nettet blir dermed nettet med mening. Dette henspiller på markupspråket, at labels (merkelapper) får mening.

XML XML står for extensible markup language. Det er et språk for å definere markup-språk Har dermed mange flere muligheter enn HTML. Dere vil lære mer om dette i Tor Arne Dahls forelesning om XML.

Wold Wide Web og publisering Mulighetene for å publisere digitale dokumenter innebærer så mange endringer i forhold til tradisjonelle medier som bøker og fjernsyn at det ikke er plass til å beskrive alle her. Men en av de viktigste endringene som World Wide Web, sammen med den underliggende infrastrukturen vi kaller Internett, brakte med seg var, på godt og ondt, en enorm demokratisering i adgang til å være «utgiver». Før burde man helst eie et forlagshus og ha adgang til et større distribusjonsapparat gjennom bibliotek og bokhandler for å kunne publisere noe som hadde nedslagsfelt utenfor den nære familie og vennekrets.

Informasjonsinfrastruktur Infrastruktur: For å sette opp en forretningsvirksomhet, administrasjons- eller utdanningsprosjekt måtte man tidligere bygge bygninger, kontorer, veier, telefonlinjer, posttjenester og så videre. Informasjons-infrastruktur: I dag kan man skape en forretningsvirksomhet, et administrasjons- eller utdanningsprosjekt ved å bruke Internett som infrastruktur.

Dot.com-boblen ”Alle” skulle drive handel over Internett. Hvorfor sprakk boblen? Er den kommet tilbake, og vil den sprekke igjen? ”Brick and mortar”-bedrifter driver nå forretningsvirksomheten sin over internett Flyselskaper og banker har rasjonalisert ved hjelp av Internett. Hvorfor ikke bilbiotek?

Internett og Wold Wide Web World Wide Web (sammen med Internett) har imidlertid gitt enhver med en datamaskin og minimale kunnskaper om å bruke et redigeringsprogram et redskap der man bokstavelig talt for noen få tusenlapper hadde adgang til et medium og et distribusjonsapparat som hadde hele verden som sitt nedslagsfelt. Resultatet har blitt en eksplosjon av publikasjoner. Legger vi sammen det antall «sider» med tekst som i dag ligger offentlig tilgjengelig i World Wide Web, så tilsvarer det mer enn 7 milliarder bøker. Det er langt flere bøker enn det som for tiden befinner seg i verdens største bibliotek, amerikanske Library of Congress.

WWW er ikke noe bibliotek I et bibliotek er verkene i samlingen kategorisert og katalogisert, og de administreres av en kunnskapsrik stab som kan hjelpe brukerne til rette i informasjonsjungelen. Ikke noe av dette finner vi på verdensveven. Selv slike selvsagte kategorier i bibliotekssammenheng som «forfatter» og «utgiver» kan det være en utfordring å finne ut av når vi står foran en nettpublikasjon.

HTTP er en protokoll En protokoll er en standard måte for datamaskiner å snakke sammen på. http:// står for hypertext transfer protocol Andre protokoller: ftp, mail osv.

Internett er mye mer enn web World wide web er bare en del av internett. Internett er ”nettet mellom nettene” Omfatter blant annet epost, filoverføring (ftp), nyhetsgrupper m.m. Internett er en gammel oppfinnelse sammenliknet med www.

Formal definition of the Internet The global information system that: is logically linked together by a globally unique address space based upon the Internet protocol (IP) or its subsequent extensions/follow-ons, is able to support communications using the transmission- control protocol/Internet protocol (TCP/IP) suite or its subsequent extensions/follow-ons and/or other IP-compatible protocols, and provides, uses or makes accessible either publicly or privatly, high-level services layered on the communications and related infrastructure described herein.” — Federal Networking Council in a resolution, October 24, 1995

Uformell definisjon av Internett A chaotic repository for the collective output of the world’s digital «printing presses». —Lynch 1997 Oversatt: Et kaotisk lager for den samlede produksjonen til verdens ”digitale trykkerier”.

The Resource Discovery Problem Først formulert av Alan Emtage og Peter Deutsch i Archie - an Electronic Directory Service for the Internet (1992) Archie var en søkemotor innen ftp som kom før de weborienterte søkemotorene. Før en bruker kan utnytte tjenestene som tilbys av internettsamfunnet eller aksessere informasjonen som tilbys av slike tjenester, må han vite om både eksistensen til tjenestene og vertene hvor de er tilgjengelige.

Den overdrevne betydning av agenter I litteraturen om softwareagenter blir det ofte hevdet at denne teknologien er i stand til å løse flere av de svært synlige problemene som brukere av moderne nettilkoblede datamaskiner møter, inkludert: informasjonsoverflods-problemet ressursoppdagelses-problemet overdrevent kompliserte brukergrensesnitt En agent er et program som handler (agerer) for brukeren, det vil si utfører oppgaver det har blitt pålagt. F.eks. vil Finn.no si fra hver gang det finner en jobb som passer med brukerens beskrivelse av hva han er interessert i.

Status for agentene Så langt har ikke software-agenter klart å få så mye som ventet ut av elektroniske kunnskapskilder. Grunnen er antakelig at det er svært lite semantisk informasjon elektronisk tilgjengelig.

Tidlig eksempel på elektronisk ressurs-gjenfinning I 1956 vedtok delstaten Pennsylvania en lov om å endre uttrykket “retarded child” til “exceptional child”. For å iverksette loven måtte man lokalisere alle steder i lovtekstene hvor ordet forekom. Først ble en student satt til å lese gjennom lovene og liste opp alle forekomster av termen. Dessverre var unøyaktigheten for høy til å aksepteres. Deretter ble lovene registrert på hullkort. Det ble da en triviell oppgave for datamaskinen å lese gjennom materialet og finne alle forekomster av termen. Problemet var løst. Som et biprodukt fikk Health Law Center at University of Pittsburgh den fulle teksten av lovene i maskinlesbar form. Senteret fant andre og mer spennende måter å utnytte dette materialet på. Fritekst elektroniske søkesystemer var født.

Copernic Copernic er en agent Søker på Internett Søker på din egen harddisk Søker i filer Lager sammendrag Fjerner irrelevant stoff som annonser fra websider Søkeagenten kan lastes ned gratis

Tidlig ”ressursoppdagelse” Lexis-Nexis, Dialog – proprietary space Archie - ftp-space (recorded pathname only) Veronica (Very Easy Rodent Oriented Net-wide Index of Computerized Archives) – gopher-space WAIS (Wide Area Information Services) – self contained, directory of servers exchange Yahoo – manual indexing of web resources AltaVista – first true web search engine

The Resource Discovery Problem The resource discovery problem encompasses not only how to find resources. Having discovered a resource, the user needs to assess its quality, relevance, topicality, significance and suitability. If the discovery process yields pointers to several alternative resources, the user needs the means to qualify them and to identify the resource or resources that provide the “best fit” for the problem at hand.

Så kom søkemotorene for web De er radikalt forskjellige fra tidligere systemer i og med at de: bruker roboter istedenfor arkivarer til datafangst. Skiller mellom dataspace og search space. Initielt var de 100% basert på fritekstsøk. Kjernebegrep: URI

Løsningen på kaoset? Roboter og søkemotorer Roboter (spidere) går gjennom nettet og legger inn nettsider i kjempemessige databaser ”uberørt av menneskehånd”. Søkemotorene søker i databasene. Eksempler på søkemotorer: google, kartoo, vivissimo, exalead, teoma, alltheweb, hotbot, altavista osv...

A Resource According to RFC 2396 (Uniform Resource Identifier: URI) A resource is anything that has identity: Familiar examples include an electronic document, an image, a service (e.g., «today's weather report for Los Angeles»), and a collection of other resources. Not all resources are network «retrievable»; e.g., human beings, corporations, and bound books in a library can also be considered resources. More complex than a database key or a Dewey identifier: The resource is the conceptual mapping to an entity or set of entities, not necessarily the entity which corresponds to that mapping at any particular instance in time. Thus, a resource can remain constant even when its content - the entities to which it currently corresponds - changes over time, provided that the conceptual mapping is not changed in the process.

Søkemotorer http://internetbrus.com/blog.php Globale søkemotorer Google (størst) Exalead (bedre søk) AltaVista (var først) Metasøkemotorer AskJeeves DogPile MetaCrawler Mediaorienterte s.m. Google Image Search ftp-søk Mp3-søk Emneorienterte s.m. Cora (naturvitenskap) Sara (statistikk) Kulturnettsøk (kultur i Norge) Informasjon om søkemotorer: http://internetbrus.com/blog.php

Hvordan fungerer de Et program, vanligvis kalt en “robot” (også kjent som en “scooter”, “drone”, “spider” eller “web crawler”) går gjennom Internett og trekker ut data om ressursene som det finner Dataene som ble trukket ut av roboten lagres i en database på søkemotorens vertsmaskin(er) og bearbeides og struktureres for søking Dataene søkes i gjennom et brukergrensesnitt, og resultatet av søkene vises som et ordnet sett.

Virkemåten til en søkemotor Figur 1: Anatomien til en typisk Internett søkeportal Søkbart datasett Robot (datafangst) Søkespesifikasjon Filterspesifikasjon Resultatsett Rangering Presentasjon Søket etableres gjennom at brukeren angir hva det skal søkes etter (en søkespesifikasjon). Ofte har bruken brukeren muligheten til å begrense søket gjennom ett eller flere filtre som typisk er knyttet til metadata som under datafangsten er syntetisert ut fra dataene selv, URLen og/eller HTML-markeringer.

Bruk av søkemotorer De klassiske informasjonstjenestene ble typisk bygget opp for å håndtere søkebehovene til profesjonelle søkere (for eksempel ble Dialog started som en intern service ved Lockheed Aerospace Corporations bibliotek i 1965). Da denne tjenesten ble tilgjengelig for eksterne kunder i begynnelsen av 1980-årene, var deres typiske bruker en profesjonell bibliotekar som handlet på vegne av en akademisk institusjon eller en betalende kunde som brukte systemet for profesjonell research. Internetts søkemotorer er gratis tilgjengelige, og hovedvekten av deres brukere anvender dem ikke for arbeidsrelaterte aktiviteter. En analyse av loggen til den en gang så populære AltaVista-søkemaskinen foretatt høsten 1998 gav disse mest brukte termene: sex, applet, porno, mp3, chat, warez, yahoo, playboy, xxx, hotmail (Silverstein et al 1998). En tilsvarende sjekk i mars 1999 (Blast 1999) gav en nesten identisk liste.

Internett er blitt for stort Internettet er blitt for stort for manuell registrering av websider Noen av de manuelle forsøkene har imidlertid svært høy kvalitet, som for eksempel Yahoo.

Hva er forskjellen -1 Forskjellen på en robot og en søkemotor er at roboten samler inn dataene og søkemotoren finner dem fram for deg når du søker. Forskjellen på katalogtjenesten Yahoo og en søkemotor er at Yahoo er bygget opp av mennesker.

Hva er forskjellen - 2 Forskjellen på en typisk arkiv/biblioteksdatabase og en søkemotor er at arkiv/biblioteksbasen er bygget ”for hånd” av bibliotekarer. De første hybridene har imidlertid kommet. Bibliotek- og arkivsystemer kan bruke roboter for å fulltekstindeksere organisasjonens dokumenter. Forfatteren kan legge inn metadata. Hva blir bibliotekarens rolle?

En bekymret katolikk «Når jeg for eksempel ønsker informasjon om hva som er riktig katolsk lære går jeg til den katolske kirkes egne websider. Fortrinnsvis den norske katolske kirke – altså de offisielle katolske websidene for Norge. Av og til går jeg også til New Advent, selv om jeg vet at de en god del for konservative for min smak, de er for eksempel litt mer rosende ovenfor en del kontroversielle paver enn jeg ville vært, men absolutt en troverdig kilde. Det er viktig for oss katolikker at vi får korrekt informasjon. Tenk deg for eksempel at noen tok et offisielt pavelig dokument og fjernet ordet “ikke”. Måten jeg vet at de nevnte webstedene er troverdige på er at jeg ser på den informasjonen som ligger der, og måten de har strukturert informasjonen på, og ut fra det bygges tilliten til disse webstedene opp over tid.»

Hvordan vurdere kilder på nett ”Løkskrelling” for å se hvem som står bak. Er det en offentlig myndighet eller en kilde du kjenner? Refererer andre til kilden? Virker stoffet gjennomarbeidet og ortografien bra? Vi kommer tilbake til dette på slutten av forelesningen.

Hvordan lure søkemotorene Meta-data Man kan legge inn repeterte ord. Man kan legge inn ord som ikke beskriver egen side. Lenker Søkemotorene ser gjerne på hvor mange ganger en side er blitt lenket til fra andre nettsteder. Hvis flere nettsteder samarbeider om å lenke til hverandre, får de høy rangering. Bruke spesialister

Synliggjøring av biblioteksystemer Biblioteksystemer AS: <meta name="keywords" content="biblioteksystem, biblioteksystemer, samsøk, kikkhullet, websøk, safarisøk, dugnadsbasen"> Bibliotekenes IT-senter: <META NAME="keywords" CONTENT="Mikromarc,service,tidsskrifter,bibliotek,biblotek,Micromarc,Library automation software, Mikromarc, Micromark, biblioteksystem, bibliotekssystem, biblioteksystemer, tidsskrifthåndtering, tidsskriftsystem, periodikasystem, z39.50, Aleph, Metalib, SFX, DigiTool, NetLoan, portal, ebib, bibliotek, sentral drift, sentraldrift, ASP, programvare, bibliotekautomatisering, biblioteksautomatisering Win32, Windows, Win95, Windows 95, NT, WebCat, Websæk, WebOPAC, OPAC, bibliotekscentrum, BIC, Europe, Norway, Sweden, Denmark, Iceland, Samisk, English, Internet search, Norge, Sverige, Danmark"> <META NAME="description" CONTENT="Mikromarc library automation software. PC/Windows/NT/Windows 2000/Windows XP/DOS, Client/Server, RDBMS"> Søk i forskjellige søkemotorer på biblioteksystem gir svært forskjellige treff.

Roboter kan manipuleres

Hva er spam? SPAM er opprinnelig en forkortelse for SPiced hAM fra Hormel Foods. Se http://www.spam.com Ordets mer moderne betydning ble introdusert av Monty Python’s Flying Circus i en sketsj der en gjeng med vikinger synger ordet ”spam” og stanser all videre konversasjon. Se http://www.spam.com/ci/ci_in.htm Ordet brukes nå mest om uønsket reklame-epost, (Unsolicited Commercial Email eller UCE). Har også blitt brukt om ”index spam”, det vil si manipulerte, verdiløse søkemotortreff)

Searching for “Bauhaus”

Keyword spam Siden gir 66% score – ledsaget av følgende forklarende tekst: INFORMATION CONTENT IS FOCUSED TOWARDS KEY TOPICS The text appears to be very significant. It should be highly interesting due to high information value. It addresses key issues such as bauhau, art, architecture, bauhau style, national socialism, architecture movement, nazism, craft movement and craft. Relevant. Some core concepts such as architect ludwig mie van der rohe, dessau, germany, fine art, international style, art academy, craftsmanship, craftsman william morri and aesthetic standard are addressed in an informative way. Denne siden er imidlertid bare en online ordliste inneholdende drøyt 45 tusen ord i alfabetisk rekkefølge, inklusive: art, academy, aesthetic, architect, architecture, bauhaus, craft, craftsman, fine, germany, international, ludwig, morris, movement, national, nazism, socialism, standard, style, van og william.

Problemer med søkemotorer Fritekstsøk gir for dårlig kvalifiserte data: Ikke vanskelig å finne materiale på web om George W. Bush Vanskeligere å finne materiale der George W. Bush er forfatteren. Kan bruke http://www.ubka.uni-karlsruhe.de/kvk.html

Søking er big business Fast og Google Finn.no og Notar.no Norske Fast tapte kampen om Internett, men gjør det bra med søking i bedriftenes egne data som forretningsområde Finn.no og Notar.no Notar er et eiendomsmeglerfirma og de lanserte et søk som søkte i Aftenpostens Finn.no sine boligannonser. Dette likte Finn.no så dårlig at de forsøkte å stenge Notar ute, både teknisk (IP-adresse) og rettslig.

Kamp om faglitteraturen OAIster er navnet på en ny søkemotor for felles faglitteratursøk. Den utvikles ved Universitetet i Michigan. "OAI" står for "Open Archives Initiative". Universitetet i Michigan mistenker, ifølge Universitetsavisa, at Google prøver å inkludere OAIster-materiale i sitt søk uten tillatelse, slik at Google-søket skal bli mest mulig fullstendig. Da Chronicle of Higher Education prøvde å spørre Google om dette, ønsket de ikke å uttale seg.

Mer enn Google http://www.exalead.com http://www.mooter.com http://www.oaister.umdl.umich.edu/o/oaister/ http://www.teoma.com/ http://www.webbrain.com Bærum folkebibliotek

Egenskaper Google: stor, ikke trunkering (primitivt søk) Exalead: avansert søk, clustering, fonetisk søk (eks.: sannefjoor) Webbrain: Visuell clustering Vivissimo: Clustering Mooter: Visuell clustering, ikke æøå Teoma: Forslag til innsnevring, markerer sponsede lenker kartoo: Visuell clustering, viser sponsing, metasøkemotor

Hvordan søker folk? Ifølge Jansen og Pooch. A review of web searching studies and a framework for future research (2000) Ca to ord per søk De fleste ser på ti eller færre dokumenter 10 % av søk med boolske operatorer 70 % hevder de fant relevant stoff

Søkemotorer, ytelsemåling Klassisk vurderes søkemotorer ved at man ser på: Relevans: dvs. evnen i form av evne til å finne relevante dokumenter og evne til å ekskludere irrelevante. Presisjon: dvs. evnen til å rangere relevante dokumenter først.

Søkemotorer, ytelsemåling Når man søker på Internett er funnmengden i praksis ubegrenset oppad. Vi må altså modifisere de klassiske målemetidene ved å velge et begrensningspunkt (cut-off point, eller cop, i figuren neste lysbilde). Erfaring viser at brukere av søkemotorer sjelden forholder seg til funn ut over side 1 (vanligvis de 10 første funn), så det ble valgt å sette avskjæringspunktet til 10. Dokumentene deles så inn i fire mengder. som illustrert i tabellen på neste slide.

Søkemotorer, ytelsemåling   ABOVE COP BELOW COP F(ok) relevant over cop ¬F(ok) noise1 (ok) all wanted F(¬ok) noise2 ¬F(¬ok) irrelevant below cop (¬ok) all unwanted (acop) = F(ok+¬ok) (bcop) = ¬F(ok+¬ok)  all resources yes Relevant no

Relevans (1) Relevansbegrepet er svært komplekst. Det opereres i litteraturen med flere ulike relevansbegreper. I forsøket ble det valgt å bruke følgende to relevanskriterier: Topikalitet (også kalt for innholdsrelevans) Topikalitet er et mål for samstemmighetsrelasjonen mellom søkeforespørsel og søkesvar. Topikalitet er uavhengig av brukerens behov eller situasjon. Topikalitet bør derfor bedømmes av domene­eksperter. Kvalitet Dette er et mål for systemets evne til å rangere høyverdige ressurser (definert langs slike definisjoner som lødig innhold, troverdig kilde, relevant genre) foran mindre verdige ressurser. Også kvalitet bedømmes best av en domene-ekspert.

Topikalitet (0-1) Siden omhandler et annet emne = 0. Siden har marginal relevans = 0,1-0,2 Siden gir referanser til eksterne kilder med relevant informasjon (0,3-0,4) Siden inneholder en del relevant informasjon 0,5-0,6 Siden har et innhold som er svært relevant i forhold til forespørselen (0,7-0,9) Full klaff (1.0)

Kvalitet (Skala: 0-1) Eier av nettstedet: kjent som upålitelig = 0; ukjent = 0,1; tilsynelatende tilforlatelig kilde = 0,2; kjent og respektert organisasjon, men med diclaimer = 0,3; offisiell informasjon fra en kjent og respektert publisher = 0,4 Angitt byline for forfatter eller annen kilde (0,1) Forfatters/kildes affiliasjon er angitt (0,1) Forfatter/kilde kjent og respektert (0,1) Dato for publisering oppgitt (0,1) Språkføring og grammatikk av profesjonell standard (0,1) Typografi/layout av profesjonell standard (0,1)

Relevans (++) I litteraturen opereres med et tredje mål som vanligvis kalles for nytteverdi (utility) eller subjektiv relevans. Dette er et mål for relasjonen mellom brukerens situasjonsbestemte behov for informasjonsressurser og resulatet av søket. Nytteverdi påvirkes både av hva brukeren akter å bruke informasjonen til, og hva slags kunnskaper brukeren har om emnet på forhånd (brukere har for eksempel mer nytte av informasjon som gir dem ny informasjon, og mindre nytte av å informasjon som de allerede kjenner til.) Nytteverdi må derfor bedømmes av brukeren av informasjonen.

Test av relevans To kjøringer: Kjøring 1 henter inn resultatsett for en gitt Internett søkemotor (referanse) Typisk er dette 300 dokumenter, hvorav de fleste var irrelevante. For å vurdere relevans (topikalitet) ble det rett og slett summert opp relevansscore x 10 for de ti høyest rangerte sidene. Testsøk ble så kjørt mot resultat-settet produsert av referanse-søkemotoren. Det innebærer at det samme sett av sider er rangert for hvert enkelt par tester.

Test av relevans To søk: Biografi over den norske politikeren Einar Gerhardsen. Bare fem kjente dokumenter på web som er relevante. Bauhaus, i betydningen arkitekturretning Ukjent antall kjente dokumenter, mange falske positive (rockeband, busselskap, butikker)

Test av relevans (Bauhaus) #1 #2 #3 #4 #5 #6 #7 #8 #9 10 SUM Referanse (Google) 4 7 8 51 TESTSØKE- MOTOR 3 2 9 34 For å vurdere innholdsrelevans (dvs. topikalitet) ble det summert opp innholdsrelevansscore for de ti høyest rangerte sidene. Nytteverdi er ikke testet.

Test av kvalitet Sidene ble også evaluert for kvalitet, men dataene ga ikke grunnlag for å trekke noen konklusjoner. Sider av ulik kvalitet var distribuert helt jevnt over hele rangeringstabellen. Dette var et uventet resultat for Google, som forskeren i utgangspunktet trodde hadde en rangeringsfunksjon som ville favorisere kvalitet.

Presisjon Presisjon er egentlig et mål for evne til å rangere relevante dokumenter først, og beregnes fra følgende formel: En søkemotor som plasserer samtlige relevante dokumenter i søkemengden over avskjæringspunktet vil ha en presisjon lik 1, en som ikke plasserer noen der vil ha en presisjon lik 0.

Test av presisjon Testen «Gerhardsen» gjør det relativt enkelt å evaluere presisjon, fordi det så vidt vites bare er fem engelskspråklige dokumenter på web som er relevante i forhold til å gi biografiske opplysninger om Einar Gerhardsen. Av søkemotorene var det forøvrig bare Google som fanget inn samtlige fem i de data vi høstet for testen (ca. 300 sider pr. søkemotor), men bare 3 over COP (som il si 60% presisjon). COP er satt til 10.

Test av presisjon (Gerhardsen)   Resultat, Referansemotor Resultat, TESTSØKEMOTOR Referanse (ok) F(ok) P AllTheWeb 4 1.0 3 0.75 Excite 2 0.5 Google 5 0.6

The fallacy of abundance Don Swanson: The fallacy of abundance is the mistake a searcher makes when he uses a large IR system and is able to find some useful documents. On a sufficiently large system […] almost any query will retrieve some useful documents. The mistake is to think that just because you got some useful documents the IR system is performing well. What you don’t know is how many better documents the system missed.

The games people play Misuse of metatags Keyword hijacking Dictionary spam Faking link cardinality

Problemer med veven - oppsummering Generell orientering mot visuell presentasjon Vevens fri-for-alle blanding av genrer og formater Juks fra vevmestre for å øke deres siders synlighet i søkemotorene Manglende evne til å håndtere endringer og forskjellige typer dynamisk innhold (f.eks. kortvarige sider, dynamiske databasesøk, versjonsoverskriving) Lite støtte for metadata Manglende autentiseringsmekanismer og rettighetsadministrasjon

From metadata to support of online communities The idea behind introducing metadata is to enable an IR Owner (e.g. the creator or publisher) to create metadata describing own resources. The same scheme would be used by individuals (e.g. individual shareware programmers), corporations (e.g. software companies) and organizations (such as a user group aligned with some development platform) to bind metadata to resources. As with PICS, it is possible for other entities than the creator or publisher to create metadata files. One possible scenario is that a cooperative body such as the (fictional) Gazonk User Group (GUG) organizes an effort to document through metadata files all the resources on the web of value to the Gazonk using community. Gazonk hackers searching the web can then specify to the search engine that they are only interested in hits associated with metadata files bearing the GUG signature.

Platform for Internet Content Selection The PICSTM specification enables labels (metadata) to be associated with Internet content. It was originally designed to help parents and teachers control what children access on the Internet, but it also facilitates other uses for labels, including code signing and privacy. The PICS platform is one on which other rating services and filtering software have been built.

To forskjellige tjenester The two worlds:

Viktig å huske Internett er ikke et bibliotek Internet er ikke en venn Det er viktig å separere lokale kilder fra globale Kildekritikk er enda viktigere enn det har vært før