Automatisk indeksering Grunnlag: dokumentets eget vokabular Prinsipp statistisk lingvistisk Ulike seleksjons- og vektingsprinsipper fjern høy- og/eller lavfrekvente termer gi vekt i henhold til termforekomst i dokumentet termforekomst i hele dokumentsamlingen dokumentlengde
Ulike grader av automatisering Seleksjon av felter for indeksering ”Relevance feedback” Verdi-angivelse for eksempel via lenkeinformasjon
Lingvistisk kunnskap Fraser Syntaktiske roller Homonym-avklaring
Automatisk vs. manuell Dokumentbasert indeksering Spørsmålsbasert indeksering
Automatisk vs. manuell Cranfield I Cranfield II Ulike beskrivelser (emneord, Klass.) jevngode liten forskjell på erfaren og uerfaren indekserer liten effekt ved tidsbruk over 4 min/dok Cranfield II enkelttermer hentet fra dok.tekst mest effektive bare enkel synonymkontroll og ordform-sammenføring viste litt forbedring
Automatisk vs. manuell SMART / MEDLARS 40% av relevante dok. funnet med begge system Automatisk og manuell jevngode
Kunnskap om automatisk indeksering Svært forskjellige gjenfinningsmetoder gir jevngodt resultat Typisk søkeresultat: 10-13 relevante blant 30 først gjenfunne Lingvistiske metoder ikke bedre enn statistiske Raffinerte metoder ikke bedre enn enkle
Kunnskap om automatisk indeksering Liten effekt ved bruk av tesauri eller andre indekseringshjelpemidler Effekt oppnås ved gjennomtenkt frekvensvekting sammenføring av grammatikalske varianter automatisk (eller manuell) spørsmålsutvidelse ”Query development the most critical factor in retrieval”
Utvikling av automatisk indeksering Automatisk kategorisering Subdokumenter (avsnittsindeksering)
Formål med manuell indeksering Samle ulike vokabularer / terminologi / språk Tilpasning til spesielle brukergrupper Vokabularassistanse til bruker Styrt spesifisitetsnivå Gjenfinning over tid Navigering i beslektede emner
Problemer med manuell indeksering Konsistens i indeksering Pris og kapasitet Tilpasning til brukerbehov og - språkbruk Prinsippet om ”konstant intellektuell kapital”