Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Gjenfinningssystemer og verktøy II

Liknende presentasjoner


Presentasjon om: "Gjenfinningssystemer og verktøy II"— Utskrift av presentasjonen:

1 Gjenfinningssystemer og verktøy II
Matriser Jon Anjer

2 Hva er en matrise? En matrise er et rektangulært skjema eller tabell med tall eller symboler. I statistikken brukes datamatriser, som sammenfatter enheters verdier for gitte variabler Matematikk har flere anvendelsesområder, bl. a. Oversikt over vektorer i samme rom Oversikt over relasjoner Oversikt over grafer

3 Eksempel på matrise En matrise med m linjer og n kolonner kalles en m  n- matrise. En slik matrise sies å ha orden (m, n). De enkelte tallene (evt. verdien) i matrisen kalles komponenter (celler). En m  n -matrise har m • n komponenter Nedenfor er en 4  5-matrise. Matriser avgrenses med hakeparenteser:

4 Dokument-term-matriser
For å få oversikt over en database med n dokumenter som er indeksert med m kontrollerte termer, kan vi sette opp en dokument-term-matrise, der linjene står for dokumenter, og kolonnene for termer. I praksis betyr dette at vi setter dokumentvektorene under hverandre. Nedenfor vises en 5  5-matrise, som sammenfatter 5 dokumenter indeksert med 5 termer

5 Binærmatriser Hvis dokument-term-matrisene bare viser om termene finnes i dokumentene eller ikke, er alle komponentene enten 0 eller 1. Slike matriser kalles binærmatriser. Disse matrisene er enkle å bruke fordi: De tar svært lite plass i en datamaskin (én bit for hver komponent) Det er enkelt å regne ut skalarproduktet mellom linjene ved å telle antall samsvarende komponenter som er lik 1. Tilsvarende er en binærvektor en vektor der alle koordinatene er 0 eller 1

6 Eksempel på dokument-term-matrise
Vi vender tilbake til eksemplet fra presentasjonen om vektorer, med termene Sauer Term 1 Geiter Term 2 Fôring Term 3 Norge Term 4 Sykdommer Term 5 Nedenfor: Matrisen til venstre, vektorene den sammenfatter til høyre. Fôring av geiter [0, 1, 1, 0, 0] Sykdom hos sauer og geiter [1, 1, 0, 0, 1] Norske sauer [1, 0, 0, 1, 0] Fôring av syke sauer [1, 0, 1, 0, 1] Fôring av sauer og geiter [1, 1, 1, 0, 0] Norske sauer og geiter [1, 1, 0, 1, 0]

7 Linjer og rader i dokument-term-matriser
Linjene i dokument-term-matrisen forteller hvilke termer som blir brukt i hvert enkelt dokument Kolonnene forteller hvilke dokumenter som er indeksert med hver enkelt term. Følger vi andre linje nedover, ser vi at Term 2 (som her står for”Geiter”) blir brukt i dokument 1, 2, 5 og 6. Vi kan transponere (”snu”) matrisen, slik at linjene blir kolonner, og kolonnen linjer:

8 Transponerte matriser
Den transponerte matrisen er matrisen der rader og kolonner har byttet plass. Vi bruker apostrof-tegn (’) for å vise transponert matrise

9 Vektorer som matriser og transponerte matriser
En vektor kan skrives som en matrise med én linje. F.eks. kan den 5-dimensjonale søkevektoren [0, 1, 1, 0, 0] skrives som 15-matrisen [ ] Videre kan vi transponere matrisen, slik at søkevektoren representeres ved en 51-matrise. Grunnen til å transponere vektoren som matrise er at vi da kan bruke matriseregning for søking i dokumentene

10 Matrisemultiplikasjon
Matriser multipliseres ved å multiplisere alle linjer i første matrise med alle kolonner i andre matrise Når vi multipliserer n-te linje i første matrise med m-te kolonne i andre matrise, kommer resultatet i komponenten i n-te linje og m-te kolonne. I eksemplet er første linje, tredje kolonne uthevet:

11 Multiplisere dokument-term-matrisen med søkevektor (1)
Vi multipliserer dokument-term-matrisen med søkevektor ved å multiplisere alle linjene (som om det var vektorer) med søkevektoren. For å få oversikt vises utregningen av første og siste linje:

12 Multiplisere dokument-term-matrisen med søkevektor (2)
Når vi har multiplisert dokument-term-matrisen med søkevektoren ser vi hvor mange relevante termer som er funnet i hvert enkelt dokument:

13 Dokument-dokument-matrisen
Når vi multipliserer en dokument-term-matrise med sin transponerte matrise (term-dokument-matrisen), får vi en dokument-dokument-matrise. Komponentene i matrisen viser hvor mange termer dokumentene har felles. Vi ser her at f.eks. dokument 1 og dokument 2 har 1 term felles, mens dokument 1 og 3 ikke har noen termer felles (disse er merket som fete).

14 Summere matriser Summering av matriser skjer ved å summere (legge sammen) innholdet i samsvarende komponenter. For at dette skal være mulig, må matrisene være av samme orden

15 Multiplisere matriser med tall
Matriser multipliseres med tall ved å mulitplisere tallet med hver av komponentene:

16 Grafer og matriser Grafer kan beskrives med punkt-linjematriser, der linjene står for punkter, og kolonnene for linjestykker:

17 Siteringsgrafer og matriser
Siteringsgrafer kan vise siteringer mellom dokumenter. Her vises siteringer fra dokumentene i linjene, siteringer til dokumentene i kolonnene:

18 Siteringer av siteringer
Hvis vi multipliserer siteringsgrafen med seg selv, får vi vite antall siteringer til siteringer:

19 Bibliografisk kobling
Hvis vi multipliserer siteringsmatrisen med sin transponerte matrise, får vi vite antall siterte artikler som to artikler har felles:

20 Transponere matriser i EXCEL
Skriv inn matrisen Merk området kopier (Ctrl-C) ”lim inn utvalg” under ”Rediger” Merk ”Bytt rader og kolonner” trykk OK

21 Multiplisere matriser i EXCEL (1)
Skriv inn matrisene (evt. sett inn den andre som transponert av den første) Merk området der du vil ha resultatet (må ha like mange linjer som den første, like mange kolonner som den andre) Skrevet inn Transponert Området merkes

22 Multiplisere matriser i EXCEL (2)
Skriv inn matrisene Merk området der du vil ha resultatet Trykk på tasten for ”lim inn funksjon” fx finn ”MMULT” (matematisk funksjon)

23 Multiplisere matriser i EXCEL (3)
Når MMULT er lastet: Trykk ved den røde pilen ved feltet for Matrise1. Merk området for denne matrisen, etterfulgt av <Enter> Tilsvarende for Matrise 2 Trykk OK Klikk i formel-linjen; trykk <Ctrl>-<Skift>-<Enter>

24 Noen lenker Siteringsnett / Per Ongstad
Search and Retrieval: More on Term Weighting and Document Ranking / Marti A. Hearst An introduction to the Vector Space model / Michael S. Preminger


Laste ned ppt "Gjenfinningssystemer og verktøy II"

Liknende presentasjoner


Annonser fra Google