Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Enspråklig terminologiekstraksjon TRANS 2110

Liknende presentasjoner


Presentasjon om: "Enspråklig terminologiekstraksjon TRANS 2110"— Utskrift av presentasjonen:

1 Enspråklig terminologiekstraksjon TRANS 2110 lars.nygaard@ilf.uio.no

2 Oversikt ● Hva er termekstraksjon? ● Steg 1: Interessante enkeltord ● Steg 2: Interessante fraser ● Steg 3: Sammenlign med referansekorpus

3 Sentrale begreper ● Termekstraksjon: Automatisk analyse av et domenespesifikt korpus for å generere kandidater til en termbase ● Korpus: En samling tekster ● Frekvens: Hvor often noe forekommer i et korpus

4 Termekstraksjon ● Fungerer aldri perfekt, men – Kan spare en for mye arbeid likevel – Avhengig av mengde og kvalitet på korpuset: Jo større jo bedre! ● Kommersielle løsninger: – Trados – SDL

5 Steg 1: Interessante enkeltord ● Vi vil beholde innholdsordene: ● Substantiv ● Verb ● Adjektiv ● (Adverb) ● Enten: Filtrer bort funksjonsord (stoppliste) ● Eller: Gjør en full ordklasse-analyse av teksten

6 Steg 2: Interessante fraser ● Kollokasjoner: Tell hvilke ord som forekommer sammen ● Fraser: Let etter sekvenser av ordklasser (typisk: substantivfraser) ● Adverb +Adjektiv +Substantiv “svært høy fjelltopp” ● Substantiv +preposisjon + Substantiv “mann utensko

7 Steg 3: Sammenlign med referansekorpus ● Vi sammenligner med frekvensene i et referansekorpus (ikke domenespesifikt) ● En kandidat er lovende, hvis den forekommer oftere enn forventet. ● Eksempler ● I et korpus med tekster om sport vil ordet “dommer” forekomme oftere enn i referansekorpuset ● Tilsvarende med helse: “medisin”, “diagnose”

8 Bruk TermX ● Gå til http://omilia.uio.no/termx.htmlhttp://omilia.uio.no/termx.html ● Åpne korpuset med ditt brukernavn ● Kopier inn domenespesifikk tekst, og velg Legg til ● Velg Analyser korpus for å se resultatene ● Viser bare NPer


Laste ned ppt "Enspråklig terminologiekstraksjon TRANS 2110"

Liknende presentasjoner


Annonser fra Google