Laste ned presentasjonen
Presentasjon lastes. Vennligst vent
1
Enspråklig terminologiekstraksjon TRANS 2110 lars.nygaard@ilf.uio.no
2
Oversikt ● Hva er termekstraksjon? ● Steg 1: Interessante enkeltord ● Steg 2: Interessante fraser ● Steg 3: Sammenlign med referansekorpus
3
Sentrale begreper ● Termekstraksjon: Automatisk analyse av et domenespesifikt korpus for å generere kandidater til en termbase ● Korpus: En samling tekster ● Frekvens: Hvor often noe forekommer i et korpus
4
Termekstraksjon ● Fungerer aldri perfekt, men – Kan spare en for mye arbeid likevel – Avhengig av mengde og kvalitet på korpuset: Jo større jo bedre! ● Kommersielle løsninger: – Trados – SDL
5
Steg 1: Interessante enkeltord ● Vi vil beholde innholdsordene: ● Substantiv ● Verb ● Adjektiv ● (Adverb) ● Enten: Filtrer bort funksjonsord (stoppliste) ● Eller: Gjør en full ordklasse-analyse av teksten
6
Steg 2: Interessante fraser ● Kollokasjoner: Tell hvilke ord som forekommer sammen ● Fraser: Let etter sekvenser av ordklasser (typisk: substantivfraser) ● Adverb +Adjektiv +Substantiv “svært høy fjelltopp” ● Substantiv +preposisjon + Substantiv “mann utensko
7
Steg 3: Sammenlign med referansekorpus ● Vi sammenligner med frekvensene i et referansekorpus (ikke domenespesifikt) ● En kandidat er lovende, hvis den forekommer oftere enn forventet. ● Eksempler ● I et korpus med tekster om sport vil ordet “dommer” forekomme oftere enn i referansekorpuset ● Tilsvarende med helse: “medisin”, “diagnose”
8
Bruk TermX ● Gå til http://omilia.uio.no/termx.htmlhttp://omilia.uio.no/termx.html ● Åpne korpuset med ditt brukernavn ● Kopier inn domenespesifikk tekst, og velg Legg til ● Velg Analyser korpus for å se resultatene ● Viser bare NPer
Liknende presentasjoner
© 2024 SlidePlayer.no Inc.
All rights reserved.