Enspråklig terminologiekstraksjon TRANS 2110

Slides:



Advertisements
Liknende presentasjoner
Blogg En blogg kan sammenlignes med en nettbasert dagbok. Her kan du publisere tekst, bilder, videoer. Leserne kan kommentere det du har skrevet i din.
Advertisements

Ordklasser i norsk Oversikt Leksjon II.
BARNS SPRÅKUTVIKLING Test deg selv!
Bygg web på Opplæring Presentasjon Idium AS Bygg web på Opplæring.
VG3 – norsk: Grammatikk og språkhistorie
Hvordan etablere nettbutikk med GoOnline Commerce
GoOnline publisering Hvordan komme i gang med GoOnline. Denne presentasjonen tar deg steg for steg gjennom oppsett av nettsted med bruk av GoOnline Proffesional.
En innføring i spillet: Lag En Setning
ADVERB.
Intranett: Hvordan komme i gang
Verbal a) Form Verbalet blir dannet av verbene i setningen.
Last ned apper fra Google Play (Android) Åpne Internett på din enhet og søk deg inn på siden trykk på Play, som du finner på menylinjen.
HVA ER ?.
Kursmøte 3 På-vei-mot f(x) setninger.
Skal du ha tak i en spesiell bok, trenger du bare å skrive inn etternavnet til forfatteren og ett av ordene i tittelen. Avslutt gjerne med * etter stammen.
- Fast tilbud om brukertester som støtte til smidig – prosessen!
Blooms taksonomi for kunnskap
Janne Bondi Johannessen Tekstlaboratoriet Universitetet i Oslo
Kursmøte 1-4 Metoden TN Tegnsatt norsk.
Enkel og dobbel konsonant
Fra læreplanen i norsk:
Duo- en liten innføring
Predikative substantiver i russisk Seminar om språkforskning, ILOS, Møyfrid Oust Torske.
Frase: ei gruppe ord som henger sammen ut fra grammatiske bindinger. En frase er gjerne ei gruppe ord som utgjør et setningsledd eller del av et setningsledd.
Velkommen, språkeksperter!
Velkommen, språkeksperter!
Ordklasser.
“Metonymi i orddannelse: russisk, tsjekkisk og norsk”
Sett inn riktig form av adjektivene og substantivene, med artikkel hvis nødvendig Kapittel 8 oppgave c.
PowerPoint laget av Bendik S. Søvegjarto Konsept, tekst og regler av Skage Hansen.
Kursmøte 1-2 Hvor er barnet på vei? – mot 3- 4åringens språklige nivå.
Janne Bondi Johannessen Tekstlaboratoriet Universitetet i Oslo
Nasjonal Sikkerhetsdag 2009 Røros kommune. Hva er Nasjonal Sikkerhetsdag? En mulighet til å lære mer om informasjonssikkerhet En dugnad for å bedre informasjonssikkerheten.
ADVERB Han går inn. hvor=sted Tor skriver pent. hvordan=måte
Oversettelsesminne – del II
Introduksjon til bruk av oversetterverktøy
Ordklasser Inndelingen
Termbaser Lars Nygaard. Termbaser Database over begreper Innhold –Definisjoner –Oversettelser –Leksikalske relasjoner –Eksempler.
Partisipp I norsk.
Misjon Isave skal tilby en “do-it-your-self” løsning til markedsførere for å etablere automatisert dialog mot markedet.
Inf1000 (Uke 5) Arrayer, filer og tekst
A1A, : Grammatikk: Litt mer om feltanalyse til A1A
Nynorsk fagskriving Orden i teksta.
BIND SETNINGENE RIKTIG SAMMEN OG MED LOGISK INNHOLD Kapittel 5 oppgave h.
Morfologi – formlære - ord
Tekstlingvistikk Astrid Granly
Om grammatikkens stilling
Norsk som andrespråk Kontrastiv grammatikk LUB
Tekstlingvistikk Astrid Granly
S TILLER TØFFERE KRAV TIL SKOLEELEVENE Side
Sommerkurs 17. juli Gruppe B. I dag Indirekte tale Avhengige interrogativer Ingen av delene Diskusjonsoppgaver om befolkning Rollespill med utgangspunkt.
Janne Bondi Johannessen Tekstlaboratoriet Universitetet i Oslo
PREPOSISJONER.
1 Tema Vg1, kap 9 Olav Christopher Jenssen: Edition Biographie, 1997 Galleri Ris © Olav Christopher Jensen/BONO 2009.
Grammatikk. Ordklassene 1.Verb 2.Substantiv 3.Adjektiver 4.Pronomen 5.Determinativ 6.Preposisjoner 7.Konjunksjoner 8.Subjunksjoner 9.Interjeksjoner 10.Adverb.
A1C, : Grammatikk: Feltanalyse. Kilder Iversen, Harald Morten, Hildegunn Otnes og Marit Skarbø Solem (2004): Grammatikken i bruk – i tekst og.
Grammatikk. Ordklassane 1.Verb 2.Substantiv 3.Adjektiv 4.Pronomen 5.Determinativ 6.Preposisjonar 7.Konjunksjonar 8.Subjunksjonar 9.Interjeksjonar 10.Adverb.
Gjør-det-selv-mødrene
Grammatikk.
Kun karakterer skal telle
Norsk som fremmedspråk Side 131
Elementær innføring i grammatikk for RUS1110
Norsk Grammatikk .
Velkommen til begynnerkurs i NVivo 8!
Emilios jobb som assistent
Si substantivene, verbene og adjektivene. 
Nyttårsmarsjen februar – 21. mars
Janne Bondi Johannessen Tekstlaboratoriet Universitetet i Oslo
Ord som beskriver En stor hatt Ei skummel rotte
Elementær innføring i grammatikk for RUS1110
Utskrift av presentasjonen:

Enspråklig terminologiekstraksjon TRANS 2110

Oversikt ● Hva er termekstraksjon? ● Steg 1: Interessante enkeltord ● Steg 2: Interessante fraser ● Steg 3: Sammenlign med referansekorpus

Sentrale begreper ● Termekstraksjon: Automatisk analyse av et domenespesifikt korpus for å generere kandidater til en termbase ● Korpus: En samling tekster ● Frekvens: Hvor often noe forekommer i et korpus

Termekstraksjon ● Fungerer aldri perfekt, men – Kan spare en for mye arbeid likevel – Avhengig av mengde og kvalitet på korpuset: Jo større jo bedre! ● Kommersielle løsninger: – Trados – SDL

Steg 1: Interessante enkeltord ● Vi vil beholde innholdsordene: ● Substantiv ● Verb ● Adjektiv ● (Adverb) ● Enten: Filtrer bort funksjonsord (stoppliste) ● Eller: Gjør en full ordklasse-analyse av teksten

Steg 2: Interessante fraser ● Kollokasjoner: Tell hvilke ord som forekommer sammen ● Fraser: Let etter sekvenser av ordklasser (typisk: substantivfraser) ● Adverb +Adjektiv +Substantiv “svært høy fjelltopp” ● Substantiv +preposisjon + Substantiv “mann utensko

Steg 3: Sammenlign med referansekorpus ● Vi sammenligner med frekvensene i et referansekorpus (ikke domenespesifikt) ● En kandidat er lovende, hvis den forekommer oftere enn forventet. ● Eksempler ● I et korpus med tekster om sport vil ordet “dommer” forekomme oftere enn i referansekorpuset ● Tilsvarende med helse: “medisin”, “diagnose”

Bruk TermX ● Gå til ● Åpne korpuset med ditt brukernavn ● Kopier inn domenespesifikk tekst, og velg Legg til ● Velg Analyser korpus for å se resultatene ● Viser bare NPer