Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Automatisk gjenkjenning av vanskelige navn

Liknende presentasjoner


Presentasjon om: "Automatisk gjenkjenning av vanskelige navn"— Utskrift av presentasjonen:

1 Automatisk gjenkjenning av vanskelige navn
Janne Bondi Johannessen, Universitetet i Oslo Paul Meurer, Universitetet i Bergen

2 Arbeidet inngår i to pågående prosjekter:
Oslo-Bergen-taggeren (forbedring og videreutvikling) Nomen Nescio En navnegjenkjenner for norsk, svensk og dansk (Samarbeid mellom UiO,UiB, GU, CST og Syddansk Universitet)

3 Innhold Nomen Nescio Gjenkjenning av lette navn
Gjenkjenning av vanskelige navn Gjenkjenning av navn som består av fraser Dokumentbaseringsmetoden Navn først i setningen Kortversjoner av navn Implementeringi taggeren

4 Nomen Nescio Mål: Sette riktig navnekategori på navn i løpende tekst
Navnekategorier: Person, sted, organisasjon, hendelse, verk, ting Måter: Regelbasert metode (Andra Björk Jonsdottir) Statistisk metode: (Åsne Haaland)

5 Navns flertydighet (i):
Navnehomonymi: Arthur Andersen, Jens Evensen, (person- eller firmanavn?) Bondi, Asker, Guriby, Hanevold (person- eller stedsnavn?) Odin (Guds- eller firmanavn?)

6 Navns flertydighet (ii):
Navnepolysemi: Aftenposten (ting, verk, firma eller sted?) Jeg kastet Aftenposten i søppelkassa. Jeg leste i Aftenposten at det er krig i Afghanistan. Jeg kjenner en som jobber i Aftenposten. Jeg går forbi Aftenposten hver dag.

7 Gjenkjenning av lette navn:
I dag snør det. Snø er kaldt. Bjørn liker ikke snø. Kvist er det mye av t.v. Berg og fjell er typisk norsk. T.v. står Berg.

8 Oslo-Bergen-taggeren har gjettet riktig med ett unntak:
"<I"<I>" "i" prep "<Snø>" "snø" subst mask appell ub ent "<Bjørn>" "Bjørn" subst mask prop "bjørn" subst mask appell ub ent "<Kvist>" "kvist" subst mask appell ub ent "<Berg>" "Berg" subst prop "<T.v.>" "t.v." fork adv

9 Gjenkjenning av vanskelige navn:
Navn som består av fraser: Navn som er nominalfraser - bare første bokstav er stor: a. Den norske stat b. Institutt for lingvistiske fag c. Direktoratet for naturforvaltning d. Det historisk-filosofiske fakultet Navn som er nominalfraser - ett av leddene er et egennavn med stor bokstav: a. Mjær ungdomsskole b. Gjerdrum likningskontor og folkeregister c. Hungerholt gruppebolig d. Universitetet i Oslo e. Sentralsykehuset i Akershus

10 Navn som er nominalfraser - uforutsigbare store forbokstaver:
a. Karihaugen Lakk og Karosseri b. Rens På Timen c. Den norske Kirken d. Kvebek Bygg og Fornyelse A/S

11 Navnemønstrene som regulære uttrykk (i)
Bestemte krav til rekkefølge, morfosyntaktisk kategori, og leksem: Universitetet i Bergen: Substantiv i bestemt form og stor bokstav - "i" - Egennavn Den store oktoberrevolusjonen: Determinativ med stor bokstav - (adjektiv(er)) - substantiv Store Norske kullkompani: ((Adjektiv)er med stor bokstav) - substantiv

12 Navnemønstrene som regulære uttrykk (ii)
Tåsen barnehage, Tåsen senter- og periferibarnehage, Bærum herredsrett: Egennavn - (Adjektiv(er)) - (substantiv - "og") - "*barnehage", "*råd", "*kontor", "*rett"..., Anne Grete Jensen: Egennavn - (Egennavn(pl)) Bærum Ved og Brensel A/S: Egennavn - Egennavn - "og" - Substantiv med stor bokstav - ("A/S", "AS")

13 Dokumentbaseringsmetoden
McDonald (1996) Mikheev et al (1999, 2000…)

14 Gjenkjenning av frasenavn først i setningen
Hvordan vite hva som er navn? Den lille jenta tenkte. Den norske kirkes ritualer var ganske tiltalende. Den lille jenta tenkte. Den norske kirkes ritualer var ganske tiltalende. Kanskje hun skulle melde seg inn i Den norske kirke?

15 Gjenkjenning av kortversjoner av frasenavn
Den norske Lægeforening Lægeforeningen De store oktoberrevolusjonen Oktoberrevolusjonen Store Norske Kullkompani Kullkompaniet Norsk sykepleierforbund Sykepleierforbundet

16 Konteksten hjelper Petra er medlem i Den norske Lægeforening. Hun vil gjerne melde seg ut. Lægeforeningen gjør ikke nok for de svakeste i samfunnet.

17 Prøvetekst "Her er Gjerdrum likningskontor. Likningskontoret ligger rett ved Universitetet i Oslo. Rens På Timen er også i nærheten. Jeg liker Rens På Timen. Den norske lægeforening har mange medlemmer. Men Lægeforeningen er ikke så aktiv. Jeg synes Den norske lægeforening snart bør bli mer aktiv."

18 Web-grensesnitt .

19 Resultat 1: "<Gjerdrum likningskontor>"
"Gjerdrum likningskontor" subst noeyt prop "<Likningskontoret>" "likningskontor" subst noeyt prop be ent "<Universitetet i Oslo>" "Universitetet i Oslo" subst prop "<Rens Rå Timen>" "Rens Rå Timen" subst prop "<Rens På Timen>" "Rens På Timen" subst prop

20 Resultat 2: "<Den norske lægeforening>" "<Lægeforeningen>”
"Den norske lægeforening" subst prop "<Lægeforeningen>” "Lægeforeningen" subst prop "<Den norske lægeforening>”

21 What This Means Add a strong statement that summarizes how you feel or think about this topic Summarize key points you want your audience to remember

22 Next Steps Summarize any actions required of your audience
Summarize any follow up action items required of you


Laste ned ppt "Automatisk gjenkjenning av vanskelige navn"

Liknende presentasjoner


Annonser fra Google