Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Automatisk gjenkjenning av vanskelige navn n Janne Bondi Johannessen, Universitetet i Oslo n Paul Meurer, Universitetet i Bergen.

Liknende presentasjoner


Presentasjon om: "Automatisk gjenkjenning av vanskelige navn n Janne Bondi Johannessen, Universitetet i Oslo n Paul Meurer, Universitetet i Bergen."— Utskrift av presentasjonen:

1 Automatisk gjenkjenning av vanskelige navn n Janne Bondi Johannessen, Universitetet i Oslo n Paul Meurer, Universitetet i Bergen

2 Arbeidet inngår i to pågående prosjekter: n Oslo-Bergen-taggeren (forbedring og videreutvikling) n Nomen Nescio - En navnegjenkjenner for norsk, svensk og dansk (Samarbeid mellom UiO,UiB, GU, CST og Syddansk Universitet)

3 Innhold n Nomen Nescio n Gjenkjenning av lette navn n Gjenkjenning av vanskelige navn u Gjenkjenning av navn som består av fraser u Dokumentbaseringsmetoden F Navn først i setningen F Kortversjoner av navn n Implementeringi taggeren

4 Nomen Nescio n Mål: Sette riktig navnekategori på navn i løpende tekst n Navnekategorier: Person, sted, organisasjon, hendelse, verk, ting n Måter: u Regelbasert metode (Andra Björk Jonsdottir) u Statistisk metode: (Åsne Haaland)

5 Navns flertydighet (i): n Navnehomonymi: n Arthur Andersen, Jens Evensen, (person- eller firmanavn?) n Bondi, Asker, Guriby, Hanevold (person- eller stedsnavn?) n Odin (Guds- eller firmanavn?)

6 Navns flertydighet (ii): n Navnepolysemi: n Aftenposten (ting, verk, firma eller sted?) n Jeg kastet Aftenposten i søppelkassa. n Jeg leste i Aftenposten at det er krig i Afghanistan. n Jeg kjenner en som jobber i Aftenposten. n Jeg går forbi Aftenposten hver dag.

7 Gjenkjenning av lette navn: n I dag snør det. Snø er kaldt. Bjørn liker ikke snø. Kvist er det mye av t.v. Berg og fjell er typisk norsk. T.v. står Berg.

8 Oslo-Bergen-taggeren har gjettet riktig med ett unntak: n " " n "i" prep n " " n "snø" subst mask appell ub ent n " " n "Bjørn" subst mask prop n "bjørn" subst mask appell ub ent n " " n "kvist" subst mask appell ub ent n " " n "Berg" subst prop n " " n "t.v." fork adv n " " n "Berg" subst prop

9 Gjenkjenning av vanskelige navn: n Navn som består av fraser: n Navn som er nominalfraser - bare første bokstav er stor: n a. Den norske stat n b. Institutt for lingvistiske fag n c. Direktoratet for naturforvaltning n d. Det historisk-filosofiske fakultet n Navn som er nominalfraser - ett av leddene er et egennavn med stor bokstav: n a. Mjær ungdomsskole n b. Gjerdrum likningskontor og folkeregister n c. Hungerholt gruppebolig n d. Universitetet i Oslo n e. Sentralsykehuset i Akershus

10 n Navn som er nominalfraser - uforutsigbare store forbokstaver: n a. Karihaugen Lakk og Karosseri n b. Rens På Timen n c. Den norske Kirken n d. Kvebek Bygg og Fornyelse A/S

11 Navnemønstrene som regulære uttrykk (i) n Bestemte krav til rekkefølge, morfosyntaktisk kategori, og leksem: n Universitetet i Bergen: u Substantiv i bestemt form og stor bokstav - "i" - Egennavn n Den store oktoberrevolusjonen: u Determinativ med stor bokstav - (adjektiv(er)) - substantiv n Store Norske kullkompani: u ((Adjektiv)er med stor bokstav) - substantiv

12 Navnemønstrene som regulære uttrykk (ii) n Tåsen barnehage, Tåsen senter- og periferibarnehage, Bærum herredsrett: F Egennavn - (Adjektiv(er)) - (substantiv - "og") - "*barnehage", "*råd", "*kontor", "*rett"..., n Anne Grete Jensen: u Egennavn - (Egennavn(pl)) n Bærum Ved og Brensel A/S: u Egennavn - Egennavn - "og" - Substantiv med stor bokstav - ("A/S", "AS")

13 Dokumentbaserings metoden n McDonald (1996) n Mikheev et al (1999, 2000…)

14 Gjenkjenning av frasenavn først i setningen n Hvordan vite hva som er navn? u Den lille jenta tenkte. Den norske kirkes ritualer var ganske tiltalende. u Den lille jenta tenkte. Den norske kirkes ritualer var ganske tiltalende. Kanskje hun skulle melde seg inn i Den norske kirke?

15 Gjenkjenning av kortversjoner av frasenavn n Den norske Lægeforening Lægeforeningen n De store oktoberrevolusjonen Oktoberrevolusjonen n Store Norske Kullkompani Kullkompaniet n Norsk sykepleierforbund Sykepleierforbundet

16 Konteksten hjelper n Petra er medlem i Den norske Lægeforening. Hun vil gjerne melde seg ut. Lægeforeningen gjør ikke nok for de svakeste i samfunnet.

17 Prøvetekst n "Her er Gjerdrum likningskontor. Likningskontoret ligger rett ved Universitetet i Oslo. Rens På Timen er også i nærheten. Jeg liker Rens På Timen. Den norske lægeforening har mange medlemmer. Men Lægeforeningen er ikke så aktiv. Jeg synes Den norske lægeforening snart bør bli mer aktiv."

18 Web-grensesnitt n.n.

19 Resultat 1: n " " n "Gjerdrum likningskontor" subst noeyt prop n " " n "likningskontor" subst noeyt prop be ent n " " n "Universitetet i Oslo" subst prop n " " n "Rens Rå Timen" subst prop n " " n "Rens På Timen" subst prop

20 Resultat 2: n " " F "Den norske lægeforening" subst prop n " ” F "Lægeforeningen" subst prop n " ” F "Den norske lægeforening" subst prop

21 What This Means n Add a strong statement that summarizes how you feel or think about this topic n Summarize key points you want your audience to remember

22 Next Steps n Summarize any actions required of your audience n Summarize any follow up action items required of you


Laste ned ppt "Automatisk gjenkjenning av vanskelige navn n Janne Bondi Johannessen, Universitetet i Oslo n Paul Meurer, Universitetet i Bergen."

Liknende presentasjoner


Annonser fra Google