Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning for norsk med Constraint Grammar (CG) Andra Björk Jónsdóttir og Kristin Hagen Tekstlaboratoriet.

Liknende presentasjoner


Presentasjon om: "UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning for norsk med Constraint Grammar (CG) Andra Björk Jónsdóttir og Kristin Hagen Tekstlaboratoriet."— Utskrift av presentasjonen:

1 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning for norsk med Constraint Grammar (CG) Andra Björk Jónsdóttir og Kristin Hagen Tekstlaboratoriet Universitetet i Oslo

2 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning med Oslo-Bergen-taggeren Modell over systemet Leksikon og navnelister Suffiksmodul for navn Sammenslåing av navn ved syntaktisk disambiguering Sammenslåing av navn ved regulære uttrykk og dokumentmetoden Navnedisambiguering med CG Navnedisambiguering med dokumentmetoden Vegen videre

3 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning med Oslo-Bergen-taggeren Modell over systemet Leksikon og navnelister Suffiksmodul for navn Sammenslåing av navn ved syntaktisk disambiguering Sammenslåing av navn ved regulære uttrykk og dokumentmetoden Navnedisambiguering med CG Navnedisambiguering med dokumentmetoden Vegen videre

4 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 LeksikonNavnelister ord- og setningsgrenser multitagging suffiksmodul morfologisk og syntaktisk disambiguering Regulære uttrykk Navnedisambiguering med CG Token-minne Navnedisambiguering med dokumentmetoden Modell over systemet

5 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning med Oslo-Bergen-taggeren Modell over systemet Leksikon og navnelister Suffiksmodul for navn Sammenslåing av navn ved syntaktisk disambiguering Sammenslåing av navn ved regulære uttrykk og dokumentmetoden Navnedisambiguering med CG Navnedisambiguering med dokumentmetoden Vegen videre

6 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Leksikon og navnelister Navnelister legges til ved siden av leksikon Navnene har tilleggsinformasjon om navnekategorier som man kan velge å benytte i navnedisambigueringen: ” ” ”Hustad” subst prop ” ” ”Heidi” subst fem prop ” ” ”Aftenposten” subst prop Modulen er nesten ferdigutviklet

7 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning med Oslo-Bergen-taggeren Modell over systemet Leksikon og navnelister Suffiksmodul for navn Sammenslåing av navn ved syntaktisk disambiguering Sammenslåing av navn ved regulære uttrykk og dokumentmetoden Navnedisambiguering med CG Navnedisambiguering med dokumentmetoden Vegen videre

8 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Suffiksmodul (1) Ikke mulig å se inn i ord i CG Modul som leter etter bestemte suffikser og returnerer dem som tagger som er synlige for CG-reglene Skjer etter multitagging

9 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Suffiksmodul (2) Eksempler på suffikser som kan være nyttig å ha tilgang til: " "handelsminister" subst mask appell ub ent " ”Kolstad kirke" subst prop (e.g. landsby, grenseby, storby osv.)

10 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Suffiksmodul (3) " "det" pron pers 3 noeyt ent "det" det dem noeyt ent " "være" verb pres a5 pr1 pr2 " "utenriksminister" subst mask appell ub ent " "Jan" subst mask prop " "Petersen" subst prop " "$." clb <<<

11 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning med Oslo-Bergen-taggeren Modell over systemet Leksikon og navnelister Suffiksmodul for navn Sammenslåing av navn ved syntaktisk disambiguering Sammenslåing av navn ved regulære uttrykk og dokumentmetoden Navnedisambiguering med CG Navnedisambiguering med dokumentmetoden Vegen videre

12 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Syntaktisk disambiguering (1) Syntaktiske regler for å avgjøre hvilke navn som hører sammen: I dag så  I dag så Eller Torsdag gav dokumentene

13 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Syntaktisk disambiguering (2) " "i" prep @adv " " ! "dag" subst mask appell ub ent @<p-utfyll " "se" verb pret tr1 tr11 tr2 tr11/til tr3 pa2 pa5 tr4 @fv " "Kari" subst fem prop @subj " "Hansen" subst prop @obj " " PCT "$." clb <<<

14 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Syntaktisk disambiguering (3) Gir @subst>-tagg til navn som hører sammen med neste navn " "i" prep @adv " "dag" subst mask appell ub ent @<p-utfyll " "se" verb pret tr1 tr11 tr2 tr11/til tr3 pa2 pa5 tr4 @fv " "Kari" subst fem prop @subst> " "Hansen" subst prop @subj "<Per "Per" subst mask prop @subst> " "Nilsen" subst prop @obj " "$." clb <<<

15 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning med Oslo-Bergen-taggeren Modell over systemet Leksikon og navnelister Suffiksmodul for navn Sammenslåing av navn ved syntaktisk disambiguering Sammenslåing av navn ved regulære uttrykk og dokumentmetoden Navnedisambiguering med CG Navnedisambiguering med dokumentmetoden Vegen videre

16 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 " "i" prep @adv " "dag" subst mask appell ub ent @<p-utfyll " "se" verb pret tr1 tr11 tr2 tr11/til tr3 pa2 pa5 tr4 @fv " "Kari Hansen" subst prop @subj " "Per Nilsen" subst prop @obj " "$." clb <<< Sammenslåing av navn (1)

17 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Gjenkjenner faste mønster for komplekse egennavn " "han" pron pers 3 mask ent hum nom @subj " "jobbe" verb pret tr1 i1 pr13 @fv " "ved" prep @adv " " "Universitetet i Oslo" subst prop " Sammenslåing av navn (2) ved regulære uttrykk

18 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Sammenslåing av navn (3) ved dokumentmetoden Benytter global kontekst Kan se både framover og bakover i dokumentet Slår sammen komplekse egennavn i førsteposisjon som er gjenkjent tidligere. Gjenkjenner egennavn som kan forekomme i ulik form i samme tekst/dokument Den norske legeforeningen vs. Legeforeningen Universitetet i Oslo vs. Universitetet

19 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Sen og sur sensur ved Universitetet i Oslo Det er en selvfølge at studenter leverer sine eksamensbesvarelser i tide. Og det er en selvfølge at de som søker en jobb de har lyst på leverer søknaden med relevante attester og karakterutskrifter innen fristen. Universitetet derimot ser tilsynelatende ut til å ha et mer liberalt forhold til det å overholde frister. Universitas 22. Januar 2003 Sammenslåing av navn (4) ved dokumentmetoden

20 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning med Oslo-Bergen-taggeren Modell over systemet Leksikon og navnelister Suffiksmodul for navn Sammenslåing av navn ved syntaktisk disambiguering Sammenslåing av navn ved regulære uttrykk og dokumentmetoden Navnedisambiguering med CG Navnedisambiguering med dokumentmetoden Vegen videre

21 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnedisambiguering med CG (1) Ordmengder for å simulere semantikk Bruke suffiksene Bruke navnelistene

22 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnedisambiguering med CG (2) Ordmengder for å simulere semantikk Hvordan finne ordmengder? SIMPLE-leksikonet Egen intuisjon Korpussøk Mønstergjenkjenning

23 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnedisambiguering med CG (3) Ordmengder for å simulere semantikk Benytte seg av verbs seleksjonsrestriksjoner: Visse verb krever et levende subjekt:  ”spise”, ”føle”, ”lukte” Kari (&person) spiser en bolle. Krav om at organisasjon eller person er subjekt:  ”sier”, ”skriver”, ”hevder” Kari (&person) hevder dette. USA (&org) hevder at krig er eneste utveg. Aftenposten (&org) skriver dette.

24 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnedisambiguering med CG (4) Ordmengder for å simulere semantikk Benytte seg av verbs seleksjonsrestriksjoner pluss andre ordmengder: Kombinasjonen av visse verb med visse substantivmengder :  &person + ”skrive” + + &verk Jon (&person) skrev boken Høyfjellsfeber (&verk).  + ”til”/”fra” + Jeg kommer fra Italia (&sted) Hun flyktet fra Island (&sted)

25 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnedisambiguering med CG (5) Bruke suffiksene Entydiggjøre der subjektet kan være enten &org eller &person: Bruke &org-suffiks som,,  Kirkerådet (&org) sier i en uttalelse at …  Norske kvinners sanitetsforening (&org) hevder at det ikke er slik Bruke &person-suffiks som,,  Kari Johanson (&person) sier i en uttalelse at …  Stig Pålsen (&person) hevder at det ikke er slik

26 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnedisambiguering med CG (6) Bruke suffiksene Suffikser som nøkkelord Bruke visse suffikser foran egennavn:  + &person Utenriksminister Gerdur Sigurdardottir (&person)…

27 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnedisambiguering med CG (7) Bruke navnelistene Katogoritagger gitt fra navnelister er ikke avgjørende for kategoriseringen, men en hjelp (hint). ”Heidi” finnes i navnelisten med taggen, men tagges likevel som &verk i denne konteksten:  Barneboken Heidi (&verk) var en suksess. " "barnebok" subst mask appell be ent @subj @s-pred " "Heidi" subst fem prop @app &verk " "være" verb pret a5 pr1 pr2 @fv " "en" det kvant mask ent @det> " "suksess" subst mask appell ub ent @subj @s-pred " "

28 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnedisambiguering med CG (8) Bruke navnelistene CG-regler som bruker kategorienene fra navnelistene som hjelp: Navn merket med i navnelistene:  + ”til”/”fra” + Jeg kommer fra Italia (&sted) Hun flyktet fra Island (&sted)

29 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnedisambiguering med CG (9) Bruke navnelistene Til slutt får navn som står i uspesifisert kontekst navnekategorien gitt i navnelista  Heidi Vi snakket om Heidi (&person)  Roma Vi snakket om Roma (&sted)

30 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning med Oslo-Bergen-taggeren Modell over systemet Leksikon og navnelister Suffiksmodul for navn Sammenslåing av navn ved syntaktisk disambiguering Sammenslåing av navn ved regulære uttrykk og dokumentmetoden Navnedisambiguering med CG Navnedisambiguering med dokumentmetoden Vegen videre

31 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Dokumentmetoden (1) Bruke dokumentmetoden til navnedisambiguering etter at CG- reglene er kjørt  Utenriksminister Knut Vollebæk (&person) har reist til Italia. Men Vollebæk ( &person &sted &org &verk &hend &annet) kommer tilbake i mai.  Utenriksminister Knut Vollebæk (&person) har reist til Italia. Men Vollebæk ( &person) kommer tilbake i mai.

32 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Dokumentmetoden (2) " "utenriksminister" subst mask appell ub ent @tittel " "Knut Volleb æ k" subst prop @subj &person " "ha" verb pres pa1 a6 d5 rl6 tr6 d6/til pa3 tr12 pa6 @fv " "reise" verb perf-part i1 a3 pa5 @iv "reise" verb perf-part tr1 rl4 pa1 pa2 @iv " "til" prep @adv * " "Italia" subst prop @<p-utfyll &sted " "$." clb <<<

33 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Dokumentmetoden (3) " "men" konj clb @kon * " " PN "Volleb æ k" subst prop @subj &person " "komme" verb pres i1 i2 tr11 a3 rl5 pa4 a4 pa5 rl15 tr12 tr21 tr22 @fv " "tilbake" prep @adv " "i" prep @adv " "mai" subst mask appell uboey @<p-utfyll " "$." clb <<<

34 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning med Oslo-Bergen-taggeren Modell over systemet Leksikon og navnelister Suffiksmodul for navn Sammenslåing av navn ved syntaktisk disambiguering Sammenslåing av navn ved regulære uttrykk og dokumentmetoden Navnedisambiguering med CG Navnedisambiguering med dokumentmetoden Vegen videre

35 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Vegen videre Videreutvikle navnelister Lage flere ordmengder som simulerer semantikk Skrive flere CG-regler, som bl.a Bruker navnelister Bruker suffikser Bruker semantiske ordmengder Eksperimentere med dokumentmetoden - med og uten statistikk Evaluering av systemet

36 UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Adresse til Oslo-Bergen-taggeren http://decentius.hit.uib.no:8005/cl/cgp/site-map.html


Laste ned ppt "UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning for norsk med Constraint Grammar (CG) Andra Björk Jónsdóttir og Kristin Hagen Tekstlaboratoriet."

Liknende presentasjoner


Annonser fra Google