UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning for norsk med Constraint Grammar (CG) Andra Björk Jónsdóttir og Kristin Hagen Tekstlaboratoriet.

Slides:



Advertisements
Liknende presentasjoner
Oppfølging og vurdering som grunnlag for læring
Advertisements

Automatisk gjenkjenning av vanskelige navn
Dine sterke sider – slik andre ser dem
Workshop 8. februar 2013 Nye nettsider Maria og Martin.
Norges Rytterforbund. Hva er klubbutvikling? •Klubbutvikling defineres som alle tiltak (utdanning, kurs, aktiviteter, dialoger osv) som bidrar til å føre.
Kapittel 6 oppgave a) Fra presens til 2. kondisjonalis
Janne Bondi Johannessen Tekstlaboratoriet Universitetet i Oslo
¡A golpe de periódico! Svein Erik Svendsen Høgskolelektor © Lenguasol.
Fremgangsmåte for å bruke T-DOC Web-modul Trondheim, 10. juni 2010
Automatisk gjenkjenning av subjekt – og objektsfunksjon i norsk
Fra læreplanen i norsk:
Gøy med grammatikk Kurs på Elvebakken vgs 12. 2
Grammatikkspill for elever på Internett - bokmål og nynorsk
Språksystem og språkbruk
Leddenes semantiske roller
FAHQUMT (Fully Automatic, High Quality, Unrestricted Machine Translation)
LocMoc : Avatar 3D – Visualisering av menneskelige bevegelser ved bruk av Java og Coin3D. En presentasjon av: Øivind Hoff Johansen og Jon Kåre Sørensen.
“Metonymi i orddannelse: russisk, tsjekkisk og norsk”
Oslo kommune Utdanningsetaten Skolens navn settes inn her.
Stortinget Landets lovgivende forsamling
Ett skritt foran 2 © Irène Johansson 1 På-vei-mot setninger der handlingen er det sentrale På-vei-mot setninger der handlingen er det sentrale Kursmøte.
Universitetsbiblioteket i Oslo e-ressurser Studenter og ansatte med uio brukernavn og passord kan søke UBO’s e-ressurser også fra Roma Denne presentasjonen.
GØY MED GRAMMATIKK: KURS FOR LÆRERE 1. og 2. MARS 2004
STRÅLEFYSIKK - STRÅLEVERN VEKSELVIRKNINGER - Introduksjon
The Oslo-Bergen Tagger OBT+stat - a short presentation André Lynum, Kristin Hagen, Janne Bondi Johannessen and Anders Nøklestad.
Digitale mapper i førstelektorkvalifisering Helge Høivik & Vibeke Bjarnø Førstelektorprogrammet, Høgskolen i Oslo Arbeidsseminar: Digitale mapper i høgre.
Kristine Angell, Kristine Gjelstad, Martine Haug og Renate Heyn.
Ordklasser Inndelingen
Innvandrere og deres barn i Groruddalen og Søndre Nordstrand - Hvem er de og hvordan går det med dem? Foredrag ved konferansen ”Det nye VI” 13. Januar.
Vedlegg 1 kompetanseveileder
Java 5 Litt mer om løkker Arrayer Metoder Ole Christian Lingjærde
Kartlegging av oppfatninger om trygghet ved transport Rune Elvik & Torkel Bjørnskau Transportøkonomisk institutt Programseminar RISIT 1-2. Oktober 2003,
Høgskolen i Oslo Entreprenørskap/ studentbedrift Ellen Sethov Avdeling for estetiske fag Høgskolen i Oslo.
© Olav Torvund - INSTITUTT FOR RETTSINFORMATIKK UNIVERSITETET I OSLO Rettigheter til programmer Informasjonsrett.
DRI1001 h06 - Arild Jansen 1 Datasystemer og informasjonssystemer Veiledning til 1. obligatorisk oppgave Et datasystem kan defineres som [Ande89]: “Et.
Presentasjon av familien til Johanne
Kapittel 6 Kveldsmat hos familien Dalilah.
18. august 2003 HLED1101 Innføring i helseledelse og organisering Forelesning 1: Hovedtrekkene i helsesektorens organisering Terje P. Hagen Senter for.
Inf1000 (Uke 5) Arrayer, filer og tekst
Språktrekk i fagtekster LUT, Setningsstruktur  Enklere oppbygning  Ny informasjon presenteres til høyre i setningen  Presenteringer med ”Det..”
Nynorsk fagskriving Orden i teksta.
Morfologi – formlære - ord
ETTERUTDANNING TØNSBERGBARNEHAGENE
STEDSPREPOSISJONER 1) PÅ ET STED:
Et godt tre bærer god frukt, et dårlig tre bærer dårlig frukt. Matt. 7,17 Hva tenker vi om Molde menighet?
Kapittel 6 Kveldsmat hos familien Dalilah.
Janne Bondi Johannessen Tekstlaboratoriet Universitetet i Oslo
PREPOSISJONER.
Verb PRESENS PERFEKTUM.
© Olav Torvund - SENTER FOR RETTSINFORMATIKK UNIVERSITETET I OSLO Ulike former for ytring.
Infinitiv: er den UBESTEMTE tiden. Vi kan sette Å foran verb som står i infinitiv. Å si Det var en vakker vårdag, at lærer`n sa til klassen: Å jobbe Nå.
Mobbing Handler om gjentatt fysisk eller psykisk plaging, enten i form av åpne angrep eller utfrysing.
All informasjon om profilen er samlet i en Profilmanual på nett. UiBs visuelle profil er enkel, anvendelig og fleksibel! En visuell profil får kun effekt.
SUBSTANTIV Mål: Kunne forklare hva et substantiv er.
Grammatikk. Ordklassene 1.Verb 2.Substantiv 3.Adjektiver 4.Pronomen 5.Determinativ 6.Preposisjoner 7.Konjunksjoner 8.Subjunksjoner 9.Interjeksjoner 10.Adverb.
© Inklusion – En guide til inkluderende praksis i skolen Kristina Rosenkrands Petersen Hans Reitzels Forlag 2014.
| Å argumentere å skrive argumenterende tekst. Å komme i gang Bestem tema Finn informasjon om saken. Se en film, let på Internett, les i aviser, fagbøker.
Denne informasjonen gjelder for
En dag på Fagersjø skole
Kapittel 31 Melissas utdanning og ønsker for framtiden
Kapittel 1: Hei!.
Norsk Grammatikk .
Gøy med grammatikk Kurs på Elvebakken vgs 12. 2
Definisjonsoppgave Definer begrepet TEORI
Handle klær og skiutstyr– å like / ikke like
Janne Bondi Johannessen Tekstlaboratoriet Universitetet i Oslo
Oppgave 6 a) Fra presens til 2. kondisjonalis
Sett inn de refleksive verbene i riktig tid/form.
Osloskolen Oslo VO Rosenhof Kurs 2
For, While, prosedyrer m/ parametere, funskjoner
Utskrift av presentasjonen:

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning for norsk med Constraint Grammar (CG) Andra Björk Jónsdóttir og Kristin Hagen Tekstlaboratoriet Universitetet i Oslo

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning med Oslo-Bergen-taggeren Modell over systemet Leksikon og navnelister Suffiksmodul for navn Sammenslåing av navn ved syntaktisk disambiguering Sammenslåing av navn ved regulære uttrykk og dokumentmetoden Navnedisambiguering med CG Navnedisambiguering med dokumentmetoden Vegen videre

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning med Oslo-Bergen-taggeren Modell over systemet Leksikon og navnelister Suffiksmodul for navn Sammenslåing av navn ved syntaktisk disambiguering Sammenslåing av navn ved regulære uttrykk og dokumentmetoden Navnedisambiguering med CG Navnedisambiguering med dokumentmetoden Vegen videre

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 LeksikonNavnelister ord- og setningsgrenser multitagging suffiksmodul morfologisk og syntaktisk disambiguering Regulære uttrykk Navnedisambiguering med CG Token-minne Navnedisambiguering med dokumentmetoden Modell over systemet

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning med Oslo-Bergen-taggeren Modell over systemet Leksikon og navnelister Suffiksmodul for navn Sammenslåing av navn ved syntaktisk disambiguering Sammenslåing av navn ved regulære uttrykk og dokumentmetoden Navnedisambiguering med CG Navnedisambiguering med dokumentmetoden Vegen videre

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Leksikon og navnelister Navnelister legges til ved siden av leksikon Navnene har tilleggsinformasjon om navnekategorier som man kan velge å benytte i navnedisambigueringen: ” ” ”Hustad” subst prop ” ” ”Heidi” subst fem prop ” ” ”Aftenposten” subst prop Modulen er nesten ferdigutviklet

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning med Oslo-Bergen-taggeren Modell over systemet Leksikon og navnelister Suffiksmodul for navn Sammenslåing av navn ved syntaktisk disambiguering Sammenslåing av navn ved regulære uttrykk og dokumentmetoden Navnedisambiguering med CG Navnedisambiguering med dokumentmetoden Vegen videre

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Suffiksmodul (1) Ikke mulig å se inn i ord i CG Modul som leter etter bestemte suffikser og returnerer dem som tagger som er synlige for CG-reglene Skjer etter multitagging

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Suffiksmodul (2) Eksempler på suffikser som kan være nyttig å ha tilgang til: " "handelsminister" subst mask appell ub ent " ”Kolstad kirke" subst prop (e.g. landsby, grenseby, storby osv.)

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Suffiksmodul (3) " "det" pron pers 3 noeyt ent "det" det dem noeyt ent " "være" verb pres a5 pr1 pr2 " "utenriksminister" subst mask appell ub ent " "Jan" subst mask prop " "Petersen" subst prop " "$." clb <<<

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning med Oslo-Bergen-taggeren Modell over systemet Leksikon og navnelister Suffiksmodul for navn Sammenslåing av navn ved syntaktisk disambiguering Sammenslåing av navn ved regulære uttrykk og dokumentmetoden Navnedisambiguering med CG Navnedisambiguering med dokumentmetoden Vegen videre

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Syntaktisk disambiguering (1) Syntaktiske regler for å avgjøre hvilke navn som hører sammen: I dag så  I dag så Eller Torsdag gav dokumentene

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Syntaktisk disambiguering (2) " "i" " " ! "dag" subst mask appell ub " "se" verb pret tr1 tr11 tr2 tr11/til tr3 pa2 pa5 " "Kari" subst fem " "Hansen" subst " " PCT "$." clb <<<

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Syntaktisk disambiguering (3) til navn som hører sammen med neste navn " "i" " "dag" subst mask appell ub " "se" verb pret tr1 tr11 tr2 tr11/til tr3 pa2 pa5 " "Kari" subst fem " "Hansen" subst "<Per "Per" subst mask " "Nilsen" subst " "$." clb <<<

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning med Oslo-Bergen-taggeren Modell over systemet Leksikon og navnelister Suffiksmodul for navn Sammenslåing av navn ved syntaktisk disambiguering Sammenslåing av navn ved regulære uttrykk og dokumentmetoden Navnedisambiguering med CG Navnedisambiguering med dokumentmetoden Vegen videre

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 " "i" " "dag" subst mask appell ub " "se" verb pret tr1 tr11 tr2 tr11/til tr3 pa2 pa5 " "Kari Hansen" subst " "Per Nilsen" subst " "$." clb <<< Sammenslåing av navn (1)

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Gjenkjenner faste mønster for komplekse egennavn " "han" pron pers 3 mask ent hum " "jobbe" verb pret tr1 i1 " "ved" " " "Universitetet i Oslo" subst prop " Sammenslåing av navn (2) ved regulære uttrykk

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Sammenslåing av navn (3) ved dokumentmetoden Benytter global kontekst Kan se både framover og bakover i dokumentet Slår sammen komplekse egennavn i førsteposisjon som er gjenkjent tidligere. Gjenkjenner egennavn som kan forekomme i ulik form i samme tekst/dokument Den norske legeforeningen vs. Legeforeningen Universitetet i Oslo vs. Universitetet

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Sen og sur sensur ved Universitetet i Oslo Det er en selvfølge at studenter leverer sine eksamensbesvarelser i tide. Og det er en selvfølge at de som søker en jobb de har lyst på leverer søknaden med relevante attester og karakterutskrifter innen fristen. Universitetet derimot ser tilsynelatende ut til å ha et mer liberalt forhold til det å overholde frister. Universitas 22. Januar 2003 Sammenslåing av navn (4) ved dokumentmetoden

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning med Oslo-Bergen-taggeren Modell over systemet Leksikon og navnelister Suffiksmodul for navn Sammenslåing av navn ved syntaktisk disambiguering Sammenslåing av navn ved regulære uttrykk og dokumentmetoden Navnedisambiguering med CG Navnedisambiguering med dokumentmetoden Vegen videre

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnedisambiguering med CG (1) Ordmengder for å simulere semantikk Bruke suffiksene Bruke navnelistene

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnedisambiguering med CG (2) Ordmengder for å simulere semantikk Hvordan finne ordmengder? SIMPLE-leksikonet Egen intuisjon Korpussøk Mønstergjenkjenning

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnedisambiguering med CG (3) Ordmengder for å simulere semantikk Benytte seg av verbs seleksjonsrestriksjoner: Visse verb krever et levende subjekt:  ”spise”, ”føle”, ”lukte” Kari (&person) spiser en bolle. Krav om at organisasjon eller person er subjekt:  ”sier”, ”skriver”, ”hevder” Kari (&person) hevder dette. USA (&org) hevder at krig er eneste utveg. Aftenposten (&org) skriver dette.

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnedisambiguering med CG (4) Ordmengder for å simulere semantikk Benytte seg av verbs seleksjonsrestriksjoner pluss andre ordmengder: Kombinasjonen av visse verb med visse substantivmengder :  &person + ”skrive” + + &verk Jon (&person) skrev boken Høyfjellsfeber (&verk).  + ”til”/”fra” + Jeg kommer fra Italia (&sted) Hun flyktet fra Island (&sted)

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnedisambiguering med CG (5) Bruke suffiksene Entydiggjøre der subjektet kan være enten &org eller &person: Bruke &org-suffiks som,,  Kirkerådet (&org) sier i en uttalelse at …  Norske kvinners sanitetsforening (&org) hevder at det ikke er slik Bruke &person-suffiks som,,  Kari Johanson (&person) sier i en uttalelse at …  Stig Pålsen (&person) hevder at det ikke er slik

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnedisambiguering med CG (6) Bruke suffiksene Suffikser som nøkkelord Bruke visse suffikser foran egennavn:  + &person Utenriksminister Gerdur Sigurdardottir (&person)…

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnedisambiguering med CG (7) Bruke navnelistene Katogoritagger gitt fra navnelister er ikke avgjørende for kategoriseringen, men en hjelp (hint). ”Heidi” finnes i navnelisten med taggen, men tagges likevel som &verk i denne konteksten:  Barneboken Heidi (&verk) var en suksess. " "barnebok" subst mask appell " "Heidi" subst fem &verk " "være" verb pret a5 pr1 " "en" det kvant mask " "suksess" subst mask appell " "

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnedisambiguering med CG (8) Bruke navnelistene CG-regler som bruker kategorienene fra navnelistene som hjelp: Navn merket med i navnelistene:  + ”til”/”fra” + Jeg kommer fra Italia (&sted) Hun flyktet fra Island (&sted)

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnedisambiguering med CG (9) Bruke navnelistene Til slutt får navn som står i uspesifisert kontekst navnekategorien gitt i navnelista  Heidi Vi snakket om Heidi (&person)  Roma Vi snakket om Roma (&sted)

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning med Oslo-Bergen-taggeren Modell over systemet Leksikon og navnelister Suffiksmodul for navn Sammenslåing av navn ved syntaktisk disambiguering Sammenslåing av navn ved regulære uttrykk og dokumentmetoden Navnedisambiguering med CG Navnedisambiguering med dokumentmetoden Vegen videre

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Dokumentmetoden (1) Bruke dokumentmetoden til navnedisambiguering etter at CG- reglene er kjørt  Utenriksminister Knut Vollebæk (&person) har reist til Italia. Men Vollebæk ( &person &sted &org &verk &hend &annet) kommer tilbake i mai.  Utenriksminister Knut Vollebæk (&person) har reist til Italia. Men Vollebæk ( &person) kommer tilbake i mai.

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Dokumentmetoden (2) " "utenriksminister" subst mask appell ub " "Knut Volleb æ k" subst &person " "ha" verb pres pa1 a6 d5 rl6 tr6 d6/til pa3 tr12 " "reise" verb perf-part i1 a3 "reise" verb perf-part tr1 rl4 pa1 " "til" * " "Italia" subst &sted " "$." clb <<<

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Dokumentmetoden (3) " "men" konj * " " PN "Volleb æ k" subst &person " "komme" verb pres i1 i2 tr11 a3 rl5 pa4 a4 pa5 rl15 tr12 tr21 " "tilbake" " "i" " "mai" subst mask appell " "$." clb <<<

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning med Oslo-Bergen-taggeren Modell over systemet Leksikon og navnelister Suffiksmodul for navn Sammenslåing av navn ved syntaktisk disambiguering Sammenslåing av navn ved regulære uttrykk og dokumentmetoden Navnedisambiguering med CG Navnedisambiguering med dokumentmetoden Vegen videre

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Vegen videre Videreutvikle navnelister Lage flere ordmengder som simulerer semantikk Skrive flere CG-regler, som bl.a Bruker navnelister Bruker suffikser Bruker semantiske ordmengder Eksperimentere med dokumentmetoden - med og uten statistikk Evaluering av systemet

UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Adresse til Oslo-Bergen-taggeren