Automatisk gjenkjenning av subjekt – og objektsfunksjon i norsk Problemstillinger ved forbedring av en morfosyntaktisk tagger Lilja Øvrelid, Universitetet i Oslo
Oslokorpuset og Oslo-Bergen taggeren 18, 5 millioner ord fra varierte skriftlige kilder. Tre genre: skjønnlitteratur (1.7 mill.), aviser/magasiner (9.6 mill.) og faglitteratur (6.9 mill.). Tagget med Oslo-Bergen taggeren Utviklet i samarbeid mellom Tekstlaboratoriet og HIT – senteret i Bergen. Skrevet i Constraint Grammar. En morfosyntaktisk tagger av løpende tekst.
Utfordringen – norsk ordstilling SVO, men med mulighet for OVS – topikalisering av objektet. Stort antall flertydigheter mellom subjekt- og objektsfunksjon i Oslokorpuset. (1) Jentasubj skrev brevetobj (2) Brevetobj skrev jentasubj
Reelt problem – eller? Svært få topikaliserte konstruksjoner med nominalt subjekt og objekt. Disambiguering ved pronomen og kasus: (5) Kaker baker jeg-nom også (6) Det gjorde han-nom egentlig ikke Men – trykksterke nominative pronomener i norsk: (7) Det omfatter deobj som bor her
Flertydigheter i Oslokorpuset "<Bull>" "Bull" subst prop @obj @subj "<boikotter>" "boikotte" verb pres tr1 @fv "<næringsmeldingen>" "næringsmelding" subst mask appell be ent @obj @subj
"<Økologiske>" "økologisk" adj pos fl @adj> "<egg>" "egg" subst noeyt appell ub fl @obj @subj "<har>" "ha" verb pres pa1 a6 d5 rl6 tr6 d6/til pa3 tr12 <aux1/perf_part> pa6 @fv "<Sølvi>" "Sølvi" subst fem prop @obj @subj "<fra>" "fra" prep @adv "<egne>" "egen" det <adj> fl forst @det> "<høner>" "høne" subst mask appell ub fl @<p-utfyll "høne" subst fem appell ub fl @<p-utfyll
"<Størst>" "stor" adj sup ub @adj> "<problem>" "problem" subst noeyt appell ub ent @obj @subj "<har>" "ha" verb pres pa1 a6 d5 rl6 tr6 d6/til pa3 tr12 <aux1/perf_part> pa6 @fv "<de>" "de" pron pers 3 fl nom @obj @subj "<som>" "som" sbu @<sbu-rel "<sitter>" "sitte" verb pres tr1 i2 pa1 pa4 a5 pa5 @fv "<der>" "der" prep @adv
Prominens og syntaktisk funksjon Prominenshierarkier fra typologisk lingvistikk: Animathet: Human > Animat > Inanimat Bestemthet: Pronomen > Egennavn > Bestemt NP > Ubestemt NP Syntaktisk funksjon: Subjekt > Ikke-subjekt (Objekt)
Prominens og syntaktisk funksjon Aissen (1999, 2000) – harmonic alignment av hierarkiene over. Prominente elementer på ett hierarki tiltrekker seg prominente elementer på andre hierarkier. Subjekter typisk animate, bestemte. Objekter typisk inanimate, ubestemte.
Teoretiske og praktiske problemstillinger Forholdet mellom subjekt og objekt i henhold til hierarkiene over? Hva med tilfeller der generaliseringen ikke holder stand? Hva kjennetegner disse? Kan 1) – 2) modelleres/forklares ved bruk av Optimalitetsteori? Hvordan kan innsikter fra 1) – 3) bidra til å forbedre taggerens prestasjon?
1. Forholdet mellom subjekt og objekt – animathet og bestemthet Svensk korpusundersøkelse: ”More than 97% of all transitive sentences obey the constraint that the subject should not be lower than the object in animacy.” Bare 1-2% av alle subjektene var ubestemte. (NB! Talespråkskorpus) (Dahl og Fraurud, 1996; Dahl, 1997)
2. Problemverb Avvik i animathet, men først og fremst i tematiske roller utdelt til argumentene. Agent > Benefactive > Exp > Theme > Loc Psyk - verb (Th - Exp), for eksempel interessere, more, forundre Theme – theme verb, for eksempel gjelde, vedrøre
Problemverbene og ordstilling En rekke språk: ”frysing” til kanonisk leddstilling ved verb med uvanlig linking av argumenter. Gjelder dette for norsk? Særlig psyk-verb viser en tendens mot dette: Eks. (8) Bilproduksjon interesserer Lusjkov (9) ?? Lusjkov interesserer bilproduksjon
3. OT-formalisering Ingen absolutt tendens – derfor passer bra med en grammatikk som en mengde føringer (constraints) som kan brytes.
4. Praktiske konsekvenser Trenger mer informasjon i leksikon: Animathet (og bestemthet) Seleksjonsrestriksjoner Argumentstruktur m/ tematiske roller
Seleksjonsrestriksjoner Verbets semantiske restriksjoner på argumentene Samspill med animathet og bestemthet SIMPLE – leksikonet angir bl.a. seleksjonsrestriksjoner, for 10 000 ord (verb og substantiv)
Argumentstruktur Taggerens leksikon er markert med koder fra NorKompleks - et leksikon av norske verb m/ argumentstruktur og tematiske roller arg_code(trans1,[arg1:su::ag::np,arg2:obj::th::np]). % Eks: mannen kjører en bil, mannen kjøpte en bil, mannen synger en sang
Topic og Fokus Diskursrelaterte begreper – ny vs. gitt informasjon Vanskelig å utlede automatisk Henger sammen med andre, mer leksikalske egenskaper, som for eksempel bestemthet
Navnegjenkjenning Å fastslå syntaktisk funksjon gir informasjon: Subjektet tiltrekker seg prominente elementer: Pronomen > Egennavn > Best NP > Ubest NP Subjektposisjon typisk posisjon for egennavn Subjektet ofte animat – person, dyr eller form for personifisering
Navnegjenkjenning Metonymisk bruk (10) Norge gleder seg etter seieren i OL
Navnegjenkjenning Identifisering av problemverb sier noe om egenskaper ved mulige argumenter (egennavn). Eks. person i objektposisjon ved psyk-verb (8) Bilproduksjon interesserer Lusjkov