Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Lilja Øvrelid, Universitetet i Oslo Automatisk gjenkjenning av subjekt – og objektsfunksjon i norsk Problemstillinger ved forbedring av en morfosyntaktisk.

Liknende presentasjoner


Presentasjon om: "Lilja Øvrelid, Universitetet i Oslo Automatisk gjenkjenning av subjekt – og objektsfunksjon i norsk Problemstillinger ved forbedring av en morfosyntaktisk."— Utskrift av presentasjonen:

1 Lilja Øvrelid, Universitetet i Oslo Automatisk gjenkjenning av subjekt – og objektsfunksjon i norsk Problemstillinger ved forbedring av en morfosyntaktisk tagger

2 Oslokorpuset og Oslo-Bergen taggeren 18, 5 millioner ord fra varierte skriftlige kilder. Tre genre: skj ø nnlitteratur (1.7 mill.), aviser/magasiner (9.6 mill.) og faglitteratur (6.9 mill.). Tagget med Oslo- Bergen taggeren Utviklet i samarbeid mellom Tekstlaboratoriet og HIT – senteret i Bergen. Skrevet i Constraint Grammar. En morfosyntaktisk tagger av l ø pende tekst.

3 Utfordringen – norsk ordstilling - SVO, men med mulighet for OVS – topikalisering av objektet. - Stort antall flertydigheter mellom subjekt- og objektsfunksjon i Oslokorpuset. (1) Jenta subj skrev brevet obj (2) Brevet obj skrev jenta subj

4 Reelt problem – eller? Sv æ rt f å topikaliserte konstruksjoner med nominalt subjekt og objekt. Disambiguering ved pronomen og kasus: (5) Kaker baker jeg-nom ogs å (6) Det gjorde han-nom egentlig ikke Men – trykksterke nominative pronomener i norsk: (7) Det omfatter de obj som bor her

5 " "Bull" subst prop @obj @subj " "boikotte" verb pres tr1 @fv " "n æ ringsmelding" subst mask appell be ent @obj @subj Flertydigheter i Oslokorpuset

6 " " ø kologisk" adj pos fl @adj> " "egg" subst noeyt appell ub fl @obj @subj " "ha" verb pres pa1 a6 d5 rl6 tr6 d6/til pa3 tr12 pa6 @fv " "S ø lvi" subst fem prop @obj @subj " "fra" prep @adv " "egen" det fl forst @det> " "h ø ne" subst mask appell ub fl @ { "@context": "http://schema.org", "@type": "ImageObject", "contentUrl": "http://images.slideplayer.no/8/2075313/slides/slide_6.jpg", "name": "ø kologisk adj pos fl @adj> egg subst noeyt appell ub fl @obj @subj ha verb pres pa1 a6 d5 rl6 tr6 d6/til pa3 tr12 pa6 @fv S ø lvi subst fem prop @obj @subj fra prep @adv egen det fl forst @det> h ø ne subst mask appell ub fl @ egg subst noeyt appell ub fl @obj @subj ha verb pres pa1 a6 d5 rl6 tr6 d6/til pa3 tr12 pa6 @fv S ø lvi subst fem prop @obj @subj fra prep @adv egen det fl forst @det> h ø ne subst mask appell ub fl @

7 " "stor" adj sup ub @adj> " "problem" subst noeyt appell ub ent @obj @subj " "ha" verb pres pa1 a6 d5 rl6 tr6 d6/til pa3 tr12 pa6 @fv " "de" pron pers 3 fl nom @obj @subj " "som" sbu @ { "@context": "http://schema.org", "@type": "ImageObject", "contentUrl": "http://images.slideplayer.no/8/2075313/slides/slide_7.jpg", "name": "stor adj sup ub @adj> problem subst noeyt appell ub ent @obj @subj ha verb pres pa1 a6 d5 rl6 tr6 d6/til pa3 tr12 pa6 @fv de pron pers 3 fl nom @obj @subj som sbu @ problem subst noeyt appell ub ent @obj @subj ha verb pres pa1 a6 d5 rl6 tr6 d6/til pa3 tr12 pa6 @fv de pron pers 3 fl nom @obj @subj som sbu @

8 Prominens og syntaktisk funksjon Prominenshierarkier fra typologisk lingvistikk: 1. Animathet: Human > Animat > Inanimat 2. Bestemthet: Pronomen > Egennavn > Bestemt NP > Ubestemt NP 3. Syntaktisk funksjon: Subjekt > Ikke-subjekt (Objekt)

9 Prominens og syntaktisk funksjon Aissen (1999, 2000) – harmonic alignment av hierarkiene over. Prominente elementer p å ett hierarki tiltrekker seg prominente elementer p å andre hierarkier. Subjekter typisk animate, bestemte. Objekter typisk inanimate, ubestemte.

10 1.Forholdet mellom subjekt og objekt i henhold til hierarkiene over? 2.Hva med tilfeller der generaliseringen ikke holder stand? Hva kjennetegner disse? 3.Kan 1) – 2) modelleres/forklares ved bruk av Optimalitetsteori? 4.Hvordan kan innsikter fra 1) – 3) bidra til å forbedre taggerens prestasjon? Teoretiske og praktiske problemstillinger

11 1. Forholdet mellom subjekt og objekt – animathet og bestemthet Svensk korpusunders ø kelse: ” More than 97% of all transitive sentences obey the constraint that the subject should not be lower than the object in animacy. ” Bare 1-2% av alle subjektene var ubestemte. (NB! Talespr å kskorpus) (Dahl og Fraurud, 1996; Dahl, 1997)

12 2. Problemverb Avvik i animathet, men f ø rst og fremst i tematiske roller utdelt til argumentene. Agent > Benefactive > Exp > Theme > Loc - Psyk - verb (Th - Exp), for eksempel interessere, more, forundre - Theme – theme verb, for eksempel gjelde, vedr ø re

13 Problemverbene og ordstilling En rekke spr å k: ” frysing ” til kanonisk leddstilling ved verb med uvanlig linking av argumenter. Gjelder dette for norsk? S æ rlig psyk-verb viser en tendens mot dette: Eks. (8) Bilproduksjon interesserer Lusjkov (9) ?? Lusjkov interesserer bilproduksjon

14 3. OT-formalisering Ingen absolutt tendens – derfor passer bra med en grammatikk som en mengde f ø ringer (constraints) som kan brytes.

15 4. Praktiske konsekvenser Trenger mer informasjon i leksikon: Animathet (og bestemthet) Seleksjonsrestriksjoner Argumentstruktur m/ tematiske roller

16 Seleksjonsrestriksjoner Verbets semantiske restriksjoner p å argumentene Samspill med animathet og bestemthet SIMPLE – leksikonet angir bl.a. seleksjonsrestriksjoner, for 10 000 ord (verb og substantiv)

17 Argumentstruktur Taggerens leksikon er markert med koder fra NorKompleks - et leksikon av norske verb m/ argumentstruktur og tematiske roller arg_code(trans1,[arg1:su::ag::np,arg2:obj::th::np]). % Eks: mannen kj ø rer en bil, mannen kj ø pte en bil, mannen synger en sang

18 Topic og Fokus Diskursrelaterte begreper – ny vs. gitt informasjon Vanskelig å utlede automatisk Henger sammen med andre, mer leksikalske egenskaper, som for eksempel bestemthet

19 Navnegjenkjenning Å fastsl å syntaktisk funksjon gir informasjon: Subjektet tiltrekker seg prominente elementer: Pronomen > Egennavn > Best NP > Ubest NP Subjektposisjon typisk posisjon for egennavn Subjektet ofte animat – person, dyr eller form for personifisering

20 Navnegjenkjenning Metonymisk bruk (10) Norge gleder seg etter seieren i OL

21 Navnegjenkjenning Identifisering av problemverb sier noe om egenskaper ved mulige argumenter (egennavn). Eks. person i objektposisjon ved psyk-verb (8) Bilproduksjon interesserer Lusjkov


Laste ned ppt "Lilja Øvrelid, Universitetet i Oslo Automatisk gjenkjenning av subjekt – og objektsfunksjon i norsk Problemstillinger ved forbedring av en morfosyntaktisk."

Liknende presentasjoner


Annonser fra Google