Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Automatisk gjenkjenning av subjekt – og objektsfunksjon i norsk

Liknende presentasjoner


Presentasjon om: "Automatisk gjenkjenning av subjekt – og objektsfunksjon i norsk"— Utskrift av presentasjonen:

1 Automatisk gjenkjenning av subjekt – og objektsfunksjon i norsk
Problemstillinger ved forbedring av en morfosyntaktisk tagger Lilja Øvrelid, Universitetet i Oslo

2 Oslokorpuset og Oslo-Bergen taggeren
18, 5 millioner ord fra varierte skriftlige kilder. Tre genre: skjønnlitteratur (1.7 mill.), aviser/magasiner (9.6 mill.) og faglitteratur (6.9 mill.). Tagget med Oslo-Bergen taggeren Utviklet i samarbeid mellom Tekstlaboratoriet og HIT – senteret i Bergen. Skrevet i Constraint Grammar. En morfosyntaktisk tagger av løpende tekst.

3 Utfordringen – norsk ordstilling
SVO, men med mulighet for OVS – topikalisering av objektet. Stort antall flertydigheter mellom subjekt- og objektsfunksjon i Oslokorpuset. (1) Jentasubj skrev brevetobj (2) Brevetobj skrev jentasubj

4 Reelt problem – eller? Svært få topikaliserte konstruksjoner med nominalt subjekt og objekt. Disambiguering ved pronomen og kasus: (5) Kaker baker jeg-nom også (6) Det gjorde han-nom egentlig ikke Men – trykksterke nominative pronomener i norsk: (7) Det omfatter deobj som bor her

5 Flertydigheter i Oslokorpuset
"<Bull>" "Bull" "<boikotter>" "boikotte" verb pres "<næringsmeldingen>" "næringsmelding" subst mask appell

6 "<Økologiske>" "økologisk" adj pos "<egg>" "egg" subst noeyt appell "<har>" "ha" verb pres pa1 a6 d5 rl6 tr6 d6/til pa3 tr12 <aux1/perf_part> "<Sølvi>" "Sølvi" subst "<fra>" "fra" "<egne>" "egen" det <adj> fl "<høner>" "høne" subst mask appell ub "høne" subst fem appell ub

7 "<Størst>" "stor" adj sup "<problem>" "problem" subst noeyt appell "<har>" "ha" verb pres pa1 a6 d5 rl6 tr6 d6/til pa3 tr12 <aux1/perf_part> "<de>" "de" pron pers 3 "<som>" "som" "<sitter>" "sitte" verb pres tr1 i2 pa1 pa4 a5 "<der>" "der"

8 Prominens og syntaktisk funksjon
Prominenshierarkier fra typologisk lingvistikk: Animathet: Human > Animat > Inanimat Bestemthet: Pronomen > Egennavn > Bestemt NP > Ubestemt NP Syntaktisk funksjon: Subjekt > Ikke-subjekt (Objekt)

9 Prominens og syntaktisk funksjon
Aissen (1999, 2000) – harmonic alignment av hierarkiene over. Prominente elementer på ett hierarki tiltrekker seg prominente elementer på andre hierarkier. Subjekter typisk animate, bestemte. Objekter typisk inanimate, ubestemte.

10 Teoretiske og praktiske problemstillinger
Forholdet mellom subjekt og objekt i henhold til hierarkiene over? Hva med tilfeller der generaliseringen ikke holder stand? Hva kjennetegner disse? Kan 1) – 2) modelleres/forklares ved bruk av Optimalitetsteori? Hvordan kan innsikter fra 1) – 3) bidra til å forbedre taggerens prestasjon?

11 1. Forholdet mellom subjekt og objekt – animathet og bestemthet
Svensk korpusundersøkelse: ”More than 97% of all transitive sentences obey the constraint that the subject should not be lower than the object in animacy.” Bare 1-2% av alle subjektene var ubestemte. (NB! Talespråkskorpus) (Dahl og Fraurud, 1996; Dahl, 1997)

12 2. Problemverb Avvik i animathet, men først og fremst i tematiske roller utdelt til argumentene. Agent > Benefactive > Exp > Theme > Loc Psyk - verb (Th - Exp), for eksempel interessere, more, forundre Theme – theme verb, for eksempel gjelde, vedrøre

13 Problemverbene og ordstilling
En rekke språk: ”frysing” til kanonisk leddstilling ved verb med uvanlig linking av argumenter. Gjelder dette for norsk? Særlig psyk-verb viser en tendens mot dette: Eks. (8) Bilproduksjon interesserer Lusjkov (9) ?? Lusjkov interesserer bilproduksjon

14 3. OT-formalisering Ingen absolutt tendens – derfor passer bra med en grammatikk som en mengde føringer (constraints) som kan brytes.

15 4. Praktiske konsekvenser
Trenger mer informasjon i leksikon: Animathet (og bestemthet) Seleksjonsrestriksjoner Argumentstruktur m/ tematiske roller

16 Seleksjonsrestriksjoner
Verbets semantiske restriksjoner på argumentene Samspill med animathet og bestemthet SIMPLE – leksikonet angir bl.a. seleksjonsrestriksjoner, for ord (verb og substantiv)

17 Argumentstruktur Taggerens leksikon er markert med koder fra NorKompleks - et leksikon av norske verb m/ argumentstruktur og tematiske roller arg_code(trans1,[arg1:su::ag::np,arg2:obj::th::np]). % Eks: mannen kjører en bil, mannen kjøpte en bil, mannen synger en sang

18 Topic og Fokus Diskursrelaterte begreper – ny vs. gitt informasjon
Vanskelig å utlede automatisk Henger sammen med andre, mer leksikalske egenskaper, som for eksempel bestemthet

19 Navnegjenkjenning Å fastslå syntaktisk funksjon gir informasjon:
Subjektet tiltrekker seg prominente elementer: Pronomen > Egennavn > Best NP > Ubest NP Subjektposisjon typisk posisjon for egennavn Subjektet ofte animat – person, dyr eller form for personifisering

20 Navnegjenkjenning Metonymisk bruk
(10) Norge gleder seg etter seieren i OL

21 Navnegjenkjenning Identifisering av problemverb sier noe om egenskaper ved mulige argumenter (egennavn). Eks. person i objektposisjon ved psyk-verb (8) Bilproduksjon interesserer Lusjkov


Laste ned ppt "Automatisk gjenkjenning av subjekt – og objektsfunksjon i norsk"

Liknende presentasjoner


Annonser fra Google