Automatisk gjenkjenning av subjekt – og objektsfunksjon i norsk

Slides:



Advertisements
Liknende presentasjoner
Bokpresentasjon Stavanger
Advertisements

Aftenposten Junior Norges eneste avis for barn
I.
Vi har to typer tekster i fagplanen i norsk.
Opprinnerlser, språk debatt, forskjeller og likheter.
OBJEKTSPRONOMEN.
Ekstern skolevurdering Skolens navn •Sett inn bilde av skolen her (Tips: høyreklikk på bildet og sorter det bak teksten)
Verbal a) Form Verbalet blir dannet av verbene i setningen.
Tekster til kapittel 2.
Automatisk gjenkjenning av vanskelige navn
Finn alle setningsleddene du kan.. Hvilke setningsledd kan du?
Lars Anders Kulbrandstad Høgskolen i Hedmark
SYNTAKS
Kapittel 21 Transportsystemet i Oslo
Janne Bondi Johannessen Tekstlaboratoriet Universitetet i Oslo
Heuristisk evaluering Evaluering av gruppe 08s nettsted Gruppe01.
Fra læreplanen i norsk:
Setningsledd: Verbal, subjekt, objekt, indirekte objekt, predikativ, adverbial, konjunksjonal, subjunksjonal.
Tekster til kapittel 1.
Litt om skrift og uttale på svensk og norsk
Kunnskapsløftet Den digitale dimensjonen i læreplanen for norskfaget.
PRONOMEN.
Tekstformatering og lister HTML IT 20 oktober 2004.
”NORSK RETTSKRIVING 2” Fast regel om ”stum” d
Smaksprøver på språkforskning Kristine Eide, Universitetet i Oslo
SYNTAKS 2 Leddstilling.
morild.org en interaktiv nettjeneste i ti år Mer enn 1000 spørsmål
GUSTAR-ENCANTAR-PARECER-APETECER
UNIVERSITETET I OSLO © TEKSTLABORATORIET Fefor 2003 Navnegjenkjenning for norsk med Constraint Grammar (CG) Andra Björk Jónsdóttir og Kristin Hagen Tekstlaboratoriet.
Janne Bondi Johannessen Tekstlaboratoriet Universitetet i Oslo
Objektspronomen Gjermund © ?Es tu piso? Sí, lo he comprado. ?Er det din leilighet? Ja, jeg har kjøpt den. Gjermund © 2010.
The Oslo-Bergen Tagger OBT+stat - a short presentation André Lynum, Kristin Hagen, Janne Bondi Johannessen and Anders Nøklestad.
ADVERB Han går inn. hvor=sted Tor skriver pent. hvordan=måte
Setningsskjema For… helsetninger og leddsetninger
Foreldreskolen del 1 Norskfaget.
Ordklasser Inndelingen
SEVU-PPT Kirsten M. Bjerkan
1 Tema Vg1, kap 9 Olav Christopher Jenssen: Edition Biographie, 1997 Galleri Ris © Olav Christopher Jensen/BONO 2009.
Presentasjon av familien til Johanne
A1A, : Grammatikk: Litt mer om feltanalyse til A1A
Syntaks 1 ALU1,
Syntaks Astrid Granly
Morfologi – formlære - ord
”Amerikabrev” Sett inn et pronomen som passer. Kjære venner! Jeg vil ganske kort sende dere noen ord fordi jeg vet at flere landsmenn kunne tenke seg.
Janne Bondi Johannessen Tekstlaboratoriet Universitetet i Oslo
PREPOSISJONER.
Verb PRESENS PERFEKTUM.
Urnordisk. Hva sier LK06 – =710976&visning=5http:// =710976&visning=5.
Bodin vgs og maritime fagskole Biblioteket 1 Fordypningsemne i norsk Hva kan biblioteket hjelpe deg med.
| Norsk og andre språk Det norske språket har mange likheter med andre språk, spesielt med andre nordiske språk. Vi skal se både på likheter og forskjeller.
Grammatikk. Ordklassene 1.Verb 2.Substantiv 3.Adjektiver 4.Pronomen 5.Determinativ 6.Preposisjoner 7.Konjunksjoner 8.Subjunksjoner 9.Interjeksjoner 10.Adverb.
Grammatikk. Ordklassane 1.Verb 2.Substantiv 3.Adjektiv 4.Pronomen 5.Determinativ 6.Preposisjonar 7.Konjunksjonar 8.Subjunksjonar 9.Interjeksjonar 10.Adverb.
| Å argumentere å skrive argumenterende tekst. Å komme i gang Bestem tema Finn informasjon om saken. Se en film, let på Internett, les i aviser, fagbøker.
Panorama Vg1 Kapittel 12 Grammatiske særtrekk ved norsk språk Læreplanmål: Mål for undervisningen er at elevene skal kunne -forklare grammatiske særtrekk.
Språkhistorie – Norrøn tid (ca ) Litteratur: Otnes og Aamotsbakken 2006.
| Å argumentere kildekritikk og nettvett. Bruk av kilder i skriftlig arbeid.
Dialekter er varianter av talespråket som brukes innenfor et begrenset geografisk område. Hovedområdene for de norske dialektene er østnorsk og vestnorsk.
Presentasjon av boken ”organisering i en verden i bevegelse”
Grammatikk.
ARTIKLENE ~ Analyse ~.
Norsk som fremmedspråk Side 131
Forelesning i RUS februar 2006.
Norsk Grammatikk .
Panorama Vg2 Tendenser og faser : Språklige forhold
Kapittel 7 Johanne har ingen klær.
Janne Bondi Johannessen Tekstlaboratoriet Universitetet i Oslo
Janne Bondi Johannessen Tekstlaboratoriet Universitetet i Oslo
Kapittel 5: Språket før og no Grammatiske særtrekk ved norsk språk
Svein Johansen, Rita Gjørven, Siri L Keller, Sonja Skjær ILS, UiO
Utskrift av presentasjonen:

Automatisk gjenkjenning av subjekt – og objektsfunksjon i norsk Problemstillinger ved forbedring av en morfosyntaktisk tagger Lilja Øvrelid, Universitetet i Oslo

Oslokorpuset og Oslo-Bergen taggeren 18, 5 millioner ord fra varierte skriftlige kilder. Tre genre: skjønnlitteratur (1.7 mill.), aviser/magasiner (9.6 mill.) og faglitteratur (6.9 mill.). Tagget med Oslo-Bergen taggeren Utviklet i samarbeid mellom Tekstlaboratoriet og HIT – senteret i Bergen. Skrevet i Constraint Grammar. En morfosyntaktisk tagger av løpende tekst.

Utfordringen – norsk ordstilling SVO, men med mulighet for OVS – topikalisering av objektet. Stort antall flertydigheter mellom subjekt- og objektsfunksjon i Oslokorpuset. (1) Jentasubj skrev brevetobj (2) Brevetobj skrev jentasubj

Reelt problem – eller? Svært få topikaliserte konstruksjoner med nominalt subjekt og objekt. Disambiguering ved pronomen og kasus: (5) Kaker baker jeg-nom også (6) Det gjorde han-nom egentlig ikke Men – trykksterke nominative pronomener i norsk: (7) Det omfatter deobj som bor her

Flertydigheter i Oslokorpuset "<Bull>" "Bull" subst prop @obj @subj "<boikotter>" "boikotte" verb pres tr1 @fv "<næringsmeldingen>" "næringsmelding" subst mask appell be ent @obj @subj

"<Økologiske>" "økologisk" adj pos fl @adj> "<egg>" "egg" subst noeyt appell ub fl @obj @subj "<har>" "ha" verb pres pa1 a6 d5 rl6 tr6 d6/til pa3 tr12 <aux1/perf_part> pa6 @fv "<Sølvi>" "Sølvi" subst fem prop @obj @subj "<fra>" "fra" prep @adv "<egne>" "egen" det <adj> fl forst @det> "<høner>" "høne" subst mask appell ub fl @<p-utfyll "høne" subst fem appell ub fl @<p-utfyll

"<Størst>" "stor" adj sup ub @adj> "<problem>" "problem" subst noeyt appell ub ent @obj @subj "<har>" "ha" verb pres pa1 a6 d5 rl6 tr6 d6/til pa3 tr12 <aux1/perf_part> pa6 @fv "<de>" "de" pron pers 3 fl nom @obj @subj "<som>" "som" sbu @<sbu-rel "<sitter>" "sitte" verb pres tr1 i2 pa1 pa4 a5 pa5 @fv "<der>" "der" prep @adv

Prominens og syntaktisk funksjon Prominenshierarkier fra typologisk lingvistikk: Animathet: Human > Animat > Inanimat Bestemthet: Pronomen > Egennavn > Bestemt NP > Ubestemt NP Syntaktisk funksjon: Subjekt > Ikke-subjekt (Objekt)

Prominens og syntaktisk funksjon Aissen (1999, 2000) – harmonic alignment av hierarkiene over. Prominente elementer på ett hierarki tiltrekker seg prominente elementer på andre hierarkier. Subjekter typisk animate, bestemte. Objekter typisk inanimate, ubestemte.

Teoretiske og praktiske problemstillinger Forholdet mellom subjekt og objekt i henhold til hierarkiene over? Hva med tilfeller der generaliseringen ikke holder stand? Hva kjennetegner disse? Kan 1) – 2) modelleres/forklares ved bruk av Optimalitetsteori? Hvordan kan innsikter fra 1) – 3) bidra til å forbedre taggerens prestasjon?

1. Forholdet mellom subjekt og objekt – animathet og bestemthet Svensk korpusundersøkelse: ”More than 97% of all transitive sentences obey the constraint that the subject should not be lower than the object in animacy.” Bare 1-2% av alle subjektene var ubestemte. (NB! Talespråkskorpus) (Dahl og Fraurud, 1996; Dahl, 1997)

2. Problemverb Avvik i animathet, men først og fremst i tematiske roller utdelt til argumentene. Agent > Benefactive > Exp > Theme > Loc Psyk - verb (Th - Exp), for eksempel interessere, more, forundre Theme – theme verb, for eksempel gjelde, vedrøre

Problemverbene og ordstilling En rekke språk: ”frysing” til kanonisk leddstilling ved verb med uvanlig linking av argumenter. Gjelder dette for norsk? Særlig psyk-verb viser en tendens mot dette: Eks. (8) Bilproduksjon interesserer Lusjkov (9) ?? Lusjkov interesserer bilproduksjon

3. OT-formalisering Ingen absolutt tendens – derfor passer bra med en grammatikk som en mengde føringer (constraints) som kan brytes.

4. Praktiske konsekvenser Trenger mer informasjon i leksikon: Animathet (og bestemthet) Seleksjonsrestriksjoner Argumentstruktur m/ tematiske roller

Seleksjonsrestriksjoner Verbets semantiske restriksjoner på argumentene Samspill med animathet og bestemthet SIMPLE – leksikonet angir bl.a. seleksjonsrestriksjoner, for 10 000 ord (verb og substantiv)

Argumentstruktur Taggerens leksikon er markert med koder fra NorKompleks - et leksikon av norske verb m/ argumentstruktur og tematiske roller arg_code(trans1,[arg1:su::ag::np,arg2:obj::th::np]). % Eks: mannen kjører en bil, mannen kjøpte en bil, mannen synger en sang

Topic og Fokus Diskursrelaterte begreper – ny vs. gitt informasjon Vanskelig å utlede automatisk Henger sammen med andre, mer leksikalske egenskaper, som for eksempel bestemthet

Navnegjenkjenning Å fastslå syntaktisk funksjon gir informasjon: Subjektet tiltrekker seg prominente elementer: Pronomen > Egennavn > Best NP > Ubest NP Subjektposisjon typisk posisjon for egennavn Subjektet ofte animat – person, dyr eller form for personifisering

Navnegjenkjenning Metonymisk bruk (10) Norge gleder seg etter seieren i OL

Navnegjenkjenning Identifisering av problemverb sier noe om egenskaper ved mulige argumenter (egennavn). Eks. person i objektposisjon ved psyk-verb (8) Bilproduksjon interesserer Lusjkov