Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Norsk andrespråkskorpus (ASK)

Liknende presentasjoner


Presentasjon om: "Norsk andrespråkskorpus (ASK)"— Utskrift av presentasjonen:

1 Norsk andrespråkskorpus (ASK)
Samarbeid Norsk Språktest Aksis Nordisk institutt, UiB (Kari Tenfjord, prosjektleder) Finansiering: Norges Forskningsråd, Meltzerfondet

2 Norsk Språktest Samarbeid Folkeuniversitetet (adm./øk.) og UiB (faglig) Arrangerer: Språkprøven i norsk for voksne innvandrere Avsluttende prøve for den offentlige grunnopplæring Arrangeres 3 ganger i året minst ett sted i hvert fylke Lese- og lytteforståelse, skriftlig og muntlig prøve Test i norsk - høyere nivå (Bergenstesten) Skriftlig: For studenter til universiteter og høyskoler og arbeidstakere som trenger dokumentasjon på norskferdigheter Muntlig: for helsepersonell

3 Språkprøven 2001: 2309 kandidater (63% kvinner), 62% bestått
2003: 106 forskjellige land, 103 ulike morsmål Skriftlig prøve: forklarende eller fortellende Ca. 240 ord

4 Høyere nivå (Bergenstesten)
2001: 998 kandidater 2002: 1129 kandidater 2003: 1286 kandidater Skriftlig prøve: forklarende, fortellende eller argumenterende Ca. 450 ord

5 Eksempel på oppgaver (Språktesten)
Skriv en tekst om: adopsjon alkoholvaner barneoppdragelse en bok du har lest det du mener er viktige verdier i livet din første jobb ditt møte med norsk kultur en eller flere nyheter som har gjort inntrykk på deg en forfatter og en bok han/hun har skrevet en hyggelig opplevelse du har hatt en interesse du har en kjent person en person som har betydd mye for deg

6 Eksempel på oppgaver (Bergenstesten)
Skriv ett av følgende leserbrev til en lokalavis: 1. Du støtter lærerne i deres lønnskamp, og presenterer ulike argumenter for dette synspunktet; eller 2. Du går imot at lærerne får større lønnsøkning enn andre yrkesgrupper, og kommer med ulike argumenter for dette synspunktet.

7

8

9 Persondata Norsk Språktest har lagret persondata i SPSS
Opplysninger kodes, verdi  tallkode Kodebok v14timer Timer i grunnopplæring Value Label 1 under 200

10 Persondata Kandidatnummer Tid i Norge (antall år) Testdato
Nivå på testen Hjemland Morsmål Alder Kjønn Engelsknivå Skolegang utenfor Norge Antall skoleår utenfor Norge Hva gjør du i Norge Yrke i Norge Tid i Norge (antall år) Timer i grunnopplæring Antall mnd. siden start på norskkurs Hvor har du gått på kurs Hva skal du bruke prøveresultatet til: skole Bruke: arbeid Bruke: dokumentere Bruke: annet Hvor ofte snakker du norsk utenfor klasserommet Har du sosial omgang med nordmenn? Omgang med norske på fritiden Omgang med norske på jobben/skolen

11 Yrke i Norge Value Label 1 helsearbeid 2 kontorarbeid 3 manuelt arbeid
4 servicenæring 5 opplæring/undervisning 6 transport 7 politi, toll, brann 8 kultur 9 hjemmeværende 10 annet 11 akademisk yrke

12 Korpus og utvalg Utvalg av språk Spredning etter type språk
Må ha nok besvarelser, alle må ha bestått Utvalg innen språk Samme type oppgave 10 språk 100 besvarelser innen hvert språk Både Språkprøven og Høyere nivå Kontrollgruppe Nordmenn, fra kor og idrettslag etc.

13 Problemer vedrørende utvalg
Ønsket flere/andre morsmål, men ikke nok antall Ulik fordeling av morsmål i de to testene Skjev kjønnsfordeling Russisk, polsk : 90-95% kvinner Ønsket flere besvarelser, men ikke økonomi Ønsket muntlig prøve, men ikke økonomi

14 Valgte morsmål Albansk Engelsk Nederlandsk Polsk Russisk Serbokroatisk
Somali Spansk Tysk Vietnamesisk

15 Feilbegrepet Problematisk med begrepene ”feil” og ”korrekt form”
Ordet ”feil” er negativ ladet, ofte kan en feil være ”kreativ” Andre termer: avvik, løsning (kilde) L1  interlanguage  L2 (mål) Feil viser hvorledes språket blir lært Det å gjøre feil er en måte å teste ut målspråket Grader av feil, ikke lett å avgjøre hva som er rett

16 Bakgrunn for feilkoder ASK
Studerte feilkoder i tre større prosjekter ICLE (International Corpus of Learner English) (tag) feil $rett$ (feil eller rett kan være 0) He took the books (QL) and $,$ the records and the computers. FRIDA (French Interlanguage Database) corpus. <type><subtype><ordklasse>#rett$feil</..></..></type> très <G><GEN><ADJ> #fort$ forte </ADJ></GEN></G> Cambridge Learner Corpus <#CODE>wrong word|corrected word</#CODE> He died <#MP>we|.We</#MP> buried him the next day.

17 ASK feilkoder Enkelt system slik at kodingsfeil unngås
Grammatisk informasjon annoteres automatisk (senere) Velger retting som krever minst forandringer Har kodemanual med eksempler Systematisk sjekk av koding (ved konkordans) Bruker TEI sic tag med ekstra attributter <sic type=type desc=undertype corr=rett>feil</sic> Det kan være flere feilmarkeringer til et ord (men ikke overlapp)

18 ASK feilkoder 5 hovedgrupper Leksemfeil Morfologifeil Syntaksfeil
Tegnsettingsfeil Uidentifiserbar feil

19 ASK feilkoder: Leksemfeil
W galt ord ORT ortografisk feil PART samskrivningsfeil, avledningsfeil SPL særskrivningsfeil DER gal avledning CAP galt valg av stor/liten bokstav FL ord fra andre språk enn norsk

20 ASK feilkoder: Leksemfeil
W Fra min mening ... (Etter) ORT Kun i ordets grunnform (ikke bøying) PART etterhvert (etter hvert) SPL sove rom (soverom) DER stillighet (stillhet) CAP europa (Europa) FL lettere å resolvere problemer (løse)

21 ASK feilkoder: Morfologifeil
F (galt valg av morfosyntaktisk bøyningsform) Hvilken miljø skal man bo. (Hvilket) ..og ikke så lang fra sentrum (langt) Det var jo ham som har betydd absolutt mest (er) INFL (feil form der intensjonen er riktig morfosyntaktisk kategori) har mye trafikker og bråker (trafikk og bråk) Vi hald kontakten (holdt)

22 ASK feilkoder: Syntaksfeil
M (et ord eller en frase mangler) Vi hilser ___ hverandre når vi .... (mangler på) R (et ord eller en frase er redundant og fører til grammatisk feil eller uidiomatiske uttrykk) Etter ti dager senere giftet... (senere redundant) O (ord eller fraser står i gal rekkefølge) ..nok stor for oss... (stor nok)

23 ASK feilkoder: Undertyper til feiltype O
INV (inversjonsfeil) I begynnelsen det var veldig vanskelig... (var det) OINV (overgeneralisering av inversjonsregel) .. selv om er det press .. (det er) MCA (gal plassering av setningsadverbialet i helsetning) fordi jeg har ikke vært i Norge før.. (ikke har) SCA (gal plassering av setningsadverbialet i leddsetning) Man kan ringe alltid hvor man er. (alltid ringe)

24 ASK feilkoder: Tegnsettingsfeil
PUNC (galt valg av tegn) Hvem trekker først. (?) PUNCM (tegnsetting mangler) Når vi ser ca 50 år tilbake (ca.) PUNCR (tegnsetting må fjernes) .. med huset, og barna (ikke komma foran og)

25 ASK feilkoder: Uidentifiserbar feil
X Vennskapet mitt var utrolig. de liker virkelig å hjelpe i menneskighet.

26

27 Innskriving/redigering: Oxygen

28 Stilark Til hjelp ved kontroll kan en kjøre flere stilark på server.

29 Stilark

30 Stilark

31 Konkordans som hjelpemiddel
De som koder har adgang til konkordans (via web) Kjøres på de tekstfilene som enhver tid er i katalogen Kan sjekke hvordan andre har kodet Kan sjekke konsistens i koding Kan enkelt gå til fil for retting

32 Konkordans

33 Konkordans

34

35 Persondata Skjema har forandret seg gjennom årene
Data ligger i SPSS-filer (kodet med kodebok) Ulike formater Eksporteres som tab-separert fil Kobles med tekst gjennom kandidatnummer-år/mnd Diskusjon med Datatilsynet/NSD om hva vi kunne ta med (tekster ble også anonymisert mht. navn, steder etc.)

36 Tagging Bruker Oslo-Bergen tagger
Kan være problematisk å bruke standard tagger på tekst med mange feil Tagger er robust Tagger bruker corr-feltet ved ortografiske feil

37 Tilrettelegging for søking
Bruker Corpus Workbench via TCP/IP socket Web-basert grensesnitt (Common Lisp) Web-sider lages som XML og oversettes på server til HTML via stilark (XSLT) Det lages en korrektversjon av hver setning, får på denne måten et parallellkorpus Kan rette taggefeil ved søking Kan laste ned resultat til PC (Excel og lignende.)

38

39 Konkordans

40 Parallell konkordans

41 Tekst

42 Tagget tekst

43 Kollokasjon


Laste ned ppt "Norsk andrespråkskorpus (ASK)"

Liknende presentasjoner


Annonser fra Google