Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Knut Hofland, fagkonsulent, Aksis/Unifob

Liknende presentasjoner


Presentasjon om: "Knut Hofland, fagkonsulent, Aksis/Unifob"— Utskrift av presentasjonen:

1 Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus
Knut Hofland, fagkonsulent, Aksis/Unifob Seminar ved Forskergruppe for leksikografi, ILN/UiO,

2 Norsk aviskorpus (avis.uib.no)
Et automatisert opplegg for å hente avisartikler fra Web Har foregått siden 1998, presentert på Lysebu okt. 98 Halvautomatisk arbeid Tenkt som et midlertidig prosjekt (inntil Norsk korpus ble etablert) for å etablere stor tekstmengde ved liten innsats I hovedsak internt finansiert ved Aksis Noe midler fra UiB AVIT midler fra 2007

3 Aviser som hentes Adresseavisen (AA), Trondheim Aftenposten (AP), Oslo
Bergens Tidende (BT), Bergen Dagsavisen (DA), Oslo Dagbladet (DB), Oslo Dagens Næringsliv,(DN) Oslo Fædrelandsvennen (FV), Kristiansand Nordlys (NL), Tromsø Stavanger Aftenblad (SA), Stavanger Verdens Gang (VG), Oslo

4 Utvikling siden 1998

5 Siste dagers tilvekst Dagens antall: Totalt: Wed Apr 18 22:03:22 CEST 2007 Dagens antall: Totalt: Tue Apr 17 22:03:23 CEST 2007 Dagens antall: Totalt: Mon Apr 16 22:03:31 CEST 2007 Dagens antall: Totalt: Sun Apr 15 22:03:14 CEST 2007 Dagens antall: Totalt: Sat Apr 14 22:03:12 CEST 2007 Dagens antall: Totalt: Fri Apr 13 22:03:50 CEST 2007 Dagens antall: Totalt: Thu Apr 12 22:03:48 CEST 2007 Dagens antall: Totalt: Wed Apr 11 22:03:39 CEST 2007 Dagens antall: Totalt: Tue Apr 10 22:03:07 CEST 2007 Dagens antall: Totalt: Mon Apr 9 22:02:32 CEST 2007 Dagens antall: Totalt: Sun Apr 8 22:02:27 CEST 2007 Dagens antall: Totalt: Sat Apr 7 22:02:35 CEST 2007 Dagens antall: Totalt: Fri Apr 6 22:02:38 CEST 2007

6 De enkelte trinn Henter URL-er fra hovedinndelingene i avisene (w3mir)
Plukker ut URL-er til artikler og generere skript for henting Henting av artikler og produksjon av samlefil Utplukk av artikkeltekst og dato Stripping av HTML-koder Konvertering til Corpus Workbench-format (et ord pr. linje) Separering av bokmål og nynorsk Oppdatering av samlefiler (splitter etter årstall) Tagging Produksjon og oppdatering av ordlister/statistikk Indeksering med Corpus WorkBench

7

8

9 Utplukk av aktuelle URL-er
Sjekkes mot oversikt over filer som tidligere er hentet Nye filer hentes og samles i en fil (pr. avis) Plukker nå også opp mulige URL-er via RSS.

10

11 Utplukk av artikkeltekst
Går gjennom HTML-kode og slår på/av utplukk basert på tekststrenger i dokumentet. Et program for hver avis. if pos("faktaboks",stopp) gt 0 then utvalgtrue("</DIV"); utvalgtrue("START ARTIKKEL"); utvalgtrue("<!-- ferdig relaterte-saker"); utvalgtrue("ID=""artikkelspalte"); utvalgtrue("=""+3"""); utvalgfalse("Resultater fra 42 ligaer"); utvalgfalse("<!-- relaterte saker"); utvalgfalse("VG Nett følger:"); utvalgfalse("- Eliteguiden -"); utvalgfalse(">Les også:<");

12 Utfordringer Følge med på omorganisering av struktur i avisene
Følge med på forandring i layout Duplikater av tekst

13 Stripping av HTML Gjelder vanlige HTML-tagger
Noen få beholdes (<p>, <br>, men oversettes til et tegn) En del aviser har egne tagger (ikke standard) Entiteter oversettes til Latin1 (å -> å)

14 Separerer bokmål, nynorsk og engelsk
Basert på toppen av en frekvensliste for hvert ”språk” akkurat alene allerede annen annet bare barn bedre begge begynte ble blitt andletet anna annan att augo auka berre betre blei boka bur dagar the and in that is was it he as with on his

15 Tagging Kjører Oslo-Bergen tagger via SOAP grensesnitt
Morfologisk og syntaktisk disambiguering Tagging av ca ord tar 4-7 timer Har tagget bakover til År 2004 er tilgjengelig for søk (ca. 48 mill ord).

16 Dagens ”nye” ordformer
Hver dag lages ordliste over dagens ordformer Denne ordlisten sammenlignes med en ordliste basert på alt tilgjengelig tekstmateriale ved Aksis (ca. 3.9 mill former) Det lages en liste med ord som ikke finnes i denne ordlisten, opptil hver dag.

17 ”Nyord”

18 Anglisismer

19 Allmenne nyord

20 Søk i ordliste Resultat av søk Søk etter starten av ord: klima
5967 klimaet 4007 klimaendringer 3116 klimagasser 3081 klimaendringene 1310 klimaanlegg 1221 klimaks 1126 klimapanel 893 klimagassutslippene 889 klimaforskning 847 klimapolitikk 735 klimakvoter 687 klimagassutslipp 651 klimatiltak 633 klimatiske 602 klimapolitikken 565 klimagassen 523 klimaforskere

21 Wordschatz, Univ. i Leipzig

22

23 Rekvirere brukernavn

24 Søking

25 Søkeskjema

26 KWIC

27 Tsunami

28 Bedehus*,

29 sex,

30 Søk i tagget del

31 KWIC

32 Frekvenser ord i bokmålsordboka

33 AVIT Tekstinnhenting Klassifisering bokmål/nynorsk
Annotering av syntaktisk og morfologisk informasjon Nyordlister og nyorddatabase Teksttypologi og annotering Språkmodellering, kollokasjoner og n-gram-produksjon Trebanker Brukergrensesnitt Nyanskaffelser og bruksrettigheter Ekstern evaluering


Laste ned ppt "Knut Hofland, fagkonsulent, Aksis/Unifob"

Liknende presentasjoner


Annonser fra Google