Knut Hofland, fagkonsulent, Aksis/Unifob

Slides:



Advertisements
Liknende presentasjoner
12.Studienreise nach Finnland,
Advertisements

Kvinner og politikk Kvinnelig valgmobilisering i Nord-Norge: Glasstak eller etterslep? Marcus Buck.
Nytt fra IF Innhold • Justeringer på • Messer • Aftenposten-bilag • Studentum • Studiestart • Folkehøgskolekatalogen.
ASKER SKIKLUBB VOLLEYBALL Treningsavgift/dugnad våren 2014
Liberec 2009 Tidenes beste Ski VM!. Ting vi skal gjennomgå: •Enkel servering •Tidsskjema •Leir og telt •Oppgaver frem til avreise •Og alt annet vi kommer.
Litt mer om PRIMTALL.
Eiendomsmeglerbransjens boligprisstatistikk August 2010 Norges Eiendomsmeglerforbund og Eiendomsmeglerforetakenes Forening ECON Poyry og FINN.
Hjemmeoppgave 1: Å høre etter NAVN: ……………………………….. DATO: ……………………….
Grafisk design Visuell kommunikasjon
Teknologi for et bedre samfunn 1 Asbjørn Følstad, SINTEF Det Digitale Trøndelag (DDT) Brukervennlig digitalisering av offentlig sektor.
1 Web og sosiale medier Kvinne på Topp 22. September 2008 Sørmarka.
Møre og Romsdal. 2 Ligger det et bedehus eller et kristelig forsamlingshus (ikke kirke) i nærheten av der du bor? (n=502) i prosent.
Tall og fakta Antall virkestoffer med norsk markedsføringstillatelse.
NRKs Profilundersøkelse NRK Analyse. Om undersøkelsen • NRK Analyse har siden 1995 gjennomført en undersøkelse av profilen eller omdømmet til NRK.
:50 Evaluering Lysvåken i Bergen domkirke menighet 1 Svarlogg.
Fallskjermseksjonen F/NLFs fagseminar 2013, # 1 SU 2012/2013 Leder SU Knut Lien Medlem/ MSJ Rolf I. Sotberg Medlem Tone D Bergan Medlem Alvin Fyhn til.
Ungdom i norske aviser Mediebedriftenes landsforening Unge lesere, Gardermoen 21. november 2006 Nils Petter Strømmen, medieanalytiker Reidar Dischler,
Microsoft Office2010 ved UiO Fellesmøte IT-ansvarlige januar 2011.
SKI VM – Sapporo Program •Fredag 23.2 : –02.00: Vorspiel i Gamleveien 13. •Tradisjonell meny: Champagne, egg og bacon –04.00: Avreise med buss til.
Kapittel 14 Simulering.
Foreløpige tall pr Randi Sæther
Highlights fra markedsundersøkelse Utarbeidet av Inger Marie Brun,
Berit Bratholm : BREDBÅNDSPROSJEKTET DIGITALE MAPPER OG SAMARBEIDSLÆRING.
Hapros vei mot eQuass godkjenning? eQuass. OVERORDNET ORGANISASJON Oppdatert: Godkjent: EL 1) Medlem i ledergruppa 2) Stedfortreder for adm.
Oversikt over oppdeling: Klikk på et område for å forstørre det. Avslutt fremvisningen.
Oppland Arbeiderblad Kjønn i kildebruk - Utviklingstrekk over en to års periode.
Skriv om slik at setningene betyr omtrent det samme
Aviser.
s. 1 Evaluering av rådgivningstjenesten Foto: Crestock.com.
11 IKT-baserte læremidler Arne Ketil Eidsvik Avd. for lærerutdanning.
Dato: EØS-utvidelsen – Tillatelser med formål arbeid Avdeling for faglig strategi og koordinering, Enheten for statistikk og analyse
Tall og fakta Antall virkestoffer med norsk markedsføringstillatelse.
SINTEF Teknologi og samfunn PUS-prosjektet Jan Alexander Langlo og Linda C. Hald 1 Foreløpig oppsummering – underlag for diskusjon på PUS-forum
Midlertidig ansatt-undersøkelse Vinteren 2008 Amund Trellevik.
GRØNNALGER BRUNALGER RØDALGER
1 BM-dagen 29.okt BM1 Fysisk miljøplanlegging Studieprogram for Bygg- og miljøteknikk Meny Prosjektoppgaven Arealbruk og befolkning Transport og.
1. Henrik Eidsvåg Født: Posisjon: Målvakt Høyde: 192 Vekt: 89
1. Guro Rundbråten Født: Posisjon: Målvakt Høyde:
2. Eirik Svendsen Født: Posisjon: Linjespiller.
Resultat 4. kvartal Høydepunkt fra Q Omsetning MNOK 446,0 (+ 21,7 %) –Direktesalg MNOK 141,2 (+ 41,0 %) –Forhandlersalg MNOK 303,1 (+ 14,5.
Figur 1 Behov. Figur 2 Behov Figur 3 Prioritering/ressursinnsats.
Eiendomsmeglerbransjens boligprisstatistikk Oktober 2010
Eiendomsmeglerbransjens boligprisstatistikk Juni 2010 Norges Eiendomsmeglerforbund og Eiendomsmeglerforetakenes Forening ECON Poyry og FINN.
Eiendomsmeglerbransjens boligprisstatistikk Februar 2011 Norges Eiendomsmeglerforbund og Eiendomsmeglerforetakenes Forening ECON Poyry og FINN.
Velkommen! 4/4/2017.
1 Sara Nirvander Født: Posisjon: Målvakt.
PRINTER NORGE AS -Tillegg pris per kopi driftsavtale color, mono og multifunksjonsskrivere.
Steglyd.
Senter for operativ virksomhet i nord NMI Årskonferanse 22.okt.2008 Kristine Lind-Olsen, senterleder Møte mellom forskning og næringsliv.
Åpne en luke hver dag og få en gave
Bankenes sikringsfond Revisjonskontoret
Velkommen til foreldremøte på Ra ungdomsskole
Presentasjon Robert Ruud
Stavanger – , Haugesund – , Hjemmeside : Epost : HVA Treningsleir i kreativitet og nytenkning.
Hvordan føre kilder?.
Inflation og produktion 11. Makroøkonomi Teori og beskrivelse 4.udg. © Limedesign
Hva er riktig utvikling av kollektivtrafikken i Oppland. Historikk
1. Født: Posisjon.
Tor Selstad Storbyforum KRD 2. februar 2005
Kort om departementets arbeid mot 2015
1 Trivsel Utvalg Trives svært godt Trives godt Trives litt Trives ikke noe særlig Trives ikke i det hele tatt Snitt Trivsel Brannfjell skole (Høst 2014)
PLANER FOR ELDREOMSORGEN I BERGEN
Veivalgsanalyse etter Sørlandsmesterskapet i lang (klassisk) distanse 2004.
© Thomas Rieber-Mohn - INSTITUTT FOR RETTSINFORMAIKK – UNIVERSITETET I OSLO OPPHAVSRETT OG BESLEKTEDE RETTIGHETER - NÆRSTÅENDE.
Oversikt over oppdeling: Klikk på et område for å forstørre Avslutt fremvisning.
Kapittel 1, oppgave i) Sett inn preposisjoner eller adverb som passer.
Dagligbankundersøkelsen Fakta Dagligbankundersøkelsen intervju Befolkning 15 år + TNS Gallup Forfatter Bente Pettersen Roar Thorvaldsen.
Befolkning og arbejdsmarked 7. Mikroøkonomi Teori og beskrivelse © Limedesign
Kampanje uke SMART Bedrift Internal /Relation/Identifier 0.1 Draft.
Fasit 15 #! /bin/sh clear pwd > filer.txt ls -l >>filer.txt
Utskrift av presentasjonen:

Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus Knut Hofland, fagkonsulent, Aksis/Unifob Seminar ved Forskergruppe for leksikografi, ILN/UiO,19.04.07 http://gandalf.aksis.uib.no/~knut/oslo-19.4.07/

Norsk aviskorpus (avis.uib.no) Et automatisert opplegg for å hente avisartikler fra Web Har foregått siden 1998, presentert på Lysebu okt. 98 Halvautomatisk arbeid 95-98 Tenkt som et midlertidig prosjekt (inntil Norsk korpus ble etablert) for å etablere stor tekstmengde ved liten innsats I hovedsak internt finansiert ved Aksis Noe midler fra UiB AVIT midler fra 2007

Aviser som hentes Adresseavisen (AA), Trondheim Aftenposten (AP), Oslo Bergens Tidende (BT), Bergen Dagsavisen (DA), Oslo Dagbladet (DB), Oslo Dagens Næringsliv,(DN) Oslo Fædrelandsvennen (FV), Kristiansand Nordlys (NL), Tromsø Stavanger Aftenblad (SA), Stavanger Verdens Gang (VG), Oslo

Utvikling siden 1998

Siste dagers tilvekst Dagens antall: 419764 Totalt: 537564671 Wed Apr 18 22:03:22 CEST 2007 Dagens antall: 363745 Totalt: 537144907 Tue Apr 17 22:03:23 CEST 2007 Dagens antall: 431296 Totalt: 536781162 Mon Apr 16 22:03:31 CEST 2007 Dagens antall: 293123 Totalt: 536349866 Sun Apr 15 22:03:14 CEST 2007 Dagens antall: 322937 Totalt: 536056743 Sat Apr 14 22:03:12 CEST 2007 Dagens antall: 469965 Totalt: 535733806 Fri Apr 13 22:03:50 CEST 2007 Dagens antall: 418334 Totalt: 535263841 Thu Apr 12 22:03:48 CEST 2007 Dagens antall: 435857 Totalt: 534845507 Wed Apr 11 22:03:39 CEST 2007 Dagens antall: 380328 Totalt: 534409650 Tue Apr 10 22:03:07 CEST 2007 Dagens antall: 194382 Totalt: 534029322 Mon Apr 9 22:02:32 CEST 2007 Dagens antall: 169864 Totalt: 533834940 Sun Apr 8 22:02:27 CEST 2007 Dagens antall: 226179 Totalt: 533665076 Sat Apr 7 22:02:35 CEST 2007 Dagens antall: 244123 Totalt: 533438897 Fri Apr 6 22:02:38 CEST 2007

De enkelte trinn Henter URL-er fra hovedinndelingene i avisene (w3mir) Plukker ut URL-er til artikler og generere skript for henting Henting av artikler og produksjon av samlefil Utplukk av artikkeltekst og dato Stripping av HTML-koder Konvertering til Corpus Workbench-format (et ord pr. linje) Separering av bokmål og nynorsk Oppdatering av samlefiler (splitter etter årstall) Tagging Produksjon og oppdatering av ordlister/statistikk Indeksering med Corpus WorkBench

Utplukk av aktuelle URL-er http://www.bt.no/bergenpuls/utstilling/article355057.ece http://www.bt.no/dyr/article321692.ece http://www.bt.no/dyr/article354900.ece http://www.bt.no/forbruker/article342333.ece http://www.bt.no/forbruker/article353652.ece http://www.bt.no/forbruker/article356091.ece http://www.bt.no/forbruker/bilogmotor/article323455.ece Sjekkes mot oversikt over filer som tidligere er hentet Nye filer hentes og samles i en fil (pr. avis) Plukker nå også opp mulige URL-er via RSS.

Utplukk av artikkeltekst Går gjennom HTML-kode og slår på/av utplukk basert på tekststrenger i dokumentet. Et program for hver avis. if pos("faktaboks",stopp) gt 0 then utvalgtrue("</DIV"); utvalgtrue("START ARTIKKEL"); utvalgtrue("<!-- ferdig relaterte-saker"); utvalgtrue("ID=""artikkelspalte"); utvalgtrue("=""+3"""); utvalgfalse("Resultater fra 42 ligaer"); utvalgfalse("<!-- relaterte saker"); utvalgfalse("VG Nett følger:"); utvalgfalse("- Eliteguiden -"); utvalgfalse(">Les også:<");

Utfordringer Følge med på omorganisering av struktur i avisene Følge med på forandring i layout Duplikater av tekst

Stripping av HTML Gjelder vanlige HTML-tagger Noen få beholdes (<p>, <br>, men oversettes til et tegn) En del aviser har egne tagger (ikke standard) Entiteter oversettes til Latin1 (å -> å)

Separerer bokmål, nynorsk og engelsk Basert på toppen av en frekvensliste for hvert ”språk” akkurat alene allerede annen annet bare barn bedre begge begynte ble blitt andletet anna annan att augo auka berre betre blei boka bur dagar the and in that is was it he as with on his

Tagging Kjører Oslo-Bergen tagger via SOAP grensesnitt Morfologisk og syntaktisk disambiguering Tagging av ca. 300.000 ord tar 4-7 timer Har tagget bakover til 1.1.2000. År 2004 er tilgjengelig for søk (ca. 48 mill ord).

Dagens ”nye” ordformer Hver dag lages ordliste over dagens ordformer Denne ordlisten sammenlignes med en ordliste basert på alt tilgjengelig tekstmateriale ved Aksis (ca. 3.9 mill former) Det lages en liste med ord som ikke finnes i denne ordlisten, opptil 1200-1300 hver dag.

”Nyord”

Anglisismer

Allmenne nyord

Søk i ordliste Resultat av søk Søk etter starten av ord: klima 5967 klimaet 4007 klimaendringer 3116 klimagasser 3081 klimaendringene 1310 klimaanlegg 1221 klimaks 1126 klimapanel 893 klimagassutslippene 889 klimaforskning 847 klimapolitikk 735 klimakvoter 687 klimagassutslipp 651 klimatiltak 633 klimatiske 602 klimapolitikken 565 klimagassen 523 klimaforskere

Wordschatz, Univ. i Leipzig

Rekvirere brukernavn

Søking

Søkeskjema

KWIC

Tsunami 1998-2006

Bedehus*, 1998-2006

sex, 1998-2006

Søk i tagget del

KWIC

Frekvenser ord i bokmålsordboka

AVIT Tekstinnhenting Klassifisering bokmål/nynorsk Annotering av syntaktisk og morfologisk informasjon Nyordlister og nyorddatabase Teksttypologi og annotering Språkmodellering, kollokasjoner og n-gram-produksjon Trebanker Brukergrensesnitt Nyanskaffelser og bruksrettigheter Ekstern evaluering