Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Norsk språkbank, LingIT, Bredt, ++ Torbjørn Nordgård Institutt for språk- og kommunikasjonsstudier, NTNU LingIT AS.

Liknende presentasjoner


Presentasjon om: "Norsk språkbank, LingIT, Bredt, ++ Torbjørn Nordgård Institutt for språk- og kommunikasjonsstudier, NTNU LingIT AS."— Utskrift av presentasjonen:

1 Norsk språkbank, LingIT, Bredt, ++ Torbjørn Nordgård Institutt for språk- og kommunikasjonsstudier, NTNU LingIT AS

2 Språkteknologi ved NTNU2 Norsk språkbank Utredning i regi av Språkrådet Oppdrag fra Kulturdepartementet og Nærings- og handelsdepartementet Rapport lagt frem 24. oktober Målsetting: Etablering av språkteknologiressurser for norsk språk

3 Språkteknologi ved NTNU3 Prosjekt- og ressursgruppe Prosjektgruppa: Torbjørn Svendsen (leder februar - juni 2002), Torbjørn Nordgård (leder juli – oktober 2002), Stig Johansson (UiO), Knut Kvale (Telenor), Jon Trygve Berg (NST), Leiv Hartly Andreassen (SAIL Port), Tron Espeli (NFR) Ressursgruppa ble ledet av Jan Olav Fretland (Norsk språkråd). Bred sammensetning fra næringsliv og off forvaltning.

4 Språkteknologi ved NTNU4 Historikk Svendsen m/fl 1999: Forslag om etablering av Norsk språkbank 2000: Norsk språkråd lager handlingsplan for norsk språk og IKT –eNorgeplan 1.0 spesifiserer planen og legger ansvaret hos KKD ”Dyvik-komitèen” 2000: Grunnlagsdokumenter for KUNSTI ”Bristol-konferansen”, januar 2001 eNorgeplanene (versjon ) eNorge 2005 Strategi for elektronisk innhold (våren 2002) …

5 Språkteknologi ved NTNU5 Komponenter i språkbanken Taledata Leksikalske data Korpusdata Administrasjon og organisering

6 Språkteknologi ved NTNU6 Taledata Type –Manuskriptinnlest tekst –Spontan tale Stil –Romkvalitet –Telefonkvalitet Formål –Diktering –Modeller

7 Språkteknologi ved NTNU7 Taledata – omfang og kostnad Til sammen vel 1700 timer –500 timer manusdiktering med romkvalitet –500 timer spontan diktering med romkvalitet –Resten fordelt på telefondata etc Kostnad: Ca 46 mill kr

8 Språkteknologi ved NTNU8 Tekstdata Bokmål – nynorsk (multipliser tallene med 2) 100 mill ord, basalt tilrettelagt 5 mill ord no/eng (parallellkorpus), basalt tilrettelagt 0,5 mill ord no/eng, grundig tilrettelagt 1 mill ord POS-tagget og manuelt kontrollert 0,2 mill ord i en trebank Totalkostnad: Ca 30 mill kr

9 Språkteknologi ved NTNU9 Leksikalske data Fullformsordlister, ord pr målform –Informasjon og grammatiske egenskaper, uttale, frekvens, grunnform Ordnettverk (”norsk wordnet”) grunnformer Begrepsbeskrivelser (basert på ”SIMPLE”) begreper Div kvalitetskontroll, stavevarianter, uttalebeskrivelser, … Kostnad: Ca 16 mill kr

10 Språkteknologi ved NTNU10 Organisering Stiftelse –Ev aksjeselskap Styre (representanter fra industri, brukere, dep., akademia) Daglig leder + konsulent –Detaljplanlegge nyinnsamling Innsamling og validering gjøres av andre (anbud) –Forestå kvalitetskontroll og ev innkjøp –Holde orden på juridiske spm –… Distribusjon via ELRA

11 Språkteknologi ved NTNU11 Gjennomføring I hovedsak offentlig finansiering Spleiselag kan gjøre det lettere å komme i gang –Staten pluss industri, universiteter og andre Frikjøp og nyinnsamling Utnytte innkjøpsavtaler En viss brukskostnad

12 Språkteknologi ved NTNU12 … når er den etablert?? Utspillet ligger hos departementene Kulturdepartementet er formell ”operatør” NHD presser på Vanskelig budsjettsituasjon ?????????

13 Språkteknologi ved NTNU13 LingIT AS Etablert i februar Aksjonærer: –LEN –Noen forskere fra NTNU (Sølvberg, Gulla, Amble, Brasethvik, Svendsen, Thygesen, Nordgård) –Øvrige: Ottar Kristiansen (styreformann), Tronn Skjerstad, Knut Morten Aasrud, Øyvind Vada, Lars Johnsen

14 Språkteknologi ved NTNU14 LingIT - produkter LingDys (stavekontrollprogram for skrivesvake) TUC/BussTUC/SMSTuc/TeleTUC etc. (spørresystem basert på naturlig språk) Dokumentsøkesystem

15 Språkteknologi ved NTNU15 LingDys Finner flere feil enn standard stavekontroll Inkluderer talesyntese –Telenor Talsmann Inkluderer oppslag i ordbok –Bokmålsordboka, Fremmedordboken Fullt integrert i Office-pakken

16 Språkteknologi ved NTNU16 TUC Viser til Tore Ambles presentasjon Kommersielle rettigheter ligger hos LingIT AS I bruk ved Team Trafikk –Vanlig nettside –SMS (SEND Team til 1939)

17 Språkteknologi ved NTNU17 Dokumentsøkesystem Semantiske modeller Aktører - relasjoner Dokumentindeksering med basis i semantiske kategorier Søking med semantiske begreper som matcher indeksene Arne Sølvberg, Jon Atle Gulla, Terje Brasethvik - alle fra IDI Ikke ferdig implementert

18 Språkteknologi ved NTNU18 LingIT og NTNU LingIT-produktene stammer fra NTNU-forskning LingIT ønsker samarbeid med språkteknologiske fagmiljøer i Trondheim –NTNU –SINTEF Også andre universiteter LingIT er villig til å finansiere eller delfinansiere språkteknologisk aktivitet ved NTNU –FUNN-ordningen –Infrastruktur (språkdata) LingIT kan fungere som et (beskjedent) industrielt verktøy sammen med NTNU-prosjekter Deltidsjobber for studenter og NTNU-forskere

19 Språkteknologi ved NTNU19 BREDT Behandling av Referensielle Enheter i DiskursTeori KUNSTI-prosjekt Ledet fra UiB –Christer Johansson og Lars G Johnsen ISK/NTNU er samarbeidspartner –Postdoc-stilling ved instituttet –TN er fagansvarlig ved ISK

20 Språkteknologi ved NTNU20 Målsetting Utvikle metoder for å identifisere diskursrelationer i løpende tekst Identifisere diskursreferenter - pronomener, presenteringskonstruksjoner, bestemte beskrivelser, … Centering Theory (Grosz m/fl) Regler og sannsynlighetsbaserte teknikker

21 Språkteknologi ved NTNU21 Bredt - anvendelser Naturlige dialoger mellom mennesker og maskiner TTS-applikasjoner –Prosodimodellering –Ny / gammel informasjon Koherens i genererte tekster Datamaskinell oversettelse


Laste ned ppt "Norsk språkbank, LingIT, Bredt, ++ Torbjørn Nordgård Institutt for språk- og kommunikasjonsstudier, NTNU LingIT AS."

Liknende presentasjoner


Annonser fra Google