Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Norsk språkbank, LingIT, Bredt, ++ Torbjørn Nordgård Institutt for språk- og kommunikasjonsstudier, NTNU LingIT AS.

Liknende presentasjoner


Presentasjon om: "Norsk språkbank, LingIT, Bredt, ++ Torbjørn Nordgård Institutt for språk- og kommunikasjonsstudier, NTNU LingIT AS."— Utskrift av presentasjonen:

1 Norsk språkbank, LingIT, Bredt, ++ Torbjørn Nordgård Institutt for språk- og kommunikasjonsstudier, NTNU LingIT AS

2 09.01.2003Språkteknologi ved NTNU2 Norsk språkbank Utredning i regi av Språkrådet Oppdrag fra Kulturdepartementet og Nærings- og handelsdepartementet Rapport lagt frem 24. oktober http://www.sprakrad.no/noritvei.htm Målsetting: Etablering av språkteknologiressurser for norsk språk

3 09.01.2003Språkteknologi ved NTNU3 Prosjekt- og ressursgruppe Prosjektgruppa: Torbjørn Svendsen (leder februar - juni 2002), Torbjørn Nordgård (leder juli – oktober 2002), Stig Johansson (UiO), Knut Kvale (Telenor), Jon Trygve Berg (NST), Leiv Hartly Andreassen (SAIL Port), Tron Espeli (NFR) Ressursgruppa ble ledet av Jan Olav Fretland (Norsk språkråd). Bred sammensetning fra næringsliv og off forvaltning.

4 09.01.2003Språkteknologi ved NTNU4 Historikk Svendsen m/fl 1999: Forslag om etablering av Norsk språkbank 2000: Norsk språkråd lager handlingsplan for norsk språk og IKT –eNorgeplan 1.0 spesifiserer planen og legger ansvaret hos KKD ”Dyvik-komitèen” 2000: Grunnlagsdokumenter for KUNSTI ”Bristol-konferansen”, januar 2001 eNorgeplanene (versjon 1.0 - 3.0) eNorge 2005 Strategi for elektronisk innhold (våren 2002) …

5 09.01.2003Språkteknologi ved NTNU5 Komponenter i språkbanken Taledata Leksikalske data Korpusdata Administrasjon og organisering

6 09.01.2003Språkteknologi ved NTNU6 Taledata Type –Manuskriptinnlest tekst –Spontan tale Stil –Romkvalitet –Telefonkvalitet Formål –Diktering –Modeller

7 09.01.2003Språkteknologi ved NTNU7 Taledata – omfang og kostnad Til sammen vel 1700 timer –500 timer manusdiktering med romkvalitet –500 timer spontan diktering med romkvalitet –Resten fordelt på telefondata etc Kostnad: Ca 46 mill kr

8 09.01.2003Språkteknologi ved NTNU8 Tekstdata Bokmål – nynorsk (multipliser tallene med 2) 100 mill ord, basalt tilrettelagt 5 mill ord no/eng (parallellkorpus), basalt tilrettelagt 0,5 mill ord no/eng, grundig tilrettelagt 1 mill ord POS-tagget og manuelt kontrollert 0,2 mill ord i en trebank Totalkostnad: Ca 30 mill kr

9 09.01.2003Språkteknologi ved NTNU9 Leksikalske data Fullformsordlister, 500.000 ord pr målform –Informasjon og grammatiske egenskaper, uttale, frekvens, grunnform Ordnettverk (”norsk wordnet”) - 50.000 grunnformer Begrepsbeskrivelser (basert på ”SIMPLE”) - 50.000 begreper Div kvalitetskontroll, stavevarianter, uttalebeskrivelser, … Kostnad: Ca 16 mill kr

10 09.01.2003Språkteknologi ved NTNU10 Organisering Stiftelse –Ev aksjeselskap Styre (representanter fra industri, brukere, dep., akademia) Daglig leder + konsulent –Detaljplanlegge nyinnsamling Innsamling og validering gjøres av andre (anbud) –Forestå kvalitetskontroll og ev innkjøp –Holde orden på juridiske spm –… Distribusjon via ELRA

11 09.01.2003Språkteknologi ved NTNU11 Gjennomføring I hovedsak offentlig finansiering Spleiselag kan gjøre det lettere å komme i gang –Staten pluss industri, universiteter og andre Frikjøp og nyinnsamling Utnytte innkjøpsavtaler En viss brukskostnad

12 09.01.2003Språkteknologi ved NTNU12 … når er den etablert?? Utspillet ligger hos departementene Kulturdepartementet er formell ”operatør” NHD presser på Vanskelig budsjettsituasjon ?????????

13 09.01.2003Språkteknologi ved NTNU13 LingIT AS Etablert i februar 2001 www.lingit.no Aksjonærer: –LEN –Noen forskere fra NTNU (Sølvberg, Gulla, Amble, Brasethvik, Svendsen, Thygesen, Nordgård) –Øvrige: Ottar Kristiansen (styreformann), Tronn Skjerstad, Knut Morten Aasrud, Øyvind Vada, Lars Johnsen

14 09.01.2003Språkteknologi ved NTNU14 LingIT - produkter LingDys (stavekontrollprogram for skrivesvake) TUC/BussTUC/SMSTuc/TeleTUC etc. (spørresystem basert på naturlig språk) Dokumentsøkesystem

15 09.01.2003Språkteknologi ved NTNU15 LingDys Finner flere feil enn standard stavekontroll Inkluderer talesyntese –Telenor Talsmann Inkluderer oppslag i ordbok –Bokmålsordboka, Fremmedordboken Fullt integrert i Office-pakken

16 09.01.2003Språkteknologi ved NTNU16 TUC Viser til Tore Ambles presentasjon Kommersielle rettigheter ligger hos LingIT AS I bruk ved Team Trafikk –Vanlig nettside –SMS (SEND Team til 1939)

17 09.01.2003Språkteknologi ved NTNU17 Dokumentsøkesystem Semantiske modeller Aktører - relasjoner Dokumentindeksering med basis i semantiske kategorier Søking med semantiske begreper som matcher indeksene Arne Sølvberg, Jon Atle Gulla, Terje Brasethvik - alle fra IDI Ikke ferdig implementert

18 09.01.2003Språkteknologi ved NTNU18 LingIT og NTNU LingIT-produktene stammer fra NTNU-forskning LingIT ønsker samarbeid med språkteknologiske fagmiljøer i Trondheim –NTNU –SINTEF Også andre universiteter LingIT er villig til å finansiere eller delfinansiere språkteknologisk aktivitet ved NTNU –FUNN-ordningen –Infrastruktur (språkdata) LingIT kan fungere som et (beskjedent) industrielt verktøy sammen med NTNU-prosjekter Deltidsjobber for studenter og NTNU-forskere

19 09.01.2003Språkteknologi ved NTNU19 BREDT Behandling av Referensielle Enheter i DiskursTeori KUNSTI-prosjekt Ledet fra UiB –Christer Johansson og Lars G Johnsen ISK/NTNU er samarbeidspartner –Postdoc-stilling ved instituttet –TN er fagansvarlig ved ISK

20 09.01.2003Språkteknologi ved NTNU20 Målsetting Utvikle metoder for å identifisere diskursrelationer i løpende tekst Identifisere diskursreferenter - pronomener, presenteringskonstruksjoner, bestemte beskrivelser, … Centering Theory (Grosz m/fl) Regler og sannsynlighetsbaserte teknikker

21 09.01.2003Språkteknologi ved NTNU21 Bredt - anvendelser Naturlige dialoger mellom mennesker og maskiner TTS-applikasjoner –Prosodimodellering –Ny / gammel informasjon Koherens i genererte tekster Datamaskinell oversettelse


Laste ned ppt "Norsk språkbank, LingIT, Bredt, ++ Torbjørn Nordgård Institutt for språk- og kommunikasjonsstudier, NTNU LingIT AS."

Liknende presentasjoner


Annonser fra Google