Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Norsk språkbank, LingIT, Bredt, ++

Liknende presentasjoner


Presentasjon om: "Norsk språkbank, LingIT, Bredt, ++"— Utskrift av presentasjonen:

1 Norsk språkbank, LingIT, Bredt, ++
Torbjørn Nordgård Institutt for språk- og kommunikasjonsstudier, NTNU LingIT AS

2 Språkteknologi ved NTNU
Norsk språkbank Utredning i regi av Språkrådet Oppdrag fra Kulturdepartementet og Nærings- og handelsdepartementet Rapport lagt frem 24. oktober Målsetting: Etablering av språkteknologiressurser for norsk språk Språkteknologi ved NTNU

3 Prosjekt- og ressursgruppe
Prosjektgruppa: Torbjørn Svendsen (leder februar - juni 2002), Torbjørn Nordgård (leder juli – oktober 2002), Stig Johansson (UiO), Knut Kvale (Telenor), Jon Trygve Berg (NST), Leiv Hartly Andreassen (SAIL Port), Tron Espeli (NFR) Ressursgruppa ble ledet av Jan Olav Fretland (Norsk språkråd). Bred sammensetning fra næringsliv og off forvaltning. Språkteknologi ved NTNU

4 Språkteknologi ved NTNU
Historikk Svendsen m/fl 1999: Forslag om etablering av Norsk språkbank 2000: Norsk språkråd lager handlingsplan for norsk språk og IKT eNorgeplan 1.0 spesifiserer planen og legger ansvaret hos KKD ”Dyvik-komitèen” 2000: Grunnlagsdokumenter for KUNSTI ”Bristol-konferansen”, januar 2001 eNorgeplanene (versjon ) eNorge 2005 Strategi for elektronisk innhold (våren 2002) Språkteknologi ved NTNU

5 Komponenter i språkbanken
Taledata Leksikalske data Korpusdata Administrasjon og organisering Språkteknologi ved NTNU

6 Språkteknologi ved NTNU
Taledata Type Manuskriptinnlest tekst Spontan tale Stil Romkvalitet Telefonkvalitet Formål Diktering Modeller Språkteknologi ved NTNU

7 Taledata – omfang og kostnad
Til sammen vel 1700 timer 500 timer manusdiktering med romkvalitet 500 timer spontan diktering med romkvalitet Resten fordelt på telefondata etc Kostnad: Ca 46 mill kr Språkteknologi ved NTNU

8 Språkteknologi ved NTNU
Tekstdata Bokmål – nynorsk (multipliser tallene med 2) 100 mill ord, basalt tilrettelagt 5 mill ord no/eng (parallellkorpus), basalt tilrettelagt 0,5 mill ord no/eng, grundig tilrettelagt 1 mill ord POS-tagget og manuelt kontrollert 0,2 mill ord i en trebank Totalkostnad: Ca 30 mill kr Språkteknologi ved NTNU

9 Språkteknologi ved NTNU
Leksikalske data Fullformsordlister, ord pr målform Informasjon og grammatiske egenskaper, uttale, frekvens, grunnform Ordnettverk (”norsk wordnet”) grunnformer Begrepsbeskrivelser (basert på ”SIMPLE”) begreper Div kvalitetskontroll, stavevarianter, uttalebeskrivelser, … Kostnad: Ca 16 mill kr Språkteknologi ved NTNU

10 Språkteknologi ved NTNU
Organisering Stiftelse Ev aksjeselskap Styre (representanter fra industri, brukere, dep., akademia) Daglig leder + konsulent Detaljplanlegge nyinnsamling Innsamling og validering gjøres av andre (anbud) Forestå kvalitetskontroll og ev innkjøp Holde orden på juridiske spm Distribusjon via ELRA Språkteknologi ved NTNU

11 Språkteknologi ved NTNU
Gjennomføring I hovedsak offentlig finansiering Spleiselag kan gjøre det lettere å komme i gang Staten pluss industri, universiteter og andre Frikjøp og nyinnsamling Utnytte innkjøpsavtaler En viss brukskostnad Språkteknologi ved NTNU

12 Språkteknologi ved NTNU
… når er den etablert?? Utspillet ligger hos departementene Kulturdepartementet er formell ”operatør” NHD presser på Vanskelig budsjettsituasjon ????????? Språkteknologi ved NTNU

13 Språkteknologi ved NTNU
LingIT AS Etablert i februar 2001 Aksjonærer: LEN Noen forskere fra NTNU (Sølvberg, Gulla, Amble, Brasethvik, Svendsen, Thygesen, Nordgård) Øvrige: Ottar Kristiansen (styreformann), Tronn Skjerstad, Knut Morten Aasrud, Øyvind Vada, Lars Johnsen Språkteknologi ved NTNU

14 Språkteknologi ved NTNU
LingIT - produkter LingDys (stavekontrollprogram for skrivesvake) TUC/BussTUC/SMSTuc/TeleTUC etc. (spørresystem basert på naturlig språk) Dokumentsøkesystem Språkteknologi ved NTNU

15 Språkteknologi ved NTNU
LingDys Finner flere feil enn standard stavekontroll Inkluderer talesyntese Telenor Talsmann Inkluderer oppslag i ordbok Bokmålsordboka, Fremmedordboken Fullt integrert i Office-pakken Språkteknologi ved NTNU

16 Språkteknologi ved NTNU
TUC Viser til Tore Ambles presentasjon Kommersielle rettigheter ligger hos LingIT AS I bruk ved Team Trafikk Vanlig nettside SMS (SEND Team <spørsmål> til 1939) Språkteknologi ved NTNU

17 Språkteknologi ved NTNU
Dokumentsøkesystem Semantiske modeller Aktører - relasjoner Dokumentindeksering med basis i semantiske kategorier Søking med semantiske begreper som matcher indeksene Arne Sølvberg, Jon Atle Gulla, Terje Brasethvik - alle fra IDI Ikke ferdig implementert Språkteknologi ved NTNU

18 Språkteknologi ved NTNU
LingIT og NTNU LingIT-produktene stammer fra NTNU-forskning LingIT ønsker samarbeid med språkteknologiske fagmiljøer i Trondheim NTNU SINTEF Også andre universiteter LingIT er villig til å finansiere eller delfinansiere språkteknologisk aktivitet ved NTNU FUNN-ordningen Infrastruktur (språkdata) LingIT kan fungere som et (beskjedent) industrielt verktøy sammen med NTNU-prosjekter Deltidsjobber for studenter og NTNU-forskere Språkteknologi ved NTNU

19 Språkteknologi ved NTNU
BREDT Behandling av Referensielle Enheter i DiskursTeori KUNSTI-prosjekt Ledet fra UiB Christer Johansson og Lars G Johnsen ISK/NTNU er samarbeidspartner Postdoc-stilling ved instituttet TN er fagansvarlig ved ISK Språkteknologi ved NTNU

20 Språkteknologi ved NTNU
Målsetting Utvikle metoder for å identifisere diskursrelationer i løpende tekst Identifisere diskursreferenter - pronomener, presenteringskonstruksjoner, bestemte beskrivelser, … Centering Theory (Grosz m/fl) Regler og sannsynlighetsbaserte teknikker Språkteknologi ved NTNU

21 Språkteknologi ved NTNU
Bredt - anvendelser Naturlige dialoger mellom mennesker og maskiner TTS-applikasjoner Prosodimodellering Ny / gammel informasjon Koherens i genererte tekster Datamaskinell oversettelse Språkteknologi ved NTNU


Laste ned ppt "Norsk språkbank, LingIT, Bredt, ++"

Liknende presentasjoner


Annonser fra Google