Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

1 Språkteknologiske løsninger for norsk og engelsk n prosjekter ved Institutt for moderne fremmedspråk/engelsk seksjon i samarbeid med Institutt for nordistikk.

Liknende presentasjoner


Presentasjon om: "1 Språkteknologiske løsninger for norsk og engelsk n prosjekter ved Institutt for moderne fremmedspråk/engelsk seksjon i samarbeid med Institutt for nordistikk."— Utskrift av presentasjonen:

1 1 Språkteknologiske løsninger for norsk og engelsk n prosjekter ved Institutt for moderne fremmedspråk/engelsk seksjon i samarbeid med Institutt for nordistikk og litteraturvitenskap

2 2 Oversikt n n Medvirkende/ressurspersoner n n Hovedmål n n Litt førhistorie - EDIT-prosjektet n n Problemstillinger omkring kunnskaps- /leksikalske databaser n n Tankegangen (ideologien) bak dette prosjektet

3 3 Oversikt n n Lignende systemer Potensielle anvendelser/bruk av det kontrastive leksikonet Framtidige perspektiver

4 4 Medvirkende/ressurspersoner Mila Vulchanova, IMFS, Engelsk seksjon n n Tor Anders Åfarli, INL n n Dawn Behne, IMFS, Engelsk seksjon n n Anja Angelsen, vit.ass. EDIT- prosjektet, IMFS, Engelsk seksjon n Ann Jorid Klungervik Greenall, post.dok., IMFS, Engelsk seksjon n Helene Hauge, NFR-stipendiat, IMFS, Engelsk seksjon n Kristin Mellum Eide, post.dok., Institutt for datateknikk og informasjonsvitenskap n Kristian Skarbø, vit.ass. EDIT- prosjektet

5 5 Hovedmål F lingvistikk kunnskap konkrete språk datalingvistikkKunstig Intelligens kognitiv vitenskap nevrolingvistikk, statistikk F etablere en bred tverrfaglig samarbeidskonstellasjon, med deltakere med bakgrunn i lingvistikk (f.eks. syntaks og semantikk og grensesnittet mellom syntaks og semantikk) samt kunnskap om strukturen til konkrete språk (engelsk og norsk), datalingvistikk, Kunstig Intelligens (KI-), kognitiv vitenskap (Cognitive Science), nevrolingvistikk, statistikk

6 6 Hovedmål   evaluere og utrede løsninger innen leksikalske databaser og deres anvendelse i maskinoversettelse og språkteknologi F F utvikle et kollokasjonsbasert kontrastivt leksikon for norsk og engelsk

7 7 Litt førhistorie F F EDIT-prosjektet, fundert på praktisk språkarbeid og komparativ språkforskning og terminologiforskning F F Prosjektet er selvfinansierende gjennom språkarbeide, oversettelse av vitenskapelige artikler fra norsk til engelsk og språkvask/korrekturlesing

8 8 EDIT-prosjektet   Hovedmålsettinger i EDIT: søkbar webgrensesnitt konkordanseverktøy på avsnittsnivå å bygge en søkbar database over oversatte paralelle tekster med et webgrensesnitt der man ved hjelp av et konkordanseverktøy kan søke etter ord og fraser i begge språkene og finne ekvivalenter mellom de to språkene på avsnittsnivå. Databasen er publisert på nettet ( og materiale suppleres kontinuerlig.

9 9 EDIT-prosjektet n tospråklig terminologidatabase n på sikt å bygge ut Edit-basen til en tospråklig terminologidatabase for norsk og engelsk, med hovedvekt på humaniora og samfunnsvitenskapene, bl.a. basert på egne oversettelsesarbeider

10 10 n TerminologiNet hierarkisk struktur n på langt sikt å utvikle videre terminologidatabasen til en slags TerminologiNet for enkelte tverrfaglige områder der begrep og termin er representert i en hierarkisk struktur

11 11 EDIT-prosjektet F F EDIT kan defineres som et prosjekt av typen translation workstation (lignende prosjekter i Norge: Magnar Brekke sitt KUNSTI project Kunnskapsbase for norsk økonomisk- administrativt fagdomene (KB-N))

12 12 Problemstillinger omkring kunnskaps/leksikalske databaser F F Hvorfor er leksikonet en viktig ressurs? g g leksikalsk kunnskap ligger til grunn for all slags naturlig språkprosessering (lexical access, comprehension tasks, production tasks)

13 13 Problemstillinger omkring kunnskaps/leksikalske databaser g g ingen grammatikk uten leksikon (ord), moderne psykolingvistiske og kognitive studier (Bates & Goodman 1997) peker på en sterk korrelasjon mellom ”vocabulary size and grammar competence” i språktilegnelse

14 14 Problemstillinger omkring kunnskaps/leksikalske databaser F Hva slags informasjon skal inngå i et leksikon? g Morfologi (enten med mulighet for generering av potensielle ordformer eller som en liste av ordformer, eller begge to) g Ordkategori, semantiske trekk, kollokasjonspotensiale

15 15 Problemstillinger omkring kunnskaps/leksikalske databaser FProblemer og behov g Storskala leksikalske ressurser (Large- scale lexical resources) som kan anvendes og gjenbrukes i forskjellige applikasjons rammeverk g tilgjengelighet   How sophisticated can a system afford to be?

16 16 Tankegangen (ideologien) bak dette prosjektet komplekst system størst mulig kunnskap om de komplekse prosessene som ligger til grunn i språklig prosessering og produksjon generelt i naturlig språk Språk er et komplekst og sammensatt system. For å kunne utvikle hensiktsmessige og godt fungerende teknologiske verktøy for språklig prosessering og generering i enkeltspråk er det nødvendig å ha størst mulig kunnskap om og forståelse for de komplekse prosessene som ligger til grunn i språklig prosessering og produksjon generelt i naturlig språk (som f.eks. ‘real-time’ prossesser og lignende; langtids- og korttidshukommelsens rolle)

17 17 Tankegangen (ideologien) bak dette prosjektet hvordan kunnskap og ferdigheter er representert og strukturertkunnskapsdomener tilgangtil eksisterende kunnskap Legge vekt på og integrere moderne kognisjonsvitenskapelige perspektiver på hvordan kunnskap og ferdigheter er representert og strukturert (f.eks. i kunnskapsdomener og hvordan man får tilgang (access) til eksisterende kunnskap når man trenger det (f.eks. gjennom problembaserte prosesser, analogisk tenkning osv.) Slike tilnærminger er svært viktige i representasjonen av språkkunnskaper og ferdigheter.

18 18 Tankegangen (ideologien) bak dette prosjektet n nettverk nevrale nettverkssystemer n Modelleringen av språkkunnskapsbaser som nettverk som innebærer at ord f.eks. er enheter i et nettverk med lenker mellom de individuelle enhetene og aktiveringen av en enhet (ord) forårsaker aktivering av en del andre som er assosiert med den gjennom lenker (denne tilnærmingen er lik den som brukes i nevrale nettverkssystemer)

19 19 Tankegangen (ideologien) bak dette prosjektet n Nettverksperspektivet inheritance networks n Nettverksperspektivet ligger til grunn for mange moderne teorier om språkkunnskaper der leksikalsk og grammatisk kunnskap er strukturert i inheritance networks (f.eks. Koenig et al.2002, Kay & Fillmore 1997, Fillmore et al FrameNet project (http://www.icsi.berkeley.edu/framenet/), Croft 2001)

20 20 Tankegangen (ideologien) bak dette prosjektet n dynamiske teorierom kategorisering variasjon mellom individer hos samme individ kontekstfrekvens n Utforske anvendelsen av dynamiske teorier om kategorisering (f.eks. Barsalou 1999) som ser på konsepter som dynamiske fenomen med potensiale for variasjon mellom individer (intersubjektivitet) og hos samme individ (intrasubjektivitet) der kontekst og frekvens spiller en viktig role.

21 21 Tankegangen (ideologien) bak dette prosjektet n ekvivalenser mellom språk over ordnivå minimale konteksten umiddelbare kollokosasjonen n Dynamiske teorier er svært viktige for beskrivelsen av ekvivalenser mellom språk over ordnivå. Av avgjørende betydning i språk der betydning varierer fra en kontekst til en annen. Den minimale konteksten kan defineres som den umiddelbare kollokosasjonen for enhver ord/frase.

22 22 Kontekst: et eksempel a tall man/tree/glass *a tall wall a high wall/block of flats *a high man/tree

23 23 Materiale til leksikonprosjektet F F datasamlinger fra kontrastive studier som allerede er utført F F eksisterende datakorpuser

24 24 Lignende systemer the WordNet project (an electronic lexical database, with nouns, verbs, adjectives and adverbs organized into synonym sets, each representing a lexicalized concept; the synonym sets are linked by different relations); CogPrime; Fra parallellkorpus til ordnett, UiB

25 25 Potensielle anvendelser/bruk av det kontrastive leksikonet F F tesaurus i translation workstations (arbeidsbenker for oversettelse) F F i maskinoversettelse (machine translation systems) F F som redskap for å utføre søk i kunnskapsdatabaser

26 26 Perspektiver fremover n n kontrastiv grammatikk: kontrastiv studie på setningsnivå


Laste ned ppt "1 Språkteknologiske løsninger for norsk og engelsk n prosjekter ved Institutt for moderne fremmedspråk/engelsk seksjon i samarbeid med Institutt for nordistikk."

Liknende presentasjoner


Annonser fra Google