Kunstig nevrale nett og talesyntese.

Slides:



Advertisements
Liknende presentasjoner
Teknologi i klasserommet
Advertisements

BARNS SPRÅKUTVIKLING Test deg selv!
De dårige følelsene. Veiene ut..
Hva slags spørsmål skal man stille på hvilke nivåer?
Kvalitetssikring av h.app.tilpasn.
Hvordan etablere nettbutikk med GoOnline Commerce
Kontoinnstillinger Slik kommer du til «Kontoinnstillinger»:
22 tips for den faglitterære forfatteren
Retningslinjer for klubben – og foreldrevettregler
Kontoinnstillinger Slik kommer du til «Kontoinnstillinger»:
Refleksjoner og tanker rundt bruk av C-map i skolen
Novelle En novelle er en skjønnlitterær fortelling.
Larvik Og Omegn MS Foreningen sin PC opplæring høsten 2005 Dette undervisningsmaterielle er laget av Ole Andreas Hvatum oktober 2005.
Slik kommer du til «Personverninnstillinger»: Logg inn på Facebook.
Sommervikar i Blend.
To kjerneferdigheter Lytte Stille spørsmål
Nettvett.
Introduksjon til Internett
HVA ER ?.
Sikkerhet - bakgrunn og introduksjon til kryptosystemer
- roller og forventinger
Dokument med bilde, formatere i Word
Grunnleggende spørsmål om naturfag
LederAkademiet bygger fremtidens bedrift. Hvordan vil fremtidens bedrift se ut ? Er det noen signaler i horisonten ?
MS kap 61 Nye trender  Vi skal se på  Virtualisering  ”Cloud computing”
Ideutvikling - Problemdefinisjonen. Hva gjør de erfarne problemløserne? •Samler og analyserer informasjon og data •Snakker med mennesker som kjenner problemet.
Maskin Læring Litt generelt Hva er maskin læring?
1 Oppgave gjennomgang Kap Oppgaver -Kap 12: 1, 2, 3, 5, 7, 8, 11, 18, 19.
Kursopplegg for KlubbenOnline Kursmateriellet er laget av Runar Sveen, Akershus IK November 2000.
Utført av: Jeppe Flensted HiST Vår 2009
Nye websider for Sørli skole
Prosjektoppgaven – krav og suksessfaktorer. Suksessfaktorer Bruk biblioteket Bruk veilederen Start skrivingen tidlig Jobb jevnt (lag gjerne tids- og handlingsplaner.
Innledning SIF80AP Future and HCI av Brad Myers m.fl.
Combining Compound Conceptual User Interface Components with Modelling Patterns - a Promising Direction for Model-based Cross-platform User Interface Development.
Lederen som coach Jeg kan ikke lære noen noe,
NEWS Et uvurdelig hjelpemiddel i hverdagen. Hva skal vi gjennom i dag Hva er news? Hva brukes news til? Programmer og grupper Noen ord og uttrykk Noen.
Evaluering av november på Blå avdeling:
Læring prosjektpraksis Førsteamanuensis Prosjektledelse,
Vorspiel En vakker vårdag ringer rådmannen i Hamar til en av sine sjefer, og de begynner å diskutere status i kommunen…
Suksesskriterier.
Hvordan kan foreldre bruke de vangligste funksjonene i Itslearning.com
UNG som skyggeredaksjon. Anne Lene Blystad. Jeg er koordinator for UNG-reporter redaksjonen i Hamar Arbeiderblad. Jeg er 22 år, nyutdannet journalist.
Funksjoner og Innstillinger i
Kvalitative og kvantitative metoder
Nasjonal Sikkerhetsdag 2009 Røros kommune. Hva er Nasjonal Sikkerhetsdag? En mulighet til å lære mer om informasjonssikkerhet En dugnad for å bedre informasjonssikkerheten.
Programmering sif8005. Praktisk informasjon  Innleveringsfrist øvinger: mandag kl  Alle øvinger er obligatoriske  Studass tilgjengelig 6 timer.
100 lure ord å lære.
Magnus Haug Algoritmer og Datastrukturer
KVALITET I LÆRING MED DIGITALE MEDIER I TILPASSET OPPLÆRING Obligatorisk fremlegg IKT 2 4 mai 2011 Lise Meier 1.
Spørsmål og aktiviteter på ulike nivåer
Kommunikasjon JOHARI Tilbakemeldinger Aktiv lytting og åpne spørsmål
Kapittel 36 Reza forteller om sin arbeidserfaring.
Jæger: Robuste og sikre systemer INF150 Programmering Kapittel 2: Problemløsning Kapittel 3.1 og 3.2.
De 222 mest brukte ordene i det norske språket..
11. Balancing technology with people’s needs Bruk av teknologi.
Sammensatte tekster ?.
1 Kap. 17 – Interactive computing How Information Technology Is Conquering the World: Workplace, Private Life, and Society Professor Kai A. Olsen, Universitetet.
Tilbakeblikk på Arendalskonferansen - og hvor er vi egentlig nå? Innovasjonsalliansen 8. september 2010.
Opplæring: Pålogging Prosedyre for logge på og av, låse og åpne PC’er DatoVersjonForfatterGodkjent avEndringer utført André S. MathiesenTore.
An approach to multimodal and ergonomic nomadic services Marco Riva og Massimo Legnani.
Masteroppgave Administrasjonsmoduler til eAccess.
Innrapportering via mobil enhet Hovedprosjekt 2004.
Lydkort. De første PC’ene  Liten høyttaler på hovedkortet  Lagde ”beep” med forskjellige frekvenser  Nok til å spille veldig enkel musikk, men det.
Problemløsning.
Trafikantens mobile sanntidssystem Presentasjon INF5261.
Kap. 9 – Computer Intelligence How Information Technology Is Conquering the World: Workplace, Private Life, and Society Professor Kai A. Olsen,
Hvordan skrive egne dilemma
Verktøy for å kartlegge holdninger
Nye trender Vi skal se på Virtualisering ”Cloud computing”
Leseutvikling og læringsstrategier
Utskrift av presentasjonen:

Kunstig nevrale nett og talesyntese. Av: Henning Kvinnesland Veileder: Terje Kristensen

Tidligere forsøk Nettalk Finnes mange kommersielle systemer for syntetisk tale. Eksempler:

Hva er målet ved oppgaven? Å skape et program som lærer å snakke forståelig (naturlig) norsk. Holde mulighetene åpne for utvidning til andre språk samt talegjenkjenning. Programmet skal være kompilerbart og kjørbart på en standard pc.

Teknologier, verktøy og deres bruksområder Backpropagation Counterpropagation Binary Associative Memory Visual .NET VST (lydkosmetikk) VoiceXML

Backpropagation Stille rundt Knn etter Minsky og Papert eksponerte perseptronets svakheter med tanke på ikke lineart separerbare problemer (XOR). Minsky jobber for tiden med No-touch virtuell sex. Økende interesse på 80 tallet og backpropagation kommer i søkelyset. Består av tre lag: input, skjult og output. Overvåket læring. Det skjulte laget gjør BP i stand til å løse bla XOR.

Counterpropagation Utviklet av Robert Hecht-Nielsen og ble utgitt i 1987. Enklere å trene og implementere enn BP. Har en interpolerende effekt når det møter inputmønstre som ligger mellom to andre kjente inputmønstre. Brukes gjerne som en midlertidig løsning før et Backpropagation nettverk skal implementeres. Har blitt brukt til datakompresjon med brukbare resultater selv ved kompresjonsgrader mellom 1:10 og 1:100.

Binary Associative Memory Gjerne benyttet til tilstandslagring (assosiativt). Ikke overvåket læring. Har med hell vært utprøvd til å gjenkjenne mønstre i bilder. Tenker å benytte det for tilstander/ord som ikke følger noen mønster. For eksempel myk eller hard c problematikken Nettalk møtte.

Visual .NET Hoveddelen av oppgaven blir skrevet i C#. Backpropagation er implementert i C++. Frihet til å programmere i nesten hvilket som helst språk. Assembly, vb, c, c++, Java etc...

VST Standard for moduler til lydprosessering. Utviklet av Steinberg (VST 2 i 1999) Stor vekt på hurtighet/forsinkelse for sanntidsprosessering av lyd. Benytter seg av nyere hardware i lydkort for svært høy ytelse.

VoiceXML Voice Extensible Markup Language. Benyttes til tagging av en tekst for å formidle følelser eller nyanser som ikke kommer tydelig frem uten at man kjenner konteksten. Enkelt å validere et dokument da det allerede er en veletablert standard. Hovedmålet til VoiceXML er å bringe kraften i web utvikling og innholdslevering til applikasjoner som bruker TTS til å interaktere med brukerne. Minimaliserer client/server kommunikasjon ved å støtte flere interaksjoner per dokument. Programutviklere slipper å forholde seg til lavnivå kode og plattform spesifikke detaljer.

Komponentene Tekst til fonem oversetter Fonem til lydfil tilknytning. 1. steg av lydkosmetikk. Setningsparser for toneleie. 2. steg av lydkosmetikk. Ferdig tale.

Tekst til fonem oversetter Hoveddelen i oppgaven. Vil sannsynligvis bestå av en samling av knn. Det er her mye av ”forskningen” skjer.

Fonem til lydfil tilknytning Etter at teksten har blitt oversatt til fonemer kobles fonemene mot faktiske lydfiler som slås sammen til et helt ord.

1. steg av lydkosmetikk Da det er i overgangene mellom de forskjellige fonemene språkets karakteristikker trer tydeligst frem må overgangene mellom de ulike fonemene manipuleres/interpoleres for at det skal høres naturlig ut. Dette blir gjort separat for hvert enkelt ord. Har planer om å teste bruk av difoner for å unngå denne problematikken (mye arbeid).

Setningsparser Ved å vite hvilken ordklasse ordene hører til, hvilken setningstype det jobbes med, legges det til trykk og toneleie på de riktige stedene. Dette har med hell blitt utprøvd i andre systemer for å skape et generelt menneskelig, men nøytralt toneleie. Det kan på dette nivået bli aktuelt med en generell kontekstmodul som erstatter voiceXML hvis det ikke er i bruk.

2. steg av lydkosmetikk Ved hjelp av informasjonen som setningsparseren gir vil denne delen av programmet gjøre de endringer som er nødvendig for at talen skal høres mest mulig naturlig ut.

Maskinlæring Genetiske algoritmer (evolusjon). Selvmodifiserende programmer. Beslutningstrær (avgjørelser basert på boolske tilstandsvariabler). Forsterkningslære (prøve og feile).

Vellykkede bruksområder for maskinlæring Taksere lån og kreditt risiko. Oppdage kredittkort svindel. Katalogisere astronomiske bilder. Avgjøre hvilke blader/reklame som skal bli sendt til ditt hus. Hjelpe trenere å analysere spillernes prestasjoner. Personalisere nyheter og web søk. Styre en automatisk bil i enkelt miljø (knn). Stemme under valg: basert på topp/stryk, forutsi parti. Søppelpost: analyserer hver e-post ord for ord, måler frekvensen for gjenbruk av ord, skal kunne skjønne om mailen er søppelpost eller ikke. Markedsberegninger: Kunne forutsi om en person vil kjøpe en bestemt vare basert på tidligere kjøp, kartlegge kjøpevaner.

Kunstig intelligens Under 2. verdenskrig trodde USA i en liten periode at en datamaskin skulle være i stand til å legge strategien til rette for seier. Dette kan nok bli mulig en dag, men det er gjenstår nok litt arbeid.

Nettalk Ferdig utviklet i 1987. Nøyaktighet på over 90% Noe problemer med myk og hard c som er et problem barn gjerne har i begynnelsen. Krevde 20 000 bits for å lagre nettverket. Ordlisten ville krevd 2 000 000 bits. Ved å studere nettet i detalj oppdaget man at nettet hadde gruppert konsonanter og vokaler hver for seg.

Om språk Fonemer (atomære deler). Difoner (overgangene mellom fonemene) Toneleie (trykk 1, trykk 2, (1.5, sunnmøre) Følelser Naturlig tale?

Når er vi fornøyd? Når et hvilket som helst menneske ikke klarer å avgjøre om det er menneske eller maskin som snakker. (Turing testen) Når språk og dialekter enkelt kan legges til som en eller flere maler. (Engelsk med russisk aksent) Når en ”intelligens” bak språkmotoren selv forstår innholdet av teksten.

Tale og språkforståelse Naturlig tale er nært relatert til hva som blir uttalt. For at et databasert talesystem ikke skal kunne skilles fra et menneske, må det kjenne, eller bli fortalt konteksten. VoiceXML

Forskjellige teknikker for å oppnå data skapt tale. Analoge systemer. Copy paste av forhåndsinnspilte lydsnutter. (kontofonen) Fonembasert. (slik de fleste er i dag) Fysikkmodellering av stemmebånd. Hidden Markov Models.

Tale tilpasset lytteren. Psykologisk aspekt. Lytteren foretrekker en stemme som ligner ens egen. 28 identifiserte variabler som formidler følelser i det engelske språket. Det har blitt utviklet talemotorer som formidler følelser som lykke, sinne, tristhet, frykt.

Resultatet? En datamaskin kan lære å snakke. Forståelig tale? (Ja). Naturlig tale? (kanskje).