Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Kunstig nevrale nett og talesyntese.

Liknende presentasjoner


Presentasjon om: "Kunstig nevrale nett og talesyntese."— Utskrift av presentasjonen:

1 Kunstig nevrale nett og talesyntese.
Av: Henning Kvinnesland Veileder: Terje Kristensen

2 Tidligere forsøk Nettalk
Finnes mange kommersielle systemer for syntetisk tale. Eksempler:

3 Hva er målet ved oppgaven?
Å skape et program som lærer å snakke forståelig (naturlig) norsk. Holde mulighetene åpne for utvidning til andre språk samt talegjenkjenning. Programmet skal være kompilerbart og kjørbart på en standard pc.

4 Teknologier, verktøy og deres bruksområder
Backpropagation Counterpropagation Binary Associative Memory Visual .NET VST (lydkosmetikk) VoiceXML

5 Backpropagation Stille rundt Knn etter Minsky og Papert eksponerte perseptronets svakheter med tanke på ikke lineart separerbare problemer (XOR). Minsky jobber for tiden med No-touch virtuell sex. Økende interesse på 80 tallet og backpropagation kommer i søkelyset. Består av tre lag: input, skjult og output. Overvåket læring. Det skjulte laget gjør BP i stand til å løse bla XOR.

6 Counterpropagation Utviklet av Robert Hecht-Nielsen og ble utgitt i 1987. Enklere å trene og implementere enn BP. Har en interpolerende effekt når det møter inputmønstre som ligger mellom to andre kjente inputmønstre. Brukes gjerne som en midlertidig løsning før et Backpropagation nettverk skal implementeres. Har blitt brukt til datakompresjon med brukbare resultater selv ved kompresjonsgrader mellom 1:10 og 1:100.

7 Binary Associative Memory
Gjerne benyttet til tilstandslagring (assosiativt). Ikke overvåket læring. Har med hell vært utprøvd til å gjenkjenne mønstre i bilder. Tenker å benytte det for tilstander/ord som ikke følger noen mønster. For eksempel myk eller hard c problematikken Nettalk møtte.

8 Visual .NET Hoveddelen av oppgaven blir skrevet i C#.
Backpropagation er implementert i C++. Frihet til å programmere i nesten hvilket som helst språk. Assembly, vb, c, c++, Java etc...

9 VST Standard for moduler til lydprosessering.
Utviklet av Steinberg (VST 2 i 1999) Stor vekt på hurtighet/forsinkelse for sanntidsprosessering av lyd. Benytter seg av nyere hardware i lydkort for svært høy ytelse.

10 VoiceXML Voice Extensible Markup Language.
Benyttes til tagging av en tekst for å formidle følelser eller nyanser som ikke kommer tydelig frem uten at man kjenner konteksten. Enkelt å validere et dokument da det allerede er en veletablert standard. Hovedmålet til VoiceXML er å bringe kraften i web utvikling og innholdslevering til applikasjoner som bruker TTS til å interaktere med brukerne. Minimaliserer client/server kommunikasjon ved å støtte flere interaksjoner per dokument. Programutviklere slipper å forholde seg til lavnivå kode og plattform spesifikke detaljer.

11 Komponentene Tekst til fonem oversetter Fonem til lydfil tilknytning.
1. steg av lydkosmetikk. Setningsparser for toneleie. 2. steg av lydkosmetikk. Ferdig tale.

12 Tekst til fonem oversetter
Hoveddelen i oppgaven. Vil sannsynligvis bestå av en samling av knn. Det er her mye av ”forskningen” skjer.

13 Fonem til lydfil tilknytning
Etter at teksten har blitt oversatt til fonemer kobles fonemene mot faktiske lydfiler som slås sammen til et helt ord.

14 1. steg av lydkosmetikk Da det er i overgangene mellom de forskjellige fonemene språkets karakteristikker trer tydeligst frem må overgangene mellom de ulike fonemene manipuleres/interpoleres for at det skal høres naturlig ut. Dette blir gjort separat for hvert enkelt ord. Har planer om å teste bruk av difoner for å unngå denne problematikken (mye arbeid).

15 Setningsparser Ved å vite hvilken ordklasse ordene hører til, hvilken setningstype det jobbes med, legges det til trykk og toneleie på de riktige stedene. Dette har med hell blitt utprøvd i andre systemer for å skape et generelt menneskelig, men nøytralt toneleie. Det kan på dette nivået bli aktuelt med en generell kontekstmodul som erstatter voiceXML hvis det ikke er i bruk.

16 2. steg av lydkosmetikk Ved hjelp av informasjonen som setningsparseren gir vil denne delen av programmet gjøre de endringer som er nødvendig for at talen skal høres mest mulig naturlig ut.

17 Maskinlæring Genetiske algoritmer (evolusjon).
Selvmodifiserende programmer. Beslutningstrær (avgjørelser basert på boolske tilstandsvariabler). Forsterkningslære (prøve og feile).

18 Vellykkede bruksområder for maskinlæring
Taksere lån og kreditt risiko. Oppdage kredittkort svindel. Katalogisere astronomiske bilder. Avgjøre hvilke blader/reklame som skal bli sendt til ditt hus. Hjelpe trenere å analysere spillernes prestasjoner. Personalisere nyheter og web søk. Styre en automatisk bil i enkelt miljø (knn). Stemme under valg: basert på topp/stryk, forutsi parti. Søppelpost: analyserer hver e-post ord for ord, måler frekvensen for gjenbruk av ord, skal kunne skjønne om mailen er søppelpost eller ikke. Markedsberegninger: Kunne forutsi om en person vil kjøpe en bestemt vare basert på tidligere kjøp, kartlegge kjøpevaner.

19 Kunstig intelligens Under 2. verdenskrig trodde USA i en liten periode at en datamaskin skulle være i stand til å legge strategien til rette for seier. Dette kan nok bli mulig en dag, men det er gjenstår nok litt arbeid.

20 Nettalk Ferdig utviklet i 1987. Nøyaktighet på over 90%
Noe problemer med myk og hard c som er et problem barn gjerne har i begynnelsen. Krevde bits for å lagre nettverket. Ordlisten ville krevd bits. Ved å studere nettet i detalj oppdaget man at nettet hadde gruppert konsonanter og vokaler hver for seg.

21 Om språk Fonemer (atomære deler).
Difoner (overgangene mellom fonemene) Toneleie (trykk 1, trykk 2, (1.5, sunnmøre) Følelser Naturlig tale?

22 Når er vi fornøyd? Når et hvilket som helst menneske ikke klarer å avgjøre om det er menneske eller maskin som snakker. (Turing testen) Når språk og dialekter enkelt kan legges til som en eller flere maler. (Engelsk med russisk aksent) Når en ”intelligens” bak språkmotoren selv forstår innholdet av teksten.

23 Tale og språkforståelse
Naturlig tale er nært relatert til hva som blir uttalt. For at et databasert talesystem ikke skal kunne skilles fra et menneske, må det kjenne, eller bli fortalt konteksten. VoiceXML

24 Forskjellige teknikker for å oppnå data skapt tale.
Analoge systemer. Copy paste av forhåndsinnspilte lydsnutter. (kontofonen) Fonembasert. (slik de fleste er i dag) Fysikkmodellering av stemmebånd. Hidden Markov Models.

25 Tale tilpasset lytteren.
Psykologisk aspekt. Lytteren foretrekker en stemme som ligner ens egen. 28 identifiserte variabler som formidler følelser i det engelske språket. Det har blitt utviklet talemotorer som formidler følelser som lykke, sinne, tristhet, frykt.

26 Resultatet? En datamaskin kan lære å snakke. Forståelig tale? (Ja).
Naturlig tale? (kanskje).


Laste ned ppt "Kunstig nevrale nett og talesyntese."

Liknende presentasjoner


Annonser fra Google