Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

INSTITUTT FOR INFORMATIKK INF 3470 jan 2007 - 1 UNIVERSITETET I OSLO MP3 – hva er det og hvordan virker det? Øyvind Ryan.

Liknende presentasjoner


Presentasjon om: "INSTITUTT FOR INFORMATIKK INF 3470 jan 2007 - 1 UNIVERSITETET I OSLO MP3 – hva er det og hvordan virker det? Øyvind Ryan."— Utskrift av presentasjonen:

1 INSTITUTT FOR INFORMATIKK INF 3470 jan UNIVERSITETET I OSLO MP3 – hva er det og hvordan virker det? Øyvind Ryan

2 INSTITUTT FOR INFORMATIKK INF 3470 jan UNIVERSITETET I OSLO Bakgrunn for MP3-standarden Forkortet fra MPEG-1 –Audio layer III, MPEG-1 ble standardisert i Lydformatet som MPEG-1 bruker er bare en av delene i standarden. Lyd i MPEG-1 kan være komprimert på forskjellige måter – etter lag I, lag II eller lag III. Økende kompleksitet. Arvtakere: MPEG-2 (DVD), har støtte for det mer avanserte lydformatet AAC

3 INSTITUTT FOR INFORMATIKK INF 3470 jan UNIVERSITETET I OSLO Hvordan klarer MP3 å komprimere filer? MP3 komprimerer filer ca. 12 ganger bedre enn CD. MP3 bruker en psykoakustisk modell for å fjerne komponenter i lyden som ikke er essensielle for vår oppfattelse av den. Kan bruke forskjellige samplingsrater (kap. 4) Viktige komponenter i lyden blir komprimert meget effektivt ved hjelp av gode algoritmer

4 INSTITUTT FOR INFORMATIKK INF 3470 jan UNIVERSITETET I OSLO Maskering Lyd som ligger nær hverandre i frekvens og/eller tid kan overdøve hverandre. Vi sier at lyd blir maskert. Maskeringen er størst i såkalte kritiske bånd

5 INSTITUTT FOR INFORMATIKK INF 3470 jan UNIVERSITETET I OSLO Grense for hørbar lyd Referanse 20 μPa = N/m 2

6 INSTITUTT FOR INFORMATIKK INF 3470 jan UNIVERSITETET I OSLO Støy som maskerer en frekvens Støy senter 410 Hz bredde 111 Hz Frekvens Hz 5dB under støy Frekvens Hz 5dB under støy Støy + frekvens 1 Støy + frekvens 2 Ikke maskertMaskert Du kan ikke høre en frekvens som ligger i det samme kritiske bånd som støyen hvis amplituden er under en bestemt grense. Slik maskering har også en effekt utenfor de kritiske båndene, men i mindre grad.

7 INSTITUTT FOR INFORMATIKK INF 3470 jan UNIVERSITETET I OSLO Frekvens som maskerer støy Støy senter 1 kHz bredde 162 Hz Frekvens 1, 2kHzFrekvens 2, 1kHz Støy + frekvens 1 Støy + frekvens 2 Ikke maskertMaskert Du kan ikke høre støy som ligger i det samme kritiske bånd som en sinusoide hvis amplituden er under en bestemt grense. Slik maskering har også en effekt utenfor de kritiske båndene, men i mindre grad.

8 INSTITUTT FOR INFORMATIKK INF 3470 jan UNIVERSITETET I OSLO Ledd ved koding av lyd, lag I og II Form delbånd: Anvend et vindu på dataene (kap. 13). 512 lydsampler av gangen Splitt opp lyden i 32 delbånd ved hjelp av en 512 koeffisienters polyfase kvadratur speilfilterbank Gjør en frekvensanalyse av lyden (standarden gir her fritt spillerom): Anvend et Hanning-vindu (se s. 406 i boka) på dataene, etterfulgt av en FFT av lengde 512 (lag I), eller 1024 (lag II) Finn grensene for maskering av lyden Kvantisering av sampler i hvert delbånd: Tilordne bits i delbånd slik at maskert lyd tas bort, støy fra kvantisering blir maskert Til slutt kodes dataene slik standarden krever. 32 bånd 6 bånd 3 bånd 1 bånd

9 INSTITUTT FOR INFORMATIKK INF 3470 jan UNIVERSITETET I OSLO Koding av lyd, lag I og II P. Noll, MPEG digital audio coding, IEEE Sign. Proc. Mag., Sep 1997

10 INSTITUTT FOR INFORMATIKK INF 3470 jan UNIVERSITETET I OSLO Ledd ved koding av lyd, lag III Bruker filterbanken i lag I i kaskade med en 6 eller 18 punkts MDCT (18 punkts MDCT gir 32*18 = 576 frekvensbånd).18 punkts MDCT kjøres for lyd med mye detaljrikdom. 6 punkts gir mer sideinformasjon som må lagres. Detaljrikdom beregnes i den psykoakustiske modellen. Kjører typisk et lenger Hanning-vindu/FFT (feks. 1024) for å finne korttidsspektret i lyden.

11 INSTITUTT FOR INFORMATIKK INF 3470 jan UNIVERSITETET I OSLO Koding av lyd, lag III = MP3 P. Noll, MPEG digital audio coding, IEEE Sign. Proc. Mag., Sep 1997

12 INSTITUTT FOR INFORMATIKK INF 3470 jan UNIVERSITETET I OSLO Beethoven’s 5. symfoni 16 bit kvantisering 2 16 = nivåer 4 bit kvantisering 2 4 =16 nivåer

13 INSTITUTT FOR INFORMATIKK INF 3470 jan UNIVERSITETET I OSLO Hvorfor gir 4 bits kvantisering dårligere lyd? Problem: Ved å bruke få kvantiseringsnivåer på denne måten er det mange nivåer som vi sjelden får brukt. En løsning: Skaler datablokkene dynamisk, slik at hele spektret av verdier blir brukt. Kostnad: Ekstra sideinformasjon om skaleringsfaktorer må lagres.

14 INSTITUTT FOR INFORMATIKK INF 3470 jan UNIVERSITETET I OSLO Skaleringsfaktorer og kvantisering Når lydbildet forandres over tid, vil bare noen få av kvantiseringsnivåene bli brukt i perioder med små magnituder. Bruk skaleringsfaktorer: –Ta et datavindu. –Finn høyeste magnitude i dette vinduet. Velg en skaleringsfaktor fra en tabell –Normaliser med skaleringsfaktoren. –Kvantiser. –Kode skaleringsfaktorer og kvantiserte sampler. MP3 beregner skaleringsfaktor for hvert 12. lydsample

15 INSTITUTT FOR INFORMATIKK INF 3470 jan UNIVERSITETET I OSLO 32 delbånd, så det er 32 filtere i filterbanken. Disse har lik båndbredde og overlapper i frekvens. Filterbanker i MPEG-1

16 INSTITUTT FOR INFORMATIKK INF 3470 jan UNIVERSITETET I OSLO Hva er en polyfase kvadratur speilfilterbank? MP3 bruker en slik. Komplisert uttrykk, skriver ikke opp Filterbanker kan skrives opp med en polyfase- dekomposisjon. Eksempel på bruk av en polyfase- dekomposisjon for et filter (2 delbånd) (som også er en kvadratur speilfilterbank): Denne brukes av bildestandarden JPEG2000 ved tapsfri kompresjon til å delbåndsfiltrere bilder.

17 INSTITUTT FOR INFORMATIKK INF 3470 jan UNIVERSITETET I OSLO Delbånd overlapper ved 3 dB i bånd ved siden av hverandre. Verdiene er små i overlappet. Total respons (d.v.s. summen av de individuelle frekvensresponsene (kap.6)) er nesten 1 En nærmere titt

18 INSTITUTT FOR INFORMATIKK INF 3470 jan UNIVERSITETET I OSLO Hva er en MDCT? DCT (Discrete Cosine Transform). Brukes av JPEG. Å kjøre en DCT svarer til å kjøre en dobbelt så lang DFT, på en symmetrisk utvidet sekvens. MDCT (Modified Discrete Cosine Transform). Man får halvparten så mange sampler ut som inn. MP3 kjører MDCT på overlappende blokker. MPEG-2 AAC kjører en 1024 punkters MDCT, 50% overlapp mellom blokkene.

19 INSTITUTT FOR INFORMATIKK INF 3470 jan UNIVERSITETET I OSLO Ting å lese videre MPEG digital audio coding, IEEE Signal processing magazine, september 1997, side 59-82

20 INSTITUTT FOR INFORMATIKK INF 3470 jan UNIVERSITETET I OSLO Kapitler i læreboka – MP3-koding Kap. 4Diskret-tid signaler og systemer.  Tidsinvarians gjelder bare over kort tid for tale.  Linearitet: kan dele i bånd og sette sammen  FIR filtre Kap. 7Z-transform og dens anvendelser i analyse av LTI Systemer.  Analyse av filter i filterbanken: nøkkel til å få til filterdesign Kap. 4Frekvens-analyse av signaler og systemer.  Frekvensdomene er sentralt i modell av hørsel  Frekvensselektive filtre: båndpassfiltre  Inverse systemer: kan dele i bånd i koder og addere sammen igjen i dekoder Kap. 13Diskret Fourier transform: Dens egenskaper og anvendelser  Frekvensanalyse av signaler Kap. 13Effektiv beregning av DFT: Fast Fourier Transform algoritmer.  FFT brukes i estimering av spektrum i koder. Kap. 13Implementasjon av diskret-tid systemer.  Filterstrukturer, hvordan implementere filterbank i koder og dekoder INF5400Design av digitale filtere.  Hvordan finne koeffisienter til båndpassfiltrene i filterbanken? Kap. 4Sampling og rekonstruksjon av signaler.  A/D-analyse: kvantiseringsstøy ved direkte sampling INF5400Multirate digital signalbehandling.  Hvert delfilter kan nedsamples pga bare 1/32 av total båndbredde => trenger bare 1/32 samplerate per filter INF5400Estimering av spektrum.  Må estimere korttidsspektrum for å finne gode måter å fordele bits i delbånd


Laste ned ppt "INSTITUTT FOR INFORMATIKK INF 3470 jan 2007 - 1 UNIVERSITETET I OSLO MP3 – hva er det og hvordan virker det? Øyvind Ryan."

Liknende presentasjoner


Annonser fra Google