Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

MP3 – hva er det og hvordan virker det?

Liknende presentasjoner


Presentasjon om: "MP3 – hva er det og hvordan virker det?"— Utskrift av presentasjonen:

1 MP3 – hva er det og hvordan virker det?
Øyvind Ryan

2 Bakgrunn for MP3-standarden
Forkortet fra MPEG-1 –Audio layer III, MPEG-1 ble standardisert i Lydformatet som MPEG-1 bruker er bare en av delene i standarden. Lyd i MPEG-1 kan være komprimert på forskjellige måter – etter lag I, lag II eller lag III. Økende kompleksitet. Arvtakere: MPEG-2 (DVD), har støtte for det mer avanserte lydformatet AAC

3 Hvordan klarer MP3 å komprimere filer?
MP3 komprimerer filer ca. 12 ganger bedre enn CD. MP3 bruker en psykoakustisk modell for å fjerne komponenter i lyden som ikke er essensielle for vår oppfattelse av den. Kan bruke forskjellige samplingsrater (kap. 4) Viktige komponenter i lyden blir komprimert meget effektivt ved hjelp av gode algoritmer

4 Maskering Lyd som ligger nær hverandre i frekvens og/eller tid kan overdøve hverandre. Vi sier at lyd blir maskert. Maskeringen er størst i såkalte kritiske bånd

5 Grense for hørbar lyd Referanse 20 μPa = N/m2

6 Støy som maskerer en frekvens
senter 410 Hz bredde 111 Hz Frekvens 1 820 Hz 5dB under støy Frekvens 2 410 Hz + frekvens 1 frekvens 2 Ikke maskert Maskert Du kan ikke høre en frekvens som ligger i det samme kritiske bånd som støyen hvis amplituden er under en bestemt grense. Slik maskering har også en effekt utenfor de kritiske båndene, men i mindre grad.

7 Frekvens som maskerer støy
senter 1 kHz bredde 162 Hz Frekvens 1, 2kHz Frekvens 2, 1kHz + frekvens 1 frekvens 2 Ikke maskert Maskert Du kan ikke høre støy som ligger i det samme kritiske bånd som en sinusoide hvis amplituden er under en bestemt grense. Slik maskering har også en effekt utenfor de kritiske båndene, men i mindre grad.

8 Ledd ved koding av lyd, lag I og II
Form delbånd: Anvend et vindu på dataene (kap. 13). 512 lydsampler av gangen Splitt opp lyden i 32 delbånd ved hjelp av en 512 koeffisienters polyfase kvadratur speilfilterbank Gjør en frekvensanalyse av lyden (standarden gir her fritt spillerom): Anvend et Hanning-vindu (se s. 406 i boka) på dataene, etterfulgt av en FFT av lengde 512 (lag I), eller 1024 (lag II) Finn grensene for maskering av lyden Kvantisering av sampler i hvert delbånd: Tilordne bits i delbånd slik at maskert lyd tas bort, støy fra kvantisering blir maskert Til slutt kodes dataene slik standarden krever. 32 bånd 6 bånd 3 bånd 1 bånd

9 Koding av lyd, lag I og II P. Noll, MPEG digital audio coding, IEEE Sign. Proc. Mag., Sep 1997

10 Ledd ved koding av lyd, lag III
Bruker filterbanken i lag I i kaskade med en 6 eller 18 punkts MDCT (18 punkts MDCT gir 32*18 = 576 frekvensbånd).18 punkts MDCT kjøres for lyd med mye detaljrikdom. 6 punkts gir mer sideinformasjon som må lagres. Detaljrikdom beregnes i den psykoakustiske modellen. Kjører typisk et lenger Hanning-vindu/FFT (feks. 1024) for å finne korttidsspektret i lyden.

11 Koding av lyd, lag III = MP3
P. Noll, MPEG digital audio coding, IEEE Sign. Proc. Mag., Sep 1997

12 Beethoven’s 5. symfoni 16 bit kvantisering 4 bit kvantisering
216= nivåer 4 bit kvantisering 24=16 nivåer

13 Hvorfor gir 4 bits kvantisering dårligere lyd?
Problem: Ved å bruke få kvantiseringsnivåer på denne måten er det mange nivåer som vi sjelden får brukt. En løsning: Skaler datablokkene dynamisk, slik at hele spektret av verdier blir brukt. Kostnad: Ekstra sideinformasjon om skaleringsfaktorer må lagres.

14 Skaleringsfaktorer og kvantisering
Når lydbildet forandres over tid, vil bare noen få av kvantiseringsnivåene bli brukt i perioder med små magnituder. Bruk skaleringsfaktorer: Ta et datavindu. Finn høyeste magnitude i dette vinduet. Velg en skaleringsfaktor fra en tabell Normaliser med skaleringsfaktoren. Kvantiser. Kode skaleringsfaktorer og kvantiserte sampler. MP3 beregner skaleringsfaktor for hvert 12. lydsample

15 Filterbanker i MPEG-1 32 delbånd, så det er 32 filtere i filterbanken. Disse har lik båndbredde og overlapper i frekvens.

16 Hva er en polyfase kvadratur speilfilterbank?
MP3 bruker en slik. Komplisert uttrykk, skriver ikke opp Filterbanker kan skrives opp med en polyfase-dekomposisjon. Eksempel på bruk av en polyfase-dekomposisjon for et filter (2 delbånd) (som også er en kvadratur speilfilterbank): Denne brukes av bildestandarden JPEG2000 ved tapsfri kompresjon til å delbåndsfiltrere bilder.

17 En nærmere titt Delbånd overlapper ved 3 dB i bånd ved siden av hverandre. Verdiene er små i overlappet. Total respons (d.v.s. summen av de individuelle frekvensresponsene (kap.6)) er nesten 1

18 Hva er en MDCT? DCT (Discrete Cosine Transform). Brukes av JPEG. Å kjøre en DCT svarer til å kjøre en dobbelt så lang DFT, på en symmetrisk utvidet sekvens. MDCT (Modified Discrete Cosine Transform). Man får halvparten så mange sampler ut som inn. MP3 kjører MDCT på overlappende blokker. MPEG-2 AAC kjører en 1024 punkters MDCT, 50% overlapp mellom blokkene.

19 Ting å lese videre MPEG digital audio coding, IEEE Signal processing magazine, september 1997, side 59-82

20 Kapitler i læreboka – MP3-koding
Diskret-tid signaler og systemer. Tidsinvarians gjelder bare over kort tid for tale. Linearitet: kan dele i bånd og sette sammen FIR filtre Kap. 7 Z-transform og dens anvendelser i analyse av LTI Systemer. Analyse av filter i filterbanken: nøkkel til å få til filterdesign Frekvens-analyse av signaler og systemer. Frekvensdomene er sentralt i modell av hørsel Frekvensselektive filtre: båndpassfiltre Inverse systemer: kan dele i bånd i koder og addere sammen igjen i dekoder Kap. 13 Diskret Fourier transform: Dens egenskaper og anvendelser Frekvensanalyse av signaler Effektiv beregning av DFT: Fast Fourier Transform algoritmer. FFT brukes i estimering av spektrum i koder. Implementasjon av diskret-tid systemer. Filterstrukturer, hvordan implementere filterbank i koder og dekoder INF5400 Design av digitale filtere. Hvordan finne koeffisienter til båndpassfiltrene i filterbanken? Sampling og rekonstruksjon av signaler. A/D-analyse: kvantiseringsstøy ved direkte sampling Multirate digital signalbehandling. Hvert delfilter kan nedsamples pga bare 1/32 av total båndbredde => trenger bare 1/32 samplerate per filter Estimering av spektrum. Må estimere korttidsspektrum for å finne gode måter å fordele bits i delbånd


Laste ned ppt "MP3 – hva er det og hvordan virker det?"

Liknende presentasjoner


Annonser fra Google