MP3 – hva er det og hvordan virker det?

Slides:



Advertisements
Liknende presentasjoner
Kjøpte produkter - Rabatter - Budsjett 3 moduler som er integrert i SuperOffice Påfølgende bilder vil vise en enkel forklaring og noen skjermdumper om.
Advertisements

Hva sier de offentlige styringsdokumentene?
Hva slags spørsmål skal man stille på hvilke nivåer?
Er datasikkerhet viktig for deres firma ? Hva ville dere gjøre hvis alle data plutselig ble borte ved: •Tyveri ? •Brann ? •Datahavari ? •Menneskelig svikt.
Litt mer om PRIMTALL.
Noen resultater fra Cerebral parese registeret i Norge
Lag film. Lag video •Videoteknologien har utviklet seg raskt de siste årene. Digital video er i ferd med å avløse analoge systemer. Med digital video.
1. Om postere Når vi her snakker om Postere mener vi vitenskapelige plansjer til bruk på seminarer, kongresser og i andre faglige sammenhenger. Vi snakker.
1.Om postere Postere er vitenskapelige plansjer til bruk på seminarer, kongresser og i andre faglige sammenhenger. Vi snakker altså ikke om plakater som.
Tørkeparti PM 5.
The Travelling Salesperson. LOG530 Distribusjonsplanlegging 2 2 Et forsyningsskip skal starte fra VestBase for å betjene 10 forskjellig installasjoner.
Fysikk 2 Sampling og digital behandling av lyd
Vurdering av statistiske analysemetoder brukt i Læringslabens undersøkelser i videregående skole i Rogaland.
Kap 5 - Prediksjonsmodeller
Ulike sorteringsmetoder Kompleksitet av dem
Komplett avstandstabell. LOG530 Distribusjonsplanlegging 2 2 Noen ganger er det behov for en komplett avstandstabell mellom alle nodene i et nettverk.
Kryptografi og nettverkssikkerhet
Forelesning nr.5 INF 1411 Elektroniske systemer
Forelesning nr.5 INF 1411 Oppsummeringsspørsmål
Gjenfinningssystemer og verktøy II
Kompleksitetsanalyse
Generelt I/O if/else Funksjoner Lists Løkker Dictionaries Annet Listebehandling Klasser Python med noen algdat-anvendelser Åsmund Eldhuset asmunde *at*
Grunnleggende testteori
1: Gjengs leie Gjengs leie for hybler og leiligheter i Oslo første kvartal 2007.
Billed dannelse Gradientsystemet:
Grunnleggende Signalbehandling
Utført av: Jeppe Flensted HiST Vår 2009
Klargjøring fra forrige gang
INF150 Programmering mandag 11.9
1 Helse / IT Databaser. 2 InnholdInnhold -Presentasjon (m/IT-helse ved HiA) -OppsummeringDatabase - Tabeller - Modellering - SQL -Database-demo -Strukturering.
Programvare som stimulerer barn til lek, og kreativ og skapende bruk
Orientering om In104 Aslak Tveito Institutt for Informatikk Universitetet i Oslo
NEWS Et uvurdelig hjelpemiddel i hverdagen. Hva skal vi gjennom i dag Hva er news? Hva brukes news til? Programmer og grupper Noen ord og uttrykk Noen.
Statistikk på 20 2 timer PSY-1002
Flash og ActionScript - Nye muligheter Jostein Nordengen.
INF 295 Algoritmer og datastrukturer Forelesning 1 - kapittel 1 Introduksjon Hans F. Nordhaug (Ola Bø) (Ketil Danielsen, 2007)
INF 295 forelesning 14 - kap 8 Disjunkt mengde ADT Hans Fr. Nordhaug (Ola Bø)
INF 295 Algoritmer og datastrukturer Forelesning 4 Algoritmeanalyse Hans Fr. Nordhaug (Ola Bø)
INF 295 Forelesning 18 - kap 9 Aktivitetsgrafer
INF 295 Forelesning 19 - Dynamisk programmering Korteste vei alle til alle (Floyd) Hans Fr. Nordhaug (Ola Bø)
INF 295 Algoritmer og datastrukturer Forelesning 10 Invarianter og Hashing Hans Fr. Nordhaug (Ola Bø)
Dynamiske nettsider PHP Del 2 – Kontrollstrukturer.
Eksempel på Lav-pass filter (analog signalbehandling)
INSTITUTT FOR INFORMATIKKINF ØR , Intro nr. 1 UNIVERSITETET I OSLO Velkommen til INF 2400 Digital Signalbehandling Foreleser: Øyvind Ryan.
Bedre bassgjengivelse ved avspilling over små høyttalere INF3460-prosjekt:
Hovedfagspresentasjon
Boligbyggs gjengs leie-rapport – 4. kvartal 2007 Denne rapporten inneholder statistikk over det gjennomsnittlige, etablerte leienivået i Oslo per 4. kvartal.
Frekvensfilter – Kap 23 i Paynter
Å omfavne forandringer med ekstrem programmering(XP) Brukt i In140 Skrevet av Ola Bø Bygger på Kent Becks artikkel "Embracing change with extreme programming."
1. Om postere Når vi her snakker om Postere mener vi vitenskapelige plansjer til bruk på seminarer, kongresser og i andre faglige sammenhenger. Vi snakker.
Spørsmål og aktiviteter på ulike nivåer
Hørselvern Always a Safe Step ahead!.
STØY OG HØRSEL: Noen råd for å bevare god hørsel – hele livet! 1.
INF-1400 Obligatorisk Oppgave 1 Breakout-Klone Marius Andreassen Edvard Pedersen
Designing a DHT for low latency and high through TDT2 – Avanserte distribuerte systemer Øystein Ellingbø.
HUMIT /38bKåre A. Andersen1 HUMIT1730 Hypermedier Digitalisering Uke 38b.
Telenors satsing på fri programvare Paul Skrede - GoOpen 2009.
Kapittel 1, oppgave i) Sett inn preposisjoner eller adverb som passer.
Regresjon Petter Mostad
Prosjekt Inf 4460, Akustisk Dataoverføring 2. milepæl: Presentasjon av oppgavens bakgrunn og status på feltet Av Kristian B. Ellingsberg.
§4. Irrasjonale og komplekse tall
Stian Grønning Master i samfunnsøkonomi Daglig leder i Recogni.
INF23101 / 26 ● Kjapp repetisjon av gråtonetransformasjon ● Histogramtransformasjoner − Histogramutjevning − Histogramtilpasning/histogramspesifikasjon.
1 / INF2310 INF 2310 – 15. mars 2011 Diskret Fouriertransform – del II Kjapp repetisjon Bruk av vinduer Konvolusjonsteoremet Filtre og filtrering.
M&L2 Kap. 5 - ver.1 Spørre- skjemaer Oslo, okt 2010.
INF23101 / 27 ● Romlig oppløsning ● Sampling av bilder ● Kvantisering av pikselintensiteter INF2310 – 25. januar 2011 – Ukens temaer (Kap
I dag: Sinus-funksjoner i 1D og 2D 2D diskret Fouriertransform (DFT)
CT parametere i radiografens hender
AES Oslo Børge Strand-Bergesen
INF-1400 Obligatorisk Oppgave 1
Utskrift av presentasjonen:

MP3 – hva er det og hvordan virker det? Øyvind Ryan

Bakgrunn for MP3-standarden Forkortet fra MPEG-1 –Audio layer III, MPEG-1 ble standardisert i 1993. Lydformatet som MPEG-1 bruker er bare en av delene i standarden. Lyd i MPEG-1 kan være komprimert på forskjellige måter – etter lag I, lag II eller lag III. Økende kompleksitet. Arvtakere: MPEG-2 (DVD), har støtte for det mer avanserte lydformatet AAC

Hvordan klarer MP3 å komprimere filer? MP3 komprimerer filer ca. 12 ganger bedre enn CD. MP3 bruker en psykoakustisk modell for å fjerne komponenter i lyden som ikke er essensielle for vår oppfattelse av den. Kan bruke forskjellige samplingsrater (kap. 4) Viktige komponenter i lyden blir komprimert meget effektivt ved hjelp av gode algoritmer

Maskering Lyd som ligger nær hverandre i frekvens og/eller tid kan overdøve hverandre. Vi sier at lyd blir maskert. Maskeringen er størst i såkalte kritiske bånd

Grense for hørbar lyd Referanse 20 μPa = 2 10-5 N/m2

Støy som maskerer en frekvens senter 410 Hz bredde 111 Hz Frekvens 1 820 Hz 5dB under støy Frekvens 2 410 Hz + frekvens 1 frekvens 2 Ikke maskert Maskert Du kan ikke høre en frekvens som ligger i det samme kritiske bånd som støyen hvis amplituden er under en bestemt grense. Slik maskering har også en effekt utenfor de kritiske båndene, men i mindre grad.

Frekvens som maskerer støy senter 1 kHz bredde 162 Hz Frekvens 1, 2kHz Frekvens 2, 1kHz + frekvens 1 frekvens 2 Ikke maskert Maskert Du kan ikke høre støy som ligger i det samme kritiske bånd som en sinusoide hvis amplituden er under en bestemt grense. Slik maskering har også en effekt utenfor de kritiske båndene, men i mindre grad.

Ledd ved koding av lyd, lag I og II Form delbånd: Anvend et vindu på dataene (kap. 13). 512 lydsampler av gangen Splitt opp lyden i 32 delbånd ved hjelp av en 512 koeffisienters polyfase kvadratur speilfilterbank Gjør en frekvensanalyse av lyden (standarden gir her fritt spillerom): Anvend et Hanning-vindu (se s. 406 i boka) på dataene, etterfulgt av en FFT av lengde 512 (lag I), eller 1024 (lag II) Finn grensene for maskering av lyden Kvantisering av sampler i hvert delbånd: Tilordne bits i delbånd slik at maskert lyd tas bort, støy fra kvantisering blir maskert Til slutt kodes dataene slik standarden krever. 32 bånd 6 bånd 3 bånd 1 bånd

Koding av lyd, lag I og II P. Noll, MPEG digital audio coding, IEEE Sign. Proc. Mag., Sep 1997

Ledd ved koding av lyd, lag III Bruker filterbanken i lag I i kaskade med en 6 eller 18 punkts MDCT (18 punkts MDCT gir 32*18 = 576 frekvensbånd).18 punkts MDCT kjøres for lyd med mye detaljrikdom. 6 punkts gir mer sideinformasjon som må lagres. Detaljrikdom beregnes i den psykoakustiske modellen. Kjører typisk et lenger Hanning-vindu/FFT (feks. 1024) for å finne korttidsspektret i lyden.

Koding av lyd, lag III = MP3 P. Noll, MPEG digital audio coding, IEEE Sign. Proc. Mag., Sep 1997

Beethoven’s 5. symfoni 16 bit kvantisering 4 bit kvantisering 216= 65536 nivåer 4 bit kvantisering 24=16 nivåer

Hvorfor gir 4 bits kvantisering dårligere lyd? Problem: Ved å bruke få kvantiseringsnivåer på denne måten er det mange nivåer som vi sjelden får brukt. En løsning: Skaler datablokkene dynamisk, slik at hele spektret av verdier blir brukt. Kostnad: Ekstra sideinformasjon om skaleringsfaktorer må lagres.

Skaleringsfaktorer og kvantisering Når lydbildet forandres over tid, vil bare noen få av kvantiseringsnivåene bli brukt i perioder med små magnituder. Bruk skaleringsfaktorer: Ta et datavindu. Finn høyeste magnitude i dette vinduet. Velg en skaleringsfaktor fra en tabell Normaliser med skaleringsfaktoren. Kvantiser. Kode skaleringsfaktorer og kvantiserte sampler. MP3 beregner skaleringsfaktor for hvert 12. lydsample

Filterbanker i MPEG-1 32 delbånd, så det er 32 filtere i filterbanken. Disse har lik båndbredde og overlapper i frekvens.

Hva er en polyfase kvadratur speilfilterbank? MP3 bruker en slik. Komplisert uttrykk, skriver ikke opp Filterbanker kan skrives opp med en polyfase-dekomposisjon. Eksempel på bruk av en polyfase-dekomposisjon for et filter (2 delbånd) (som også er en kvadratur speilfilterbank): Denne brukes av bildestandarden JPEG2000 ved tapsfri kompresjon til å delbåndsfiltrere bilder.

En nærmere titt Delbånd overlapper ved 3 dB i bånd ved siden av hverandre. Verdiene er små i overlappet. Total respons (d.v.s. summen av de individuelle frekvensresponsene (kap.6)) er nesten 1

Hva er en MDCT? DCT (Discrete Cosine Transform). Brukes av JPEG. Å kjøre en DCT svarer til å kjøre en dobbelt så lang DFT, på en symmetrisk utvidet sekvens. MDCT (Modified Discrete Cosine Transform). Man får halvparten så mange sampler ut som inn. MP3 kjører MDCT på overlappende blokker. MPEG-2 AAC kjører en 1024 punkters MDCT, 50% overlapp mellom blokkene.

Ting å lese videre MPEG digital audio coding, IEEE Signal processing magazine, september 1997, side 59-82

Kapitler i læreboka – MP3-koding Diskret-tid signaler og systemer. Tidsinvarians gjelder bare over kort tid for tale. Linearitet: kan dele i bånd og sette sammen FIR filtre Kap. 7 Z-transform og dens anvendelser i analyse av LTI Systemer. Analyse av filter i filterbanken: nøkkel til å få til filterdesign Frekvens-analyse av signaler og systemer. Frekvensdomene er sentralt i modell av hørsel Frekvensselektive filtre: båndpassfiltre Inverse systemer: kan dele i bånd i koder og addere sammen igjen i dekoder Kap. 13 Diskret Fourier transform: Dens egenskaper og anvendelser Frekvensanalyse av signaler Effektiv beregning av DFT: Fast Fourier Transform algoritmer. FFT brukes i estimering av spektrum i koder. Implementasjon av diskret-tid systemer. Filterstrukturer, hvordan implementere filterbank i koder og dekoder INF5400 Design av digitale filtere. Hvordan finne koeffisienter til båndpassfiltrene i filterbanken? Sampling og rekonstruksjon av signaler. A/D-analyse: kvantiseringsstøy ved direkte sampling Multirate digital signalbehandling. Hvert delfilter kan nedsamples pga bare 1/32 av total båndbredde => trenger bare 1/32 samplerate per filter Estimering av spektrum. Må estimere korttidsspektrum for å finne gode måter å fordele bits i delbånd