Umíme to s Delphi: 134. díl – pod pokličku souborů MP3

Přidat další názor | zpět na článek | zobrazit bez stromu | nových příspěvků: 9

Diskuze čtenářů k článku

nekki | 19. 01. 2005 21:27

No, odmlka byla sice delší, ale jak se říká pozdě než nikdy.

Souhlasím | Nesouhlasím | Odpovědět

eX]tr3m3 | 19. 01. 2005 19:54

Pro lidi, kteří se o mp3 zajímají více, bych něco málo doplnil.
Psychoakustický model - v normě MPEG jsou dva odlišné modely. První je použit pro kódování LayerI a II, druhý pak u Layer III. Psychoakustický model je složen z dvou hlavních úseků. Nejdříve je zvolen typ bloku, jež se použije během kódování a spočte se SMR (singnal to mask ratio).
Zvuk se převede z časové oblasti do frekvenční pomocí FFT (Fast Fourier Transform - rozložení amplitud na jendotlivé harmonické). Získaná data slouží pro výpočet prahů maskování. Výstup FFT je použit pro určení typu okna, které se použije během kódování. Dlouhé okno (long window), poskytující lepší frekvenční rozlišení, je použito pro statické signály. Naopak pro proměnné signály se použijí tři krátká okna (short window) s lepším časovým rozlišením. Následně jsou spočítány minimální prahy maskování, jež jsou použity pro výpočet SMR.
Různé typy encoderů používají různé psychoakustické modely.
Když už jsem se zmínil o tom maskování... V článku je zmíněno tzv. frekvenční makování (frequency masking), kdy např. méně intenzivní tón o frekvenci 7 200 Hz je maskován intenzivnějším (hlasitějším) tónem s frek. 7 000 Hz. (Frekvence nacházející se pod maskovecí úrovní (masking treshold) jsou maskovány a tudíž odstraněny z výsledného zvuku.)
A krom frekvenčního je zde ještě dočasné maskování (temporal masking) - toho je využito před o po silném zvuku. Je uplatněn, narozdíl od frekvenčního maskování, v časové oblasti. Pokud je zvuk maskován před silným zvukem, hovoříme o tzv. premaskingu. V případě maskování po silném zvuku se jedná o postmasking.
Taky vim, že lidské ucho nemá příliš dobrou schopnost pro lokalizaci zdroje zvuku v prostoru. Dokonce velmi hluboké a vysoké zdroje frekvence není člověk schopen lokalizovat vůbec. Ovšem netuším, zda je toho v mp3 využito. Možná je to součástí Joint sterea. Ví někdo jak to je?
A ještě jedna zajímavost. Lidské ucho vnímá zvuk logaritmicky. K tomu, aby člověk slyšel zvuk dvakrát hlasitěji, je potřeba navýšit jeho intenzitu desetinásobně. Navíc vnímání intenzity zvuku je závislé na frekvenci (s největší intenzitou jsou vnímámy zvuky ve frekvenčím rozsahu 1 - 5 kHz).

Souhlasím | Nesouhlasím | Odpovědět

eX]tr3m3 | 18. 01. 2005 11:37

Seriál pokračuje... cool!

Souhlasím | Nesouhlasím | Odpovědět

Ing. Jiří Sokol | 18. 01. 2005 08:59

Dobrý den!
Tak jsme se konenčně dočkali - další díl je tu!
Mám dotaz ohledně věty, že je možné udělat kopii 1:1. Jak je to se vzorkovací frekvencí?? Prý většina originálních CD jede na vyšší než 43,7kHz a prý není možné grabnout klasickým CD v PC zvukový záznam s touto frekvencí -> vždy prý dojde ke snížení frekvence na oněch 43,7kHz. Či-li mám-li nějakou THX zvukovou aparaturu, která umí přehrávat CD s tou vyšší frekvencí, pak si udělám kopii přes PC, tak výsledek prý není stejný...
Co je na tom pravdy?
Díky za odpověď a těším se na další díly seriálu.
Jiří Sokol

Souhlasím | Nesouhlasím | Odpovědět

Ňuf | 18. 01. 2005 12:37

Nevim, kde jste sebral frekvenci 43.7 kHz, kazdopadne zvukovy signal je na kazdem Audio CD (ktere je v souladu s tzv. red book, tj. skoro vsechny bezne Audio CD) kodovan pomoci pulzni kodove modulace (PCM) s vzorkovaci frekvenci 44.1 kHz 16-bit presnosti. Tyto vzorky jsou ulozeny (kdyz to hooodne zjednodusim) jako sled techto hodnot a kazda CD-ROMka je dokaze precist, grabovaci program je jenom zkopiruje do souboru na disk a mete kopii cd 1:1 NAPROSTO SHODNOU s originalem - pokud to jeste nekdo nepochopil, tak PRESNE kopirovani dat je zakladnim principem digitalnich dat.
Kdyby nahodou nekdo prece jenom ulozil na CD signal s vyssi vzorkovaci frekveci nez 44.1 kHz, tak kdyz si to pustite na normalnim CD prehravaci ci CD-ROMce, tak vysledkem NEBUDE orezani frekvenci vyssich nez 44.1, ale vysledny zvuk bude pomalejsi a hlubsi oproti originalu.
Jesli si nekdo koupi zvukovou aparaturu s THX certifikaci, ktera umi prehravat CD s frekvenci vyssi nez 43.7, asi moc dobre nekoupil - i moje CD-ROMka (tehdy jeste) za 1200,- zvlada vklidu 44.1 kHz. Jina vec by byla, pokud by se jednalo o napr. SuperAudio CD (SADC) - ale neni mi znamo, ze by vetsina originalnich CD byla SACD a navic jestli se nepletu tak SACD se v normalnim prehravaci vubec prehrat neda.

Souhlasím | Nesouhlasím | Odpovědět

Ing. Jiří Sokol | 19. 01. 2005 13:38

OK, palil jsem tu frekvenci od boku, uz je to hodne dlouho, co jsem se zabyval vzorkovanim. Je to sice moje ostuda, ale holt zapominam. Protoze jsem chtel poslat dotaz, tak jsem to risknul a nevyslo to
Nicmene...dekuji za nahrani - ANO, PCM format ma vzorkovaci frekvenci 44,1kHz a 16bit, ale existuji profi zarizeni, ktere jedou na ??? zase palim 49,7kHz a 24bit neni taky neobvykly - a ted se dostaneme k jadru pudla. Pokud mam soft, ktery mi zgrabuje z CD song do PC -> *.wav -> je jeho frekvence 44,1 a je 16bit - ci-li opet se nabizi ma otazka (spise uvaha), ze jiz nepujde o kopii 1:1...???
Je to tak?
JS

Souhlasím | Nesouhlasím | Odpovědět

Ňuf | 19. 01. 2005 15:23

Do profi audia nevidim, ale pokud vim, tak se pouzivaji jeste vz. frekvence 48 kHZ resp. 96 kHz. Ale to je jedno. Pokud budou na CD data jakakoliv jina nez 44.1k/16, tak se nejedna o AudioCD. V takovem pripade mohou nastat 3 moznosti:
1. Grabovaci program pozna ze se nejedna o AudioCD a odmitne kopirovat. No comment.
2. Grabovaci program pozna ze se nejedna o AudioCD a format dat mu bude znamy - Program pak spravne ulozi do hlavicky WAVu format (napr. 48k/24) a kopie bude 1:1 a bude normalne pouzitelna
2. Grabovaci program nepozna ze se nejedna o AudioCD a kopie sice bude 1:1, ale data budou pocitacem interpretovana jako 44.1k/16 ackoliv to nebude odpovidat skutecnosti - v takovem pripade asi po spusteni WAVu uslyste jen nejake pazvuky.

Souhlasím | Nesouhlasím | Odpovědět

Marek H. | 18. 01. 2005 07:47

Super - konecne se take nekdo pokusi osvetlit problematiku zpracovani mp3 a mozna i dalsich multimedialnich formatu. Doufam ze to bude zpracovano vice "algoritmicky" a uvedene postupy pujde vyuzit i v jinem jazyce. Mile by me prekvapilo, kdyby se nepouzivaly "dvorni" funkce Delphi, ale spise prostredky systemu (DirectX, server kodeku ACM), nebo osvedcenych volne siritelnych dll. Protoze pak nemusi zustat jenom u mp3, ale muze se zpracovat dalsi rada formatu (napr. OGG, WMA, a dalsi).

Souhlasím | Nesouhlasím | Odpovědět

Vaclav Kadlec | 19. 01. 2005 20:47

Uvidime, kam se dostaneme; do Vami pozadovane hloubky ale asi ne