Mezi tichem a šumem - komprese zvuku
10.9.2008, Radek Jahoda, článek
Zvuk byl v počátcích kinematografie i kvůli opojení z pohyblivých obrázků opomenut a až později nastalo nedílné spojení. Nejprve jako doprovod hudbou, pak i se synchronizací dialogů. My se přeneseme do doby, kdy nastala potřeba zvuk efektivně komprimovat.
Kapitoly článku:
Zvuk je nedílnou součástí videa a často je označován jako ještě důležitější než video. Zatímco posluchač je často ochoten akcepovat horší kvalitu obrazu, u zvuku nechce dělat kompromisy. Bohužel komprese zvuku je ještě náročnější než videa. Proto také bezeztrátové kodeky dosahují ještě menší komprese než bezeztrátové kodeky pro obraz. Naštěstí nebo naneštěstí má lidský sluch své specifické vlastnosti, čehož lze s úspěchem využít, naopak to ale přidává některé nežádoucí efekty.
Výbrat správnou kompresi zvuku je velmi důležité, protože na tom zcela závisí výsledná kvalita. V prvé řadě si musíme uvědomit, z jakého důvodu potřebujeme zvuk zkomprimovat.
Zvuk, který bude dále zpracováván, musí být bezpodmínečně zkomprimován bezeztrátovou kompresí (nebo vůbec nekomprimován). Jedině tak se vyhneme ztrátě informací u komprese při masteringu. Pokud bychom například zvuk z mikrofonu zakoprimovali pomocí MP3 formátu, tak z něj odstraníme některé informace, jak již bylo zmíněno. Při zpracování se ale zvuk dekomprimuje, sloučí s dalším zvukem a při další komprimaci se z něj s největší pravděpodobností odstraní další informace, takže dojde k dalšímu zhoršení kvality, která již bývá rozeznatelná.
To samé platí při konverzi formátů mezi sebou. Můžeme mít například kolekci ve formátu MP3 a chtít ho překomprimovat do formátu Vorbis. Dojde k témuž - k další ztrátě informací a další ztrátě kvality. Přestože Vorbis dosahuje lepší kvality při stejném datovém toku než MP3, tak výsledek nebude lepší, ani stejný - bude vždy horší, protože psychoakustický model odstraní pravděpodobně další informace. Překomprimování komprimovaných formátů vždy snižuje kvalitu i při zakódování lepším kodekem. Překódování má smysl jen při komprimaci z vysokých datových toků na nižší, například MP3 ze 192kbit/s na 112kbit/s, snížení ze 128kbit/s pouze na 112kbit/s nemá valný smysl.
Volba formátu
Při výsledné komprimaci je vždy hlavní otázka volba formátu. Ta záleží na tom, kde, kdo a kdy chce zvuk využívat.
Žádný z formátů tedy nejde označit za nejlepší volbu. Vždy záleží na použití a konečný výběr je vždy na uživateli.
Volba datového toku
Druhou volbou je vždy výběr datového toku - bitrate. Zásada zní, že by se neměl používat datový tok nižší, než je kvalita blízká CD, tedy NCDQ, který platí pro stereo zvuk. U vícekanálového zvuku samozřejmě nárok na datový tok roste. Snižovat bitrate by se mělo jen ve výjimečných případech, kdy jde o snížení velikosti souborů a hlavně pro jednorázové použití. Nikdy by se neměl snižovat u záloh.
Joint-stereo
Některé formáty umožní i volbu dalších parametrů. U MP3 je to například Joint-stereo. Kolem něho je spousta mýtů, většinou špatných. Nejčastější je názor, že joint-stereo odstraní stereo složku, což samozřejmě není pravda. Je zde uplatněn opět psychoakustický model, podle kterého není u nízkých a velmi vysokých kmitočtů schopen lidský sluch rozeznat směr, odkud přichází. Proto například existuje subwoofer, který produkuje pouze nízké kmitočty a nemá to za následek zhoršení prostorovosti zvuku. Joint-stereo je dnes v podstatě synonymen pro Intensity Stereo. To právě aplikuje psychoakustický model na stereo signál, čímž dojde ke sloučení signálů na nižších a vyšších frekvencích. Lidské ucho není (resp. nemělo by být) schopno rozeznat rozdíl. Mýtus, že Intensity stereo ničí stereo rozložení, vychází z toho, že tento mód může za jistých podmínek odstranit informace z matrixových systémů jako je Dolby Surround a Pro Logic. Toto je pravda, ale má to vliv právě a jen u tohoto systému, tedy nehodí se to právě a jen na komprimaci prostorového zvuku - tedy v podstatě jen zvuku z filmů, ne hudby, která je jen stereo. Výhodou Intensity stereo je to, že dokáže dosáhnout vyšší kvality při shodném datovém toku. Odstraněním informací o stereu na frekvencích, na kterých to stejně lidský sluch nepozná, získáme prostor pro informace, které by byly jinak odstraněny při normálním kódování.
Druhým případem je Mid/Side Stereo, který z levého a pravého kanálu udělá mono kanál (L+R) a rozdílový kanál (L-R) a ty pak kóduje zvlášť. Zde nedochází v podstatě k žádné ztrátě stereo separace, protože dekodér je schopen vše převést zpět na levý a pravý kanál. Výhodou je hlavně to, že rozdílová složka nabývá často jen malých hodnot a tedy se lépe kóduje Riceovým nebo Huffmanovým kódem.
Prostorový zvuk
Stereo zvuk samozřejmě není prostorový zvuk, reflektuje jen to, že hudba se historicky vždy poslouchá na pódiu, tedy před sebou a nástroje nejsou za námi. Zde dva kanály stačí, zda je nástroj vlevo nebo vpravo. U filmů může být ale prostorovost úplná - zvuky mohou přicházet i zezadu. K dosažení prostorovosti je tedy nutné umístit reproduktury i dozadu. Nejprve se zavedl pouze jeden zadní kanál (Dolby Surround), který byl zakódován do dvou kanálů matrixovým způsobem - tedy jako rozdíl mezi levým a pravým kanálem s fázovým posuvem. Výsledek byl ten, že přední kanály hrály rovněž zadní a naopak zadní hrál částečně stereo. Místo zadního se použily dva reprosuktory, které ale hrály to samé. Tento nešvar se snažil vylepšit systém Dolby Pro Logic, který analyzoval signál a potlačoval některé zvuky a poté i Dolby Pro Logic II, který zavedl dva zadní kanály a subwoofer - přehrávání je tedy jako na plnohodnotném 5.1 systému, který přenáší všechny kanály zvlášť.
5.1 systém je například Dolby Digital (AC3) nebo také DTS. Další vylepšení pomocí matrixového systému zakódovávají do 5.1 další kanály - Dolby Digital EX má 6.1 a Dolby Digital Surround EX 7.1 kanálů. Podobně je na tom i DTS ES. Další verze umožňují plnohodnotné zakódování všech 7.1 kanálů - např. Dolby Digital Plus (označované i jako E-AC-3) nebo nejkavlitnější formáty, které jsou bezeztrátové - Dolby TrueHD nebo DTS HD.
Ukázali jsme si, že kodeky z různých kategorií přistupují ke kódování v podstatě stejně, používají stejné metody a stejné kódování dat. Jak jde čas, tak se pouze tyto metody vylepšují, vylepšuje se psychoakustický model, nejde ale o tak výrazné vylepšování, jak se nám snaží často tvůrci kodeků namluvit. Takže až budete číst, že nový kodek opět snižuje datovou náročnost při stejné kvalitě na polovinu, tak mu nevěřte. Kdyby to byla pravda, tak již kódujeme zvuk v CD kvalitě při datovém toku asi 1 kbit/s. A to je samozřejmě nesmysl. Psychoakustické kodeky se dostávají na svůj limit stejně jako se tam dostaly kodeky bezeztrátové. Matematika i fyzika mají své limity.
Výbrat správnou kompresi zvuku je velmi důležité, protože na tom zcela závisí výsledná kvalita. V prvé řadě si musíme uvědomit, z jakého důvodu potřebujeme zvuk zkomprimovat.
Zvuk, který bude dále zpracováván, musí být bezpodmínečně zkomprimován bezeztrátovou kompresí (nebo vůbec nekomprimován). Jedině tak se vyhneme ztrátě informací u komprese při masteringu. Pokud bychom například zvuk z mikrofonu zakoprimovali pomocí MP3 formátu, tak z něj odstraníme některé informace, jak již bylo zmíněno. Při zpracování se ale zvuk dekomprimuje, sloučí s dalším zvukem a při další komprimaci se z něj s největší pravděpodobností odstraní další informace, takže dojde k dalšímu zhoršení kvality, která již bývá rozeznatelná.
To samé platí při konverzi formátů mezi sebou. Můžeme mít například kolekci ve formátu MP3 a chtít ho překomprimovat do formátu Vorbis. Dojde k témuž - k další ztrátě informací a další ztrátě kvality. Přestože Vorbis dosahuje lepší kvality při stejném datovém toku než MP3, tak výsledek nebude lepší, ani stejný - bude vždy horší, protože psychoakustický model odstraní pravděpodobně další informace. Překomprimování komprimovaných formátů vždy snižuje kvalitu i při zakódování lepším kodekem. Překódování má smysl jen při komprimaci z vysokých datových toků na nižší, například MP3 ze 192kbit/s na 112kbit/s, snížení ze 128kbit/s pouze na 112kbit/s nemá valný smysl.
Volba formátu
Při výsledné komprimaci je vždy hlavní otázka volba formátu. Ta záleží na tom, kde, kdo a kdy chce zvuk využívat.
- Kde - volba toho, na jakém zařízení se bude zvuk přehrávat. Pokud to má být na přenosném přehrávači, tak pro dosažení největší kompatibility je nejjistější volbou MP3 formát. Pokud půjde o přehrávání na počítači, tak je snahou zajistit kompatibilitu mezi různými systémy. Zde vyhrává Vorbis, který má díky otevřenosti podporu na všech systémech a má přitom lepší kvalitu než MP3. Volba pro video je pak závislá na požadavku kompatibility - na DVD patří AC3, k Matrošce rovněž AC3 nebo Vorbis, do AVI může být například MP3.
- Kdo - pokud bude zvuk někomu posílán, je třeba brát v úvahu to, jaké jsou jeho možnosti přehrávání. Například laický uživatel Windows není schopen si instalovat další kodeky nebo přehrávače a požaduje prostě přehrání na první pokus. Pro něj bude asi nejlepší volbou MP3 nebo WMA formát, které jde na tomto systému vždy přehrát. Pro Linuxového uživatele to bude zase Vorbis, který je zde také vždy podporován.
- Kdy - zde mluvíme o zálohování hudby. Hlavním požadavkem je schopnost přehrání i za mnoho let, tedy ne za roky, ale za desítky let. V této kategorii vyhrávají otevřené formáty, které jsou dobře popsány, ke kterým jsou zdrojové kódy a které půjdou ralizovat i na budoucích systémech. Sice je dnes dominantní systém Windows, což ale nemusí být za padesát let pravda. Zde vyhrává formát Vorbis, který je oproštěn od všech poplatků, má dobrou kvalitu a především zdrojové kódy. Uplatnit se může i AAC a HE-AAC, které jsou ale příliš komercializovány, zatím není příliš enkodérů, ale v budoucnu lze čekat jejich stoupající podporu i oblibu.
Žádný z formátů tedy nejde označit za nejlepší volbu. Vždy záleží na použití a konečný výběr je vždy na uživateli.
Volba datového toku
Druhou volbou je vždy výběr datového toku - bitrate. Zásada zní, že by se neměl používat datový tok nižší, než je kvalita blízká CD, tedy NCDQ, který platí pro stereo zvuk. U vícekanálového zvuku samozřejmě nárok na datový tok roste. Snižovat bitrate by se mělo jen ve výjimečných případech, kdy jde o snížení velikosti souborů a hlavně pro jednorázové použití. Nikdy by se neměl snižovat u záloh.
Joint-stereo
Některé formáty umožní i volbu dalších parametrů. U MP3 je to například Joint-stereo. Kolem něho je spousta mýtů, většinou špatných. Nejčastější je názor, že joint-stereo odstraní stereo složku, což samozřejmě není pravda. Je zde uplatněn opět psychoakustický model, podle kterého není u nízkých a velmi vysokých kmitočtů schopen lidský sluch rozeznat směr, odkud přichází. Proto například existuje subwoofer, který produkuje pouze nízké kmitočty a nemá to za následek zhoršení prostorovosti zvuku. Joint-stereo je dnes v podstatě synonymen pro Intensity Stereo. To právě aplikuje psychoakustický model na stereo signál, čímž dojde ke sloučení signálů na nižších a vyšších frekvencích. Lidské ucho není (resp. nemělo by být) schopno rozeznat rozdíl. Mýtus, že Intensity stereo ničí stereo rozložení, vychází z toho, že tento mód může za jistých podmínek odstranit informace z matrixových systémů jako je Dolby Surround a Pro Logic. Toto je pravda, ale má to vliv právě a jen u tohoto systému, tedy nehodí se to právě a jen na komprimaci prostorového zvuku - tedy v podstatě jen zvuku z filmů, ne hudby, která je jen stereo. Výhodou Intensity stereo je to, že dokáže dosáhnout vyšší kvality při shodném datovém toku. Odstraněním informací o stereu na frekvencích, na kterých to stejně lidský sluch nepozná, získáme prostor pro informace, které by byly jinak odstraněny při normálním kódování.
Druhým případem je Mid/Side Stereo, který z levého a pravého kanálu udělá mono kanál (L+R) a rozdílový kanál (L-R) a ty pak kóduje zvlášť. Zde nedochází v podstatě k žádné ztrátě stereo separace, protože dekodér je schopen vše převést zpět na levý a pravý kanál. Výhodou je hlavně to, že rozdílová složka nabývá často jen malých hodnot a tedy se lépe kóduje Riceovým nebo Huffmanovým kódem.
Prostorový zvuk
Stereo zvuk samozřejmě není prostorový zvuk, reflektuje jen to, že hudba se historicky vždy poslouchá na pódiu, tedy před sebou a nástroje nejsou za námi. Zde dva kanály stačí, zda je nástroj vlevo nebo vpravo. U filmů může být ale prostorovost úplná - zvuky mohou přicházet i zezadu. K dosažení prostorovosti je tedy nutné umístit reproduktury i dozadu. Nejprve se zavedl pouze jeden zadní kanál (Dolby Surround), který byl zakódován do dvou kanálů matrixovým způsobem - tedy jako rozdíl mezi levým a pravým kanálem s fázovým posuvem. Výsledek byl ten, že přední kanály hrály rovněž zadní a naopak zadní hrál částečně stereo. Místo zadního se použily dva reprosuktory, které ale hrály to samé. Tento nešvar se snažil vylepšit systém Dolby Pro Logic, který analyzoval signál a potlačoval některé zvuky a poté i Dolby Pro Logic II, který zavedl dva zadní kanály a subwoofer - přehrávání je tedy jako na plnohodnotném 5.1 systému, který přenáší všechny kanály zvlášť.
5.1 systém je například Dolby Digital (AC3) nebo také DTS. Další vylepšení pomocí matrixového systému zakódovávají do 5.1 další kanály - Dolby Digital EX má 6.1 a Dolby Digital Surround EX 7.1 kanálů. Podobně je na tom i DTS ES. Další verze umožňují plnohodnotné zakódování všech 7.1 kanálů - např. Dolby Digital Plus (označované i jako E-AC-3) nebo nejkavlitnější formáty, které jsou bezeztrátové - Dolby TrueHD nebo DTS HD.
Ukázali jsme si, že kodeky z různých kategorií přistupují ke kódování v podstatě stejně, používají stejné metody a stejné kódování dat. Jak jde čas, tak se pouze tyto metody vylepšují, vylepšuje se psychoakustický model, nejde ale o tak výrazné vylepšování, jak se nám snaží často tvůrci kodeků namluvit. Takže až budete číst, že nový kodek opět snižuje datovou náročnost při stejné kvalitě na polovinu, tak mu nevěřte. Kdyby to byla pravda, tak již kódujeme zvuk v CD kvalitě při datovém toku asi 1 kbit/s. A to je samozřejmě nesmysl. Psychoakustické kodeky se dostávají na svůj limit stejně jako se tam dostaly kodeky bezeztrátové. Matematika i fyzika mají své limity.