Mezi tichem a šumem - komprese zvuku
10.9.2008, Radek Jahoda, článek
Zvuk byl v počátcích kinematografie i kvůli opojení z pohyblivých obrázků opomenut a až později nastalo nedílné spojení. Nejprve jako doprovod hudbou, pak i se synchronizací dialogů. My se přeneseme do doby, kdy nastala potřeba zvuk efektivně komprimovat.
Kapitoly článku:
- Mezi tichem a šumem - komprese zvuku
- Intenzita zvuku
- Digitální zvuk
- MIDI, MOD a spol.
- Bezeztrátová komprese
- Signálové kompresory
- Psychoakustické metody
- Závěr
Zpracování hudby na počítači bylo v plenkách, stále se ve velké míře používal lineární střih, kapacita disků (a disket) byla malá a výkon počítačů nízký. Vynecháme produkční systémy a vzpomeneme si na video, které se dostalo na tehdejší počítače. Již tenkrát přišel Microsoft se svým nekomprimovaným AVI formátem, který byl záhy rozšířen o kompresi. Současně s tím se objevilo WAV a také první komprese zvuku.
Nejčastější bylo kódování ADPCM, které používalo velmi jednoduchého principu a nedosahovalo ani vysoké kvality, ani vysoké komprese. Pravý rozmach přišel ale až s nástupem MPEG formátu, který definoval i pokročilejší kódování zvuku. Než se ale na jednotlivé druhy komprese podíváme, musíme si říci něco o zvuku samotném.
Zvuk vzniká rozechvěním molekul vzduchu nějakým zdrojem, kterým může být lidské hlasové ústrojí nebo i cokoliv jiného, co dokáže rozkmitat molekuly vzduchu. Typickým příkladem je reproduktor, který je rozkmitaný cívkou s elektrickým polem. Tím vzniká podélné vlnění, které se šíří ve vzduchu rychlostí přibližně 340 m/s, což je cca 1225 km/h. Ovšem tato rychlost se mění jak s teplotou vzduchu, tak s nadmořskou výškou (tedy hustotou vzduchu) a také vlhkostí. S klesající teplotou popř. se zvyšující se nadmořskou výškou rychlost klesá, v 10 tisících metrech nad mořem je přibližně 300 m/s (cca 1080 km/h).
Vlnění se může šířit i jinými prostředními, dokonce i pevnými látkami, kde se může podélné vlnění měnit na příčné. Také rychlost šíření se v různých látkách mění. Oproti vzduchu a plynům většinou roste, ve vodě dosahuje 1500 m/s, v ledu je 3250 m/s a nejvyšší je v kovech, kde dosahuje až 6000 m/s. Určitě znáte klasický trik s posloucháním vlakových kolejí. Tam ale nehraje hlavní roli rychlost přenosu, ale šíření jen po kolejích, takže intenzita od místa zdroje klesá pomaleji a zvuk je slyšet na delší vzdálenost. Ve vzduchu se zvuk šíří všemi směry a intenzita tak klesá kvadraticky se vzdáleností.
Molekuly jsou rozechvěny zdrojem zvuku určitou frekvencí. V různých látkách je útlum prostředí různý a dokonce různý pro jiné frekvence. Frekvence je naší první důležitou popisující veličinou. Jednoduchým zdrojem zvuku je jakýkoliv předmět, který kmitá na určité frekvenci. Uhodíme-li do kovového předmětu, tak ho rozkmitáme na určité frekvenci, tato frekvence se přenese stejně do vzduchu a šíří se do okolního prostředí. V tomto případě jde o jednu frekvenci - jde o periodický signál, podobně vznikají základní tóny hudby, které mají vždy jednu frekvenci. Ve reálném světě ale málokdy dochází k samostatnému kmitání na jedné frekvenci. Většinou je doprovázeno harmonickými složkami, které jsou celým násobkem původní frekvence. Je jedno, zda jsou obě frekvence generovány jedním zdrojem, nebo dvěma zdroji, ve vzduchu dojde k jejich sečtení a posluchači v dostatečné vzdálenosti se jeví stejně - obě frekvence jsou sečteny. Na následujícím obrázku vidíme základní frekvenci, první harmonickou frekvenci, která má dvojnásobnou frekvenci o stejné intenzitě, a jejich součet.
Vidíme , že jejich součtem vznikl opět periodický signál o určité frekvenci, která je shodná s nejnižší frekvencí, která je v signálu obsažena.Jakýkoliv zvuk, který je složen z více frekvencí, je opět periodický, což je zásadní poznatek, který se používá při kompresi zvuku. Ne vždy ale bývá situace tak jednoduchá. Pokud sečteme frekvence, které nejsou násobkem, což je rovněž velice časté, vzniká opět periodický signál, který se po čase opakuje, ale jeho perioda neodpovídá nejnižší obsažené frekvenci. Tato perioda je ale perioda signálu a nemá s frekvenčním rozsahem nic společného. Frekvenční rozsah signálu je stále dán pouze zastoupenými tóny, tedy od nejnižší až po nejvyšší.
V podstatě veškeré tóny, které slyšíme, vznikají takto. Když mluvíme, tak hlasivky generují určitý tón a jejich harmonické, ústa, jazyk a zuby pak upravují jejich intenzitu, přerušují je a mohou také generovat další periodické signály. Sčítání periodických signálů využívají i hudební nástroje, když vznikají akordy. Typickým příkladem je kytara, kde šest strun generuje tóny o určité frekvenci, tedy sčítá se celkem šest frekvencí. Reálná hudba s více nástroji pak sčítá ne jen pár tónů, ale desítky, stovky a dokonce tisíce těchto frekvencí.
Opakem periodických zvuků je hluk resp. šum. Jde opět o součet frekvencí, těchto frekvencí je ale nekonečně mnoho, jejich rozsah často bývá přes celé spektrum, náhodně se mění intenzita jednotlivých frekvencí. Zvukový šum může být generován jakýmkoliv náhodným generátorem, za který lze považovat například hluk velkoměsta. V elektronice, a tedy při zpracování zvuku, vzniká šum na všech aktivních i pasivních prvcích - odporech a polovodičích, kde převažuje tepelný šum (parametry součástek se mění podle aktuální teploty prvků, která neustále kolísá kmitáním molekul apod.).
Nejčastější bylo kódování ADPCM, které používalo velmi jednoduchého principu a nedosahovalo ani vysoké kvality, ani vysoké komprese. Pravý rozmach přišel ale až s nástupem MPEG formátu, který definoval i pokročilejší kódování zvuku. Než se ale na jednotlivé druhy komprese podíváme, musíme si říci něco o zvuku samotném.
Zvuk vzniká rozechvěním molekul vzduchu nějakým zdrojem, kterým může být lidské hlasové ústrojí nebo i cokoliv jiného, co dokáže rozkmitat molekuly vzduchu. Typickým příkladem je reproduktor, který je rozkmitaný cívkou s elektrickým polem. Tím vzniká podélné vlnění, které se šíří ve vzduchu rychlostí přibližně 340 m/s, což je cca 1225 km/h. Ovšem tato rychlost se mění jak s teplotou vzduchu, tak s nadmořskou výškou (tedy hustotou vzduchu) a také vlhkostí. S klesající teplotou popř. se zvyšující se nadmořskou výškou rychlost klesá, v 10 tisících metrech nad mořem je přibližně 300 m/s (cca 1080 km/h).
Vlnění se může šířit i jinými prostředními, dokonce i pevnými látkami, kde se může podélné vlnění měnit na příčné. Také rychlost šíření se v různých látkách mění. Oproti vzduchu a plynům většinou roste, ve vodě dosahuje 1500 m/s, v ledu je 3250 m/s a nejvyšší je v kovech, kde dosahuje až 6000 m/s. Určitě znáte klasický trik s posloucháním vlakových kolejí. Tam ale nehraje hlavní roli rychlost přenosu, ale šíření jen po kolejích, takže intenzita od místa zdroje klesá pomaleji a zvuk je slyšet na delší vzdálenost. Ve vzduchu se zvuk šíří všemi směry a intenzita tak klesá kvadraticky se vzdáleností.
Molekuly jsou rozechvěny zdrojem zvuku určitou frekvencí. V různých látkách je útlum prostředí různý a dokonce různý pro jiné frekvence. Frekvence je naší první důležitou popisující veličinou. Jednoduchým zdrojem zvuku je jakýkoliv předmět, který kmitá na určité frekvenci. Uhodíme-li do kovového předmětu, tak ho rozkmitáme na určité frekvenci, tato frekvence se přenese stejně do vzduchu a šíří se do okolního prostředí. V tomto případě jde o jednu frekvenci - jde o periodický signál, podobně vznikají základní tóny hudby, které mají vždy jednu frekvenci. Ve reálném světě ale málokdy dochází k samostatnému kmitání na jedné frekvenci. Většinou je doprovázeno harmonickými složkami, které jsou celým násobkem původní frekvence. Je jedno, zda jsou obě frekvence generovány jedním zdrojem, nebo dvěma zdroji, ve vzduchu dojde k jejich sečtení a posluchači v dostatečné vzdálenosti se jeví stejně - obě frekvence jsou sečteny. Na následujícím obrázku vidíme základní frekvenci, první harmonickou frekvenci, která má dvojnásobnou frekvenci o stejné intenzitě, a jejich součet.
Vidíme , že jejich součtem vznikl opět periodický signál o určité frekvenci, která je shodná s nejnižší frekvencí, která je v signálu obsažena.Jakýkoliv zvuk, který je složen z více frekvencí, je opět periodický, což je zásadní poznatek, který se používá při kompresi zvuku. Ne vždy ale bývá situace tak jednoduchá. Pokud sečteme frekvence, které nejsou násobkem, což je rovněž velice časté, vzniká opět periodický signál, který se po čase opakuje, ale jeho perioda neodpovídá nejnižší obsažené frekvenci. Tato perioda je ale perioda signálu a nemá s frekvenčním rozsahem nic společného. Frekvenční rozsah signálu je stále dán pouze zastoupenými tóny, tedy od nejnižší až po nejvyšší.
V podstatě veškeré tóny, které slyšíme, vznikají takto. Když mluvíme, tak hlasivky generují určitý tón a jejich harmonické, ústa, jazyk a zuby pak upravují jejich intenzitu, přerušují je a mohou také generovat další periodické signály. Sčítání periodických signálů využívají i hudební nástroje, když vznikají akordy. Typickým příkladem je kytara, kde šest strun generuje tóny o určité frekvenci, tedy sčítá se celkem šest frekvencí. Reálná hudba s více nástroji pak sčítá ne jen pár tónů, ale desítky, stovky a dokonce tisíce těchto frekvencí.
Opakem periodických zvuků je hluk resp. šum. Jde opět o součet frekvencí, těchto frekvencí je ale nekonečně mnoho, jejich rozsah často bývá přes celé spektrum, náhodně se mění intenzita jednotlivých frekvencí. Zvukový šum může být generován jakýmkoliv náhodným generátorem, za který lze považovat například hluk velkoměsta. V elektronice, a tedy při zpracování zvuku, vzniká šum na všech aktivních i pasivních prvcích - odporech a polovodičích, kde převažuje tepelný šum (parametry součástek se mění podle aktuální teploty prvků, která neustále kolísá kmitáním molekul apod.).