Video a prokládání
27.8.2004, Radek Jahoda, návod
Když si člověk pročte dotazy začátečníků, zarazí ho, že se většinou ptají jak a ne proč. Vždyť pokud víte proč, znáte nejen řešení daného problému, ale i jak vyřešit mnoho dalších. Proto je zde omezené množství návodů, snažíme se osvětlovat obecné principy aplikovatelné na širší rozsah problémů.
Nutí to sice člověka přemýšlet, ale tím se přece Homo sapiens odlišuje od ostatních živočichů, tak proč tuto naši přednost zatracovat. Ale dost filozofofání, pojďme ke konkrétnímu problému. Stále panuje mnoho názorů ohledně prokládání videa, tak si vysvětleme proč (a jak)...
Když se podíváte do doby před cca stoletím, tak se natáčelo pouze na celuloidové filmy, jinak se to prostě neumělo. Jejich princip zůstal do dneška, ale dnes se takto natáčejí pouze filmy do kina. Důvodem je především vysoké rozlišení, protože v kině se díváte na plátno velké několik metrů. Rozlišení je v podstatě podobné jako u klasických fotoaparátů a je určeno především citlivostí filmu (o fotoaparátů označované jako ISO100, ISO200 a ISO400). Čím větší zrno filmu, tím větší citlivost a možnost filmovat za nižšího osvětlení. Větí zrno filmu ale znamená nižší rozlišení. Podobné je to u filmových materiálů. Nelze ale říci, že rozlišení je X krát Y bodů, protože zrna jsou rozházeny vlastně náhodou. Pokud je chcete převést na digitální obraz, musíte je naskenovat v určitém rozlišení. Samozřejmě nemá cenu skenovat příliš vysokým rozlišením, protože i filmové políčko má své limity. Při naskenování příliš velkým rozlišením pak dva body vedle sebe mají v podstatě stejnou hodnotu, takže je to zbytečné. Také je to otázka, jaké změny obrazu dokáže lidské oko zachytit. Jako mez se udává rozměr přibližně 5000x5000 bodů (někdy je možné slyšet i 3000x3000 a někdy se mluví i o 4096x4096 označovaných jako 4K), v tomto rozlišení se také většinou renderují digitální animace a efekty ve filmech. Dalším parametrem videa je počet snímků za vteřinu. Těch se používá 24 za vteřinu, což je ale dost málo na to, aby se pohyb nezdál trhaný. Proto se používá malý fígl na ošálení lidského zraku. Jeden snímek je zobrazen celkem třikrát přerušovaně, takže se oku zdá, že má obraz trojnásobnou frekvenci. Docílí se toho použitím Maltézského kříže, který třikrát zastíní příslušný snímek, při čtvrtém zastínění se posune pásek filmu o jedno políčko. Je jasné, že tento systém neprokládaný. Digitalizace se nazývá telecine (od television-cinema).
Určitě jste od někoho slyšeli, že filmy jsou v televizi vysílány neprokládaně, což je trošku nepřesné. Z principu televize, kterou jsme objasnili zde, plyne, že se vysílá po půlsnímcích (field), dva půlsnímky tvoří jeden snímek (frame). Jeden půlsnímek obsahuje liché řádky a druhý půlsnímek obsahuje sudé řádky, oba půlsnímky jsou navíc zachyceny z jiného intervalu, takže jsou časově posunuté. Pokud je zobrazíte najednou (což nedělá TV, ale dělá monitor počítače), pak dostaneme známé roztřepení obrazu u pohybujících se objektů. Jak se toto roztřepení odstraňuje v počítači, jsme rozebrali v tomto článku. My se teď budeme zabývat tím, jak dostat film, natočený na celuloidové filmy 35mm, do TV (resp. na DVD). Děje se to samozřejmě digitalizací, resp. naskenováním jednotlivých snímků v určitém rozlišení. Používá se samozřejmě "rozlišení" příslušného formátu, pro PAL je to 720x576 a pro NTSC je to 720x480. To je poměrně jednoduché, teď je ještě nutné změnit počet snímků za vteřinu ze 24 na požadovaných 25 snímků/50 půlsnímků pro PAL nebo 30 snímků/60 půlsnímků pro NTSC.
U PALu je to jednoduché, prostě se jednoduše film pustí rychleji při 25sn/s místo 24sn/s. To také vysvětluje, proč film v TV trvá kratší domu než v kině. Teď co s prokládáním? Vždyť oba půlsnímky mají být z jiného intervalu. To se neřeší a jednoduše se dají liché řádky do prvního půlsnímku a sudé do druhého. Označíme-li snímky ABCD.. a půlsnímky číslicemi 1 a 2, vysílání probíhá jako A1-A2-B1-B2-C1-C2... Oba půlsnímky jsou tedy z jednoho časového intervalu a zobrazení na monitoru tedy nedělá žádné problémy. TV karty a grabovací karty ale musí zachytit do jednoho snímku nejprve první půlsnímek (tedy liché řádky) a pak teprve druhý (sudé) - tomuto uložení půlsnímků do snímku se říká Top field first nebo First A, tedy horní půlsnímek první. Pak je zaručeno, že budou oba půlsnímky z jednoho časového intervalu (a když Vám někdo bude tvrdit, že film v TV je neprokládaný, má tak vlastně pravdu), pokud by to bylo naopak, dostaneme v jednom snímku dva půlsnímky z jiného časového intervalu (A2-B1) a zobrazení na monitoru bude roztřepené.
U NTSC je to o něco málo složitější, ale také jednoduché, výsledek musí mít 30sn/s. Používá se metoda 3:2 pulldown, která neříká nic jiného, než že se jeden snímek dá do tří půlsnímků a druhý snímek do dvou půlsnímků. Vypadá to takto: A1-A2-A1-B2-B1-C2-C1-C2-D1-D2-E1-E2-E1-F2... Každý druhý stejný půlsnímek je tedy zopakován dvakrát. Výsledný počet půlsnímků je tedy 24*(3+2)/2=60. Uspořádání půlsnímků v jednom snímku při digitalizaci se používá Bottom field first neboli First B, tedy spodní půlsnímek první.
Protože formát DV vymysleli Japonci, kde se vysílá ve formátu NTSC, tak zadefinovali pořadí půlsnímků Bottom field first, což se přeneslo i do DV PAL. Při střihu tohoto formátu pak nastává jistý paradox, kdy zdroj máme v Bottom field first, ale výsledek by měl být v Top field first. Vzhledem k tomu, že jde o prokládané video a zobrazujeme na TV (prokládaně), tak je to vlastně jedno, hlavně se musí přehrávač dozvědět, který snímek vlastně má být první. MPEG formát na toto myslí a nese si sebou i informaci, který půlsnímek má být zobrazen první (resp. které řádky mají být první, zda sudé či liché). Tomu se přispůsobí i synchronizační pulsy pro TV. Vše je tedy naprosto v pořádku. Celý proces zpracování ale musí být v Bottom field first. Pokud např. při závěrečném renderingu nastavíte enkodéru Top field first, většinou to zblbne, protože neví, že zdroj je Bottom field first a že má proházet půlsnímy, nebo to neumí. Výsledek je ten, že přehrávač má špatnou informaci o pořadí půlsnímků a přehrávání bude škubané. Místo zobrazení půlsnímků P1-P2-P3-P4... dostaneme P2-P1-P4-P3... Některé půlsnímky, které ale pocházejí z pozdějšího časového okamžiku, jsou tedy zobrazeny před těmi, po nichž mají teprve následovat. Nakukují tak do budoucnosti :-). Dobré editory si s tím většinou poradí, musí mít ale nastaveny správně parametry projektu - tedy už v něm musí mít nastaveno Top field first, ne až v nastavení kodeku. Záleží v podstatě na Vás, jaký chcete mít výstup, jen je potřeba vše správně nastavit. Technologie na to připravené jsou.
Sečteno a podtrženo - zachycené video z TV karty je Top field first, DV z kamery je Bottom field first. Filmy převedené z filmového materiálu mají oba půlsnímky shodné a není nutné provádět deinterlace při zobrazení na monitoru. Rendering do MPEG lze dělat do Bottom field first i Top field first, jen je nutné vše správně nastavit. Teď už tedy víte, proč a co nastavit, jak to nastavit záleží pouze na použitém software...
Když se podíváte do doby před cca stoletím, tak se natáčelo pouze na celuloidové filmy, jinak se to prostě neumělo. Jejich princip zůstal do dneška, ale dnes se takto natáčejí pouze filmy do kina. Důvodem je především vysoké rozlišení, protože v kině se díváte na plátno velké několik metrů. Rozlišení je v podstatě podobné jako u klasických fotoaparátů a je určeno především citlivostí filmu (o fotoaparátů označované jako ISO100, ISO200 a ISO400). Čím větší zrno filmu, tím větší citlivost a možnost filmovat za nižšího osvětlení. Větí zrno filmu ale znamená nižší rozlišení. Podobné je to u filmových materiálů. Nelze ale říci, že rozlišení je X krát Y bodů, protože zrna jsou rozházeny vlastně náhodou. Pokud je chcete převést na digitální obraz, musíte je naskenovat v určitém rozlišení. Samozřejmě nemá cenu skenovat příliš vysokým rozlišením, protože i filmové políčko má své limity. Při naskenování příliš velkým rozlišením pak dva body vedle sebe mají v podstatě stejnou hodnotu, takže je to zbytečné. Také je to otázka, jaké změny obrazu dokáže lidské oko zachytit. Jako mez se udává rozměr přibližně 5000x5000 bodů (někdy je možné slyšet i 3000x3000 a někdy se mluví i o 4096x4096 označovaných jako 4K), v tomto rozlišení se také většinou renderují digitální animace a efekty ve filmech. Dalším parametrem videa je počet snímků za vteřinu. Těch se používá 24 za vteřinu, což je ale dost málo na to, aby se pohyb nezdál trhaný. Proto se používá malý fígl na ošálení lidského zraku. Jeden snímek je zobrazen celkem třikrát přerušovaně, takže se oku zdá, že má obraz trojnásobnou frekvenci. Docílí se toho použitím Maltézského kříže, který třikrát zastíní příslušný snímek, při čtvrtém zastínění se posune pásek filmu o jedno políčko. Je jasné, že tento systém neprokládaný. Digitalizace se nazývá telecine (od television-cinema).
Určitě jste od někoho slyšeli, že filmy jsou v televizi vysílány neprokládaně, což je trošku nepřesné. Z principu televize, kterou jsme objasnili zde, plyne, že se vysílá po půlsnímcích (field), dva půlsnímky tvoří jeden snímek (frame). Jeden půlsnímek obsahuje liché řádky a druhý půlsnímek obsahuje sudé řádky, oba půlsnímky jsou navíc zachyceny z jiného intervalu, takže jsou časově posunuté. Pokud je zobrazíte najednou (což nedělá TV, ale dělá monitor počítače), pak dostaneme známé roztřepení obrazu u pohybujících se objektů. Jak se toto roztřepení odstraňuje v počítači, jsme rozebrali v tomto článku. My se teď budeme zabývat tím, jak dostat film, natočený na celuloidové filmy 35mm, do TV (resp. na DVD). Děje se to samozřejmě digitalizací, resp. naskenováním jednotlivých snímků v určitém rozlišení. Používá se samozřejmě "rozlišení" příslušného formátu, pro PAL je to 720x576 a pro NTSC je to 720x480. To je poměrně jednoduché, teď je ještě nutné změnit počet snímků za vteřinu ze 24 na požadovaných 25 snímků/50 půlsnímků pro PAL nebo 30 snímků/60 půlsnímků pro NTSC.
U PALu je to jednoduché, prostě se jednoduše film pustí rychleji při 25sn/s místo 24sn/s. To také vysvětluje, proč film v TV trvá kratší domu než v kině. Teď co s prokládáním? Vždyť oba půlsnímky mají být z jiného intervalu. To se neřeší a jednoduše se dají liché řádky do prvního půlsnímku a sudé do druhého. Označíme-li snímky ABCD.. a půlsnímky číslicemi 1 a 2, vysílání probíhá jako A1-A2-B1-B2-C1-C2... Oba půlsnímky jsou tedy z jednoho časového intervalu a zobrazení na monitoru tedy nedělá žádné problémy. TV karty a grabovací karty ale musí zachytit do jednoho snímku nejprve první půlsnímek (tedy liché řádky) a pak teprve druhý (sudé) - tomuto uložení půlsnímků do snímku se říká Top field first nebo First A, tedy horní půlsnímek první. Pak je zaručeno, že budou oba půlsnímky z jednoho časového intervalu (a když Vám někdo bude tvrdit, že film v TV je neprokládaný, má tak vlastně pravdu), pokud by to bylo naopak, dostaneme v jednom snímku dva půlsnímky z jiného časového intervalu (A2-B1) a zobrazení na monitoru bude roztřepené.
U NTSC je to o něco málo složitější, ale také jednoduché, výsledek musí mít 30sn/s. Používá se metoda 3:2 pulldown, která neříká nic jiného, než že se jeden snímek dá do tří půlsnímků a druhý snímek do dvou půlsnímků. Vypadá to takto: A1-A2-A1-B2-B1-C2-C1-C2-D1-D2-E1-E2-E1-F2... Každý druhý stejný půlsnímek je tedy zopakován dvakrát. Výsledný počet půlsnímků je tedy 24*(3+2)/2=60. Uspořádání půlsnímků v jednom snímku při digitalizaci se používá Bottom field first neboli First B, tedy spodní půlsnímek první.
Protože formát DV vymysleli Japonci, kde se vysílá ve formátu NTSC, tak zadefinovali pořadí půlsnímků Bottom field first, což se přeneslo i do DV PAL. Při střihu tohoto formátu pak nastává jistý paradox, kdy zdroj máme v Bottom field first, ale výsledek by měl být v Top field first. Vzhledem k tomu, že jde o prokládané video a zobrazujeme na TV (prokládaně), tak je to vlastně jedno, hlavně se musí přehrávač dozvědět, který snímek vlastně má být první. MPEG formát na toto myslí a nese si sebou i informaci, který půlsnímek má být zobrazen první (resp. které řádky mají být první, zda sudé či liché). Tomu se přispůsobí i synchronizační pulsy pro TV. Vše je tedy naprosto v pořádku. Celý proces zpracování ale musí být v Bottom field first. Pokud např. při závěrečném renderingu nastavíte enkodéru Top field first, většinou to zblbne, protože neví, že zdroj je Bottom field first a že má proházet půlsnímy, nebo to neumí. Výsledek je ten, že přehrávač má špatnou informaci o pořadí půlsnímků a přehrávání bude škubané. Místo zobrazení půlsnímků P1-P2-P3-P4... dostaneme P2-P1-P4-P3... Některé půlsnímky, které ale pocházejí z pozdějšího časového okamžiku, jsou tedy zobrazeny před těmi, po nichž mají teprve následovat. Nakukují tak do budoucnosti :-). Dobré editory si s tím většinou poradí, musí mít ale nastaveny správně parametry projektu - tedy už v něm musí mít nastaveno Top field first, ne až v nastavení kodeku. Záleží v podstatě na Vás, jaký chcete mít výstup, jen je potřeba vše správně nastavit. Technologie na to připravené jsou.
Sečteno a podtrženo - zachycené video z TV karty je Top field first, DV z kamery je Bottom field first. Filmy převedené z filmového materiálu mají oba půlsnímky shodné a není nutné provádět deinterlace při zobrazení na monitoru. Rendering do MPEG lze dělat do Bottom field first i Top field first, jen je nutné vše správně nastavit. Teď už tedy víte, proč a co nastavit, jak to nastavit záleží pouze na použitém software...