L’articolo, a cura di Franco Visintin, intende valutare teoricamente le perdite in risoluzione dei formati stereoscopici 3D HD rispetto alla risoluzione orizzontale e verticale presentate dagli standard 2D HD monoscopici, oggi in uso in Europa.
L’esigenza
di assicurare il trasporto di segnali stereoscopici con le esistenti
infrastrutture di produzione e distribuzione in 3D ha portato allo
sviluppo dei cosiddetti “Dual image stereoscopic 3D imaging systems”.
Tali sistemi sono in grado di fornire due immagini (il cosiddetto
stereo pair) che gli occhi destro e sinistro possono vedere, nella
pratica, simultaneamente. In tal modo, gli osservatori sono in grado di
percepire le profondità insite nell’immagine, come accade nella visione
binoculare di oggetti reali.
Fra i vari sistemi proposti per trasportare le due immagini HD dello
stereo pair è stato adottato il ‘3D frame compatible packing method’,
che ospita in un singolo quadro HD le due immagini dette, secondo uno
‘spatial multiplexing’. Ciò però comporta il loro ‘downsizing’ cioè uno
schiacciamento (image squeezing) orizzontale e/o verticale
dell’immagine.
Nel processamento digitale del segnale video, l’image squeezing
viene attuato mediante un processo di decimazione (*) preceduto da un
opportuno filtraggio, finalizzato a ridurre possibili aliasing.
Sistemi simili a questi erano già stati presi in considerazione dalla cinematografia stereoscopica.
Infatti, sia durante la prima ‘Golden Era’ della cinematografia 3D
negli anni ‘50 che nel secondo boom del 3D Hollywood-driven nel 1983,
sono stati utilizzati diversi metodi riguardo alle pellicole
stereoscopiche. Grazie a un separatore ottico (beamsplitter) la camera
da 35mm o 16mm era in grado di indirizzare la luce da due diversi punti
(quelli dei due occhi) a due porzioni differenti dello stesso
fotogramma. A tale riguardo vennero impiegati i due seguenti formati:
– Side-by-Side, che acquisiva sul fotogramma le immagini sinistra e destra, una a fianco dell’altra, schiacciandole orizzontalmente;
– Over-Under, che le acquisiva una sull’altra, schiacciandole verticalmente.
Il 3D in televisione
Trasferendo l’esperienza cinematografica 3D al settore televisivo con
l’attuale ‘frame compatible 3D TV’, sono state prese in considerazione
alcune soluzioni similari:
– Side-by-Side (SbS):
le immagini sinistra e destra vengono inserite nel quadro 720p o
1080i, l’una a fianco dell’altra. Per attuare ciò, si richiede un
restringimento orizzontale del segnale video, con conseguente
dimezzamento della definizione orizzontale dell’immagine;
– Top-and-Bottom (TaB):
le immagini sinistra e destra vengono inserite nel quadro 720p o 1080i
l’una sull’altra, richiedendo così un restringimento verticale, con
conseguente dimezzamento della definizione verticale dell’immagine.
– 3D-Tile Format:
le due immagini sinistra e destra con formato 720p vengono inserite in
un singolo quadro 1080p: quella di sinistra rimane invariata, cioè
senza alcun restringimento (down-sizing); l’immagine di destra, invece,
viene divisa in tre parti (tiles), senza alcun processo di filtraggio o
decimazione, ma solo tramite una distribuzione (remapping) dei pixel.
Il
presente articolo intende valutare, teoricamente, le perdite in
risoluzione di questi formati stereoscopici 3D HD rispetto alla
risoluzione orizzontale e verticale presentate dagli standard 2D HD
monoscopici, oggi in uso in Europa, che sono: 720p/50, 1080i/25,
1080p/50.
Analoghe considerazioni possono essere condotte nei riguardi dei formati HD che adottano le frequenze 59,94/60 Hz.
Valutazione della risoluzione
Negli
ambienti cinematografico e televisivo il termine ‘risoluzione’ viene
inteso per valutare quanto ravvicinati possano trovarsi i dettagli di
un’immagine per poter essere ancora percepiti visivamente come separati.
I dettagli sono considerati idealmente costituiti da linee,
alternativamente una chiara e una scura (line pairs).
In cinematografia, la valutazione della risoluzione è legata alle
dimensioni fisiche ed è specificata come numero di linee per unità di
lunghezza (LP/mm, line per mm), lungo gli assi verticale e orizzontale.
In televisione la valutazione della risoluzione è legata alla
dimensione globale dell’immagine ed è specificata, orizzontalmente e
verticalmente, dal numero di linee presenti su una distanza eguale
all’altezza dell’immagine (LPH, line per picture height). In
particolare:
– la risoluzione verticale NV definisce la capacità
del sistema di risolvere linee orizzontali, condizionata primariamente
sia dal numero di linee usate per l’esplorazione dell’immagine che
dall’effetto combinato delle capacità della camera e del display
(effetti Kell e di interlacciamento, vedi oltre). Viene espressa come
numero di linee orizzontali risolvibili sullo schermo.
– la risoluzione orizzontale NH definisce la
capacità del sistema di risolvere linee verticali, condizionata dalla
frequenza di campionamento adottata dal sistema, cioè dalle capacità
della camera e del display, tenendo conto il rapporto d’immagine (aspect
ratio, AR) del sistema e la frequenza di cut-off del filtro
anti-aliasing. È espressa come numero di linee verticali risolvibili su
una lunghezza orizzontale pari all’altezza dello schermo. Al fine di
tenere la stessa scala spaziale per ambedue le risoluzioni verticale e
orizzontale, la risoluzione orizzontale è anch’essa specificata come
linee per altezza d’immagine (LPH) invece che come linee per larghezza
d’immagine (LPW, lines per picture width).
Risoluzione verticale
La
risoluzione verticale equivale solo idealmente al ‘numero di righe
attive’ (Nal, number of active lines) nell’esplorazione del quadro
(frame).
Infatti, questo concetto è valido solo quando le linee di
esplorazione del mezzo di acquisizione (camera o scanner, ove
l’esplorazione viene effettuata con file di celle sensibili) sono
centrate sui dettagli dell’immagine. All’opposto, una perdita completa
di risoluzione verticale si verifica quando le linee scavalcano i
contorni.
Quanto detto porta ad una diminuzione della risoluzione verticale,
identificabile moltiplicando il numero delle linee attive (Nal) per il
‘fattore di Kell verticale’ (vKf) il cui valore, misurato
statisticamente con l’esplorazione progressiva, è stato stimato fra 0,6 e
0,8 (per i vecchi sensori e display a raggi catodici) e fra 0,85 e 0,95
per gli attuali sensori (CCD, CMOS) e display (LCD, PDP) con matrice di
pixel.
Raymond D. Kell della RCA nel 1934, in base a prove soggettive con
sistemi ad esplorazione progressiva, valutò che la risoluzione verticale
potesse ridursi, per le ragioni specificate, al 64% del numero delle
righe attive. Tale valore venne da allora riveduto più volte, fino a
raggiungere quelli specificati più sopra.
Il valore della Risoluzione Verticale è quindi il seguente:
NV = Nal x vKf (linee)
Un’ulteriore perdita nella risoluzione verticale, valida solo sui
dettagli in movimento, si verifica per i soli sistemi con esplorazione
interlacciata.
Questa perdita viene individuata dal fattore di interlacciamento
(If) inteso come il rapporto fra le linee percepite in un’immagine video
trattata con esplorazione interlacciata e le linee percepite nella
stessa porzione d’immagine, trattata con esplorazione progressiva (vedi
Ref.1) e stimata col valore 0,7.
La risoluzione verticale interlacciata completa NVi risulta pertanto:
NVi = Nal x vKf x If (linee)
Nota: per immagini con esplorazione progressive il fattore d’interlacciamento vale 1.0.
Risoluzione orizzontale
La
risoluzione orizzontale equivale idealmente al ‘numero di campioni per
riga attiva’ (Nsa, number of samples per active line) diviso per il
rapporto d’immagine (aspect ratio, AR). Ma ciò vale solo nel caso le
celle dei sensori della camera siano centrate orizzontalmente sui
dettagli dell’immagine.
All’opposto, si avrebbe una completa perdita di risoluzione, se tali celle li scavalcassero.
Tale perdita viene individuata mediante il ‘fattore di Kell
orizzontale’ (hKf, horizontal Kell factor), il cui valore è stimato fra
0,85 e 0,95.
Il valore della risoluzione orizzontale viene così espresso dalla seguente formula:
NH = Nsa x hKf / AR (lines)
La Tabella 1 riassume i valori delle risoluzioni verticale NV2D e
orizzontale NH2D calcolati per gli attuali sistemi 2D HD (televisione ad
alta definizione monoscopica).
Valutazione della risoluzione nella TV stereoscopica 3D
L’inserimento
della coppia d’immagini dell’informazione 3D entro un unico quadro
(frame packing) viene effettuato schiacciando quelle immagini
orizzontalmente (quindi riducendo il numero dei campioni per riga attiva
Nsa , number of samples per active line), o verticalmente (quindi
riducendo il numero delle righe attive Nal , number of active lines).
Questo schiacciamento riduce la corrispondente risoluzione in base ai seguenti fattori:
– fattore di riduzione verticale Vrf (Vertical reduction factor) = Nal ridotto / Nal originale
– fattore di riduzione orizzontale Hrf (Horizontal reduction factor) = Nsa ridotto / Nsa originale
cosicché i valori delle risoluzioni orizzontale e verticale della coppia delle immagini 3D sinistra e destra divengono:
– risoluzione verticale 3D, NV3D = NV2D x Vrf
– risoluzione orizzontale 3D, NH3D = NH2D x Hrf
Possiamo ora calcolare i valori della risoluzione verticale e
orizzontale nelle varie condizioni di frame packing, tenendo in conto i
valori di NV2D e NH2D della Tabella 1.
I valori di NH e NH che emergono da questa valutazione possono
offrire interessanti considerazioni sull’opportunità di operare con i
vari sistemi di frame packing oggi proposti.
3D Side by Side 720p/50. Le immagini sinistra e
destra, schiacciate orizzontalmente al rapporto d’immagine 640×720,
vengono inserite side-by-side entro il quadro 1.280×720 e trasmesse nel
formato 720p/50.
In conseguenza di ciò:
Vrf = 720/720 = 1,0
Hrf = 640/1280 = 0,5
per cui i valori di risoluzione divengono:
NV3D = NV2D x Vrf = ˜ 648 x 1,0 = ˜648 LPH (Risoluzione Verticale)
NH3D = NH2D x Hrf = ˜ 648 x 0,5 = ˜324 LPH (Risoluzione Orizzontale)
Side by Side 1080i/25, figura 7a. Le immagini
sinistra e destra, schiacciate orizzontalmente al rapporto d’immagine
960×1.080, vengono inserite side-by-side entro il quadro 1.920×1.080 e
trasmesse nel formato 1080i/25.
Quindi:
Vrf = 1080/1080 = 1,0
Hrf = 960/1920 = 0.5
per cui i valori della risoluzione divengono:
NV3D = NV2D x Vrf = ˜680 x 1,0 = ˜680 LPH (Risoluzione Verticale)
NH3D = NH2D x Hrf = ˜972 x 0,5 = ˜486 LPH (Risoluzione Orizzontale)
3D SIDE-by-SIDE 1080p/50, figura 8. Le immagini
sinistra e destra, schiacciate orizzontalmente al rapporto d’immagine
960×1.080, vengono inserite side-by-side entro il quadro 1.920×1.080 e
trasmesse nel formato 1080p/50.
Ne deriva che:
Vrf =1.080/1.080 = 1,0
Hrf = 960/1.920 = 0.5
per cui i valori della risoluzione divengono:
NV3D = NV2D x Vrf = ˜972 x 1.0 = ˜972 LPH (Risoluzione Verticale)
NH3D = NH2D x Hrf = ˜972 x 0.5 = ˜486 LPH (Risoluzione Orizzontale)
3D TOP-and-Bottom, figura 9. Le immagini sinistra e
destra, schiacciate verticalmente al rapporto d’immagine 360×1.280,
vengono inserite top-and-bottom entro il quadro 1.250×720 e trasmesse a
720p/50.
Allora:
Vrf = 360/720 = 0,5
Hrf = 1.280/1280 = 1,0
per cui i valori della risoluzione divengono:
NV3D = NV2D x Vrf = ˜648 x 0.5 = ˜324 LPH (Risoluzione Verticale)
NH3D = NH2D x Hrf = ˜648 x 1.0 = ˜648 LPH (Risoluzione Orizzontale)
3D TOP-and-BOTTOM, figura 10. Le immagini sinistra e
destra, schiacciate verticalmente al rapporto d’immagine 1.920×540,
vengono inserite top-and-bottom entro il quadro 1.920×1.080 e trasmesse a
1080i/25.
Ecco che:
Vrf = 540/1080 = 0,5
Hrf = 1.920/1.920 = 1,0
per cui i valori della risoluzione divengono:
NV3D = NV2D x Vrf = ˜680 x 0.5 = ˜340 LPH (Risoluzione Verticale)
NH3D = NH2D x Hrf = ˜972 x 1.0 = ˜972 LPH Risoluzione Orizzontale)
3D TOP-and-BOTTOM, figura 11. Le immagini sinistra e
destra, schiacciate verticalmente al rapporto d’immagine 1.920×540,
vengono inserite top-and-bottom entro il quadro 1.920×1.080 e trasmesse a
1080i/50.
Quindi:
Vrf = 540/1.080 = 0,5
Hrf = 1.920/1.920 = 1,0
per cui i valori della risoluzione divengono:
NV3D = NV2D x Vrf = ˜972 x 0.5 = ˜486 LPH (Risoluzione Verticale)
NH3D = NH2D x Hrf = ˜972 x 1.0 = ˜972 LPH (Risoluzione Orizzontale)
3D TILE 1080p/50, figura 12. Le immagini destra e
sinistra, ambedue nel formato 720p/50, vengono inserite nel quadro
1.920×1.080 e trasmesse col formato 1080p/50. Non si richiede alcun
processamento di schiacciamento, ma solo un più sicuro processamento di
re-mapping, evitando così problemi di degradazione dell’immagine.
L’immagine sinistra viene inserita nella parte superiore sinistra del
quadro 1.920×1.080, mentre l’immagine destra è divisa in tre parti
(tiles) che vengono inserite negli spazi restanti del quadro 1.920×1.080
(come si può vedere in Figura 12).
In conseguenza di ciò, i valori di risoluzione sono gli stessi di quelli di un’immagine nel formato 720p.
NV3D = ˜648 LPH (Risoluzione Verticale)
NH3D = ˜648 LPH (Risoluzione Orizzontale)
Conclusioni
La
Tabella 2 riassume i valori delle risoluzioni verticale NV e
orizzontale NH calcolate per i sistemi 2D e 3D al momento disponibili.
Il segno ˜ ricorda che i valori della risoluzione dipendono da quelli
attribuiti ai fattori di Kell (orizzontale e verticale) e al fattore
d’interlacciamento, il che è stato motivo di acceso dibattito fin dal
1934, quando Raymond D. Kell ne scoprì l’esistenza.
I dati raccolti in Tabella 2 per i formati SbS e TaB denunciano, a
differenza di quelli del 3D Tile Format, rilevanti divergenze fra i
valori della risoluzione orizzontale e verticale. Mentre molto è stato
scritto sul fatto che l’occhio possa essere più influenzato dalla
risoluzione orizzontale o da quella verticale, resta il sospetto che il
giudizio complessivo degli spettatori sulla qualità dell’immagine possa
essere condizionato dai valori più bassi di tale risoluzione. Una
ricerca statistica su tale aspetto sarebbe auspicabile. Peraltro non vi è
dubbio che una situazione di bilanciamento fra le due risoluzioni
giochi a favore di una valutazione più favorevole della qualità
dell’immagine riprodotta.
(*) La decimazione è un processo volto a ridurre il numero dei
campioni (samples) del segnale digitale. Il termine viene dal latino
decimatio cioè ‘eliminazione di un decimo’, provvedimento in uso
nell’esercito romano contro i soldati codardi o ammutinati.
Riferimenti
1. Allan W. Jayne, Jr., “Video and Scanner Resolution — The Kell Factor”, www.cockam.com/kell.htm, 1997-2000
2. ITU-R, “Parameter values for the HDTV standards for production
and international programme exchange”, Rec. ITU-R BT.709-5 (04/2002)
3. Michael Robin, “Revisiting Kell”, Broadcast Engineering, March 1, 2003
4. Michael Robin, “Horizontal Resolution: Pixel or Lines”, Broadcast Engineering, April 1, 2005
5. Steve Mullen, Just What is 1080i? , HDV@Work, Feb. 2006 http://digitalcontentproducer.com/hdhdv/depth/hdv_at_work_02272006/
6. Hans Hoffmann, “HDTV – EBU format comparisons at IBC-2006“, EBU Technical Review – October 2006
7. EBU-UER, “High Definition (HD) Image Formats for Television Production”, EBU-Tech 3299, Geneva January 2010
* Franco Visintin, Chairman della Sezione Italiana di SMPTE, ha
ricoperto il ruolo di Capo Struttura Tecnica presso il Centro di
Produzione RAI di Milano