4 LA CODIFICA DEI DATI MULTIMEDIALI

4 LA CODIFICA DEI DATI MULTIMEDIALI

La codifica dei video

La codifica dei video avviene quando gli 0 e gli 1 vengono usati per rappresentare immagini in movimento.


Il movimento dei filmati viene percepito dall’uomo grazie a una caratteristica biologica dell’occhio: la rètina memorizza per un po’ di tempo l’immagine e se, nel frattempo, vengono fatti scorrere altri fotogrammi ( frame) singoli, la frammentazione non viene percepita e l’effetto che si ottiene è quello di un movimento continuo. Il fenomeno, però, si verifica solo con una velocità di movimento dei frame superiore a circa 15 fotogrammi al secondo, al di sotto della quale l’occhio percepisce discontinuità tra i fotogrammi.


Produrre file, o trasmissioni, video digitali ad alta risoluzione significa produrre un’elevata quantità di dati. Per poterli memorizzare o trasmettere, occorre applicare le tecniche di compressione che, nel caso dei video, sono sempre di tipo lossy.

Gli algoritmi di compressione dei video si dividono in due categorie principali:

  • intraframe: lavorano all’interno del singolo fotogramma. Ogni fotogramma viene gestito indipendentemente dagli altri e viene considerato come una singola immagine statica alla quale possono essere applicate le tecniche di compressione lossy per le immagini;
  • interframe: lavorano fra i fotogrammi. Questi algoritmi identificano le differenze che ci sono tra un fotogramma e il successivo e codificano solo queste, evitando di ripetere, per ogni frame, le porzioni del fotogramma precedente che sono rimaste invariate.

L’algoritmo applicato suddivide l’immagine contenuta nel singolo fotogramma in quadratini, ciascuno dei quali contiene un blocco di pixel. Nel caso in cui il singolo quadratino rimanga sostanzialmente invariato nel passaggio da un frame al successivo, l’algoritmo non trasmette tutti i dati del quadratino successivo, ma lo ricostruisce riciclando i dati che sono già stati trasmessi per descrivere il quadratino precedente. Trasmettere due volte informazioni identiche introdurrebbe un’inutile ridondanza.

esempio

Osserviamo due fotogrammi successivi molto simili, come quelli a lato.

La maggior parte dei quadratini resta quasi invariata sia nel frame precedente sia in quello successivo. Cambia sostanzialmente solo un gruppo di quadratini, sarà solo questo a essere trasmesso per comporre l’intero frame successivo.

In effetti, osservando attentamente, ogni quadratino potrebbe variare leggermente, tra un frame precedente e il successivo, ma finché la differenza resta sotto a una certa soglia, il cambiamento risulta così piccolo da poter essere trascurato e i quadratini possono essere considerati identici.

La tecnica interframe risulta mediamente molto efficace perché nei video, statisticamente, la probabilità di avere poche variazioni tra un fotogramma e il successivo è piuttosto alta. I cambi di inquadratura o di scena, cioè l’introduzione di un fotogramma totalmente nuovo, sono eventi che si verificano raramente in un filmato.


Esistono anche algoritmi più complessi che lavorano contemporaneamente su più frame adiacenti, talvolta cercando di essere predittivi nei confronti dei frame immediatamente successivi.


In informatica, quasi tutti i formati di file video sono dei contenitori, che al loro interno hanno:

  • un flusso video, codificato con uno degli algoritmi specifici;
  • uno o più flussi audio, codificati con uno degli algoritmi specifici. La presenza di più flussi audio consente, per esempio, di poter scegliere la lingua di un film. Ovviamente il flusso audio deve essere ben sincronizzato con il relativo flusso video;
  • eventuali dati aggiuntivi, per esempio i sottotitoli visualizzati in sovraimpressione durante i film che devono essere sincronizzati con il flusso video/audio;
  • eventuali altri metadati, per esempio le licenze, le immagini di copertina ecc.

I formati standard di file video più comuni sono:

  • MP4 (MPEG-4 Part 14), con estensione .mp4;
  • AVI (Audio Video Interleave), con estensione .avi;
  • MOV (Apple QuickTime), con estensione .mov;
  • MKV (MatrosKa Video), con estensione .mkv.

Per visualizzare un filmato è necessario utilizzare un software riproduttore; uno dei più diffusi è VLC Media Player.

Il software riproduttore prende in input il filmato e, applicando l’algoritmo di decompressione adatto al formato del file (per esempio .MKV, .AVI ecc.), procede alla visualizzazione.

Un software riproduttore, quindi, deve contenere più algoritmi, cioè più librerie software, in modo da poter richiamare, di volta in volta, quella necessaria al formato del file. Le librerie software prendono il nome di codec e sono piccoli programmi (che implementano, ciascuno, un diverso algoritmo di decompressione) contenuti all’interno del software riproduttore.


Il software VLC, oltre a essere gratuito, è uno fra i più completi software riproduttori perché include quasi tutti i codec audio/video esistenti, consentendo di riprodurre praticamente tutti i formati video senza dover installare altro.


La fruizione dei video digitali è, sempre più spesso, legata a piattaforme  cloud che ne consentono la visione  on-demand online e, in qualche caso, anche offline. Tra i siti di video streaming, il più popolare è YouTube, ma nel tempo sono aumentate le piattaforme. Per esempio Amazon, attraverso l’account Prime, consente la visione di film e serie TV via web o tramite specifica app, da PC, dispositivo mobile o Smart TV.

Anche il sistema cinematografico e quello televisivo, soprattutto per le nuove generazioni, stanno iniziando a cedere il passo alle nuove tecnologie, basate sull’informatica e sulla rete Internet.

Lo sapevi che

Le sale cinematografiche che utilizzavano la pellicola proiettavano i film a 24 fotogrammi al secondo, più che sufficienti a dare la sensazione di movimento fluido.

Lo sapevi che

Il nome degli MKV richiama quello delle matrioske russe, perché l’MKV è un contenitore di altri formati specifici.

  ApprofondiMENTO
IL FORMATO MPEG

MPEG è l’acronimo di Moving Picture Experts Group.

Questo formato è un classico esempio di standard di compressione che supporta i video con il relativo audio. Esiste in diverse varianti, che nel corso del tempo sono state rilasciate per aumentare l’efficacia della compressione. È applicato anche alle trasmissioni televisive con il digitale terrestre (Digital Video Broadcasting-Terrestrial).

Il formato H.264 o MPEG-4 AVC (Advanced Video Codec) o MPEG-4 Part 10 è uno dei formati di compressione video lossy più performanti in termini di compressione. Altri formati recenti, con fattori di compressione ancora migliori sono, per esempio, High Efficiency Video Coding (HEVC o H.265) e AOMedia Video 1 (AV1).

Alcuni di questi formati sono aperti e liberi e supportano funzionalità avanzate. Esistono formati video che supportano la visione a 360°, il 3D o la realtà virtuale oltre, ovviamente, ai video ad alta definizione (4K).

Diversi siti web di video streaming e alcuni social network danno ampio supporto anche per tali formati video avanzati.

 >> pagina 105 

La codifica degli audio

La codifica degli audio avviene quando gli 0 e gli 1 vengono usati per rappresentare i suoni.


Il flusso di 0 e 1 che rappresenta un dato sonoro (l’audio di una conversazione o di un film, un brano musicale ecc.) può essere compresso per risparmiare spazio sull’hard disk o per essere trasmesso su Internet occupando meno banda.

A parità di durata della riproduzione, la quantità di dati da gestire per l’audio è minore rispetto a quella del video; per questo motivo per la compressione degli audio esistono algoritmi sia lossy sia lossless.

  • Gli algoritmi lossless comprimono di meno, ma consentono di mantenere una migliore qualità dell’audio, perché non perdono alcuna informazione. Fra i codec più conosciuti citiamo: il FLAC (Free Lossless Audio Codec), il WMA Lossless (Windows Media Audio in versione lossless) e l’ALAC (Apple Lossless Audio Codec).
  • Gli algoritmi lossy hanno un’efficienza di compressione superiore, a scapito della qualità che è inferiore, per la perdita di informazioni, il peggioramento dovuto alla qualità acustica inferiore risulta spesso trascurabile. I codec più famosi sono l’MP3 (MPEG-1 Audio Layer III e successivamente MPEG-2 Audio Layer III), l’OGG (Ogg Vorbis) e l’AAC (Advanced Audio Coding).

    La compressione con perdita viene sviluppata sulla base della psicoacustica (scienza che studia come i suoni vengono percepiti, soggettivamente, dagli esseri umani). In particolare l’algoritmo elimina (o approssima) solo alcune frequenze (o suoni), come per esempio quelle sopra una certa soglia, che l’orecchio umano tende a non percepire, facendo in modo che la riduzione di qualità non risulti fastidiosa.

I formati standard dei file audio più diffusi supportano anche l’inserimento di metadati all’interno della codifica. Per esempio nei file MP3 (con estensione .mp3) è possibile aggiungere dei  tag che si riferiscono al brano: nome dell’artista, titolo del brano, titolo dell’album, immagine della copertina ecc.

I diversi supporti per i flussi audio possono fornire una riproduzione del suono in modalità mono, cioè usando 1 canale (auricolari), stereo, cioè utilizzando 2 canali (cuffie) o  surround, cioè usando più di 2 canali (per esempio casse Dolby Surround 5.1).

Per rendere digitale un audio, che è un segnale analogico, occorre prima campionarlo, cioè scegliere un “ritmo temporale” a cui prelevare i campioni (frequenza di campionamento) e individuare il valore delle ampiezze del segnale in corrispondenza di ogni istante di tempo ti. Successivamente occorre quantizzarlo, cioè arrotondare l’ampiezza analogica ottenuta al valore digitale che meglio la approssima.

I parametri di riferimento della codifica e compressione di un file audio sono:

  • numero di bit per campione: con quanti bit viene espresso il valore dell’ampiezza dell’onda sonora (analogica) nell’istante in cui viene campionata e quantizzata. Un buon file audio ha 16 bit/campione;
  • numero di canali: per ascoltare “bene” un brano musicale la codifica deve essere almeno stereofonica (con 2 canali);
  • frequenza di campionamento: per scegliere quella ottimale occorre misurare la massima frequenza sonora che si vuole digitalizzare e scegliere una frequenza di campionamento maggiore del doppio. Un buon file audio ha una frequenza di campionamento di 44 kHz circa, perché l’orecchio umano percepisce mediamente frequenze fino a circa 20 kHz;
  • bitrate: esprime quanti bit compressi vengono decompressi nell’unità di tempo, poiché i formati audio vengono decompressi “al volo”. Il bitrate può essere fisso o variabile, in base all’algoritmo usato. Per un file MP3 compresso tradizionale, contenente un brano musicale, il bitrate non deve essere inferiore a 128 kbit/s per non compromettere troppo la qualità della riproduzione.

L’audio può anche essere codificato in forma digitale senza compressione. I file di questo tipo risultano utili, per esempio, in caso di elaborazioni dell’audio.

Esempi di formati standard che lavorano in questo modo sono:

  • l’AIFF (Audio Interchange File Format, di Apple);
  • il WAV (WAVeform audio file format, di IBM e Microsoft);
  • i CD-audio, che contengono musica digitale non compressa.

A partire dagli anni Duemila quasi tutte le stazioni radiofoniche hanno iniziato a trasmettere musica utilizzando i sistemi digitali: l’operatore non usa più dischi o CD, ma software dedicati che riproducono i file audio.

Anche le abitudini di chi ascolta musica sono cambiate: non si comprano quasi più dischi in vinile o CD-audio, ma si acquistano i brani direttamente dalle piattaforme digitali.

In questo senso Apple ha fatto la storia con iTunes, dando origine al concetto podcasting, ovvero la fruizione di registrazioni o trasmissioni audio da ascoltare offline, dopo averle scaricate dalla rete, sui dispositivi.

Negli ultimi anni la piattaforma di streaming audio Spotify è diventata molto popolare offrendo la possibilità di ascoltare, anche in forma gratuita (con inserti pubblicitari), milioni di brani musicali.

  prova tu

Rispondi alle seguenti domande.

  • Che cos’è l’MP3?
  • Che cosa significa campionare un segnale analogico?
  • Che cosa significa quantizzare un segnale analogico?

  ApprofondiMENTO
LO STANDARD MIDI

Lo standard MIDI (Musical Instrument Digital Interface), nato negli anni Ottanta e ancora in uso, viene applicato in molti sintetizzatori, strumenti musicali elettronici, spesso nei videogiochi e nella creazione di suoni per i siti web.

Il livello di compressione di questi file è altissimo perché lo standard MIDI non codifica i suoni originali, ma i comandi che servono al sintetizzatore per riprodurre artificialmente i suoni originali. In pratica, nel formato MIDI, non vengono memorizzate delle onde sonore digitalizzate, ma un pentagramma. L’audio viene ricreato suonandolo ex novo, con istruzioni che indicano al sintetizzatore quale tipo di strumento e di timbro utilizzare, con quale tipo di temporizzazione e quale nota riprodurre.

Il formato MIDI consente di codificare un brano da 5 minuti con un file meno di 100 kB, (contro i 6 o 7 MB di un file MP3 di media qualità). Quasi tutti i sistemi utilizzati per il karaoke sono basati sull’utilizzo dei file MIDI, ai quali vengono aggiunti i metadati relativi al testo da visualizzare sullo schermo.

Clic!
Clic!
Tecnologie informatiche per il primo biennio