A tutti sarà capitato almeno una volta di ascoltare un brano e accorgersi di quanto esso fosse di “bassa qualità” sonora, nonostante addirittura fosse piuttosto ‘pesante’! La dimensione di un file audio infatti non sempre è segno di qualità, ma perché? Prima di capirlo è necessaria una premessa dopodiché passeremo alla pratica per riconoscere se i file che abbiamo sono veramente di qualità senza fidarci più di tanto del nostro orecchio.
I file audio
Forse non tutti sanno che qualsiasi ‘file’ che abbiamo nel nostro pc in realtà non è altro che un elenco di byte ovvero bit che non sono altro che 0 e 1. Per avere un’idea pensate che un file di 10MB (appunto MegaByte), che può essere un brano, un’immagine piuttosto grande, 10 secondi di video ad alta definizione è formato da circa 80.000.000 di bit (1byte = 8bit e 1 bit = 0 oppure 1), ovvero 80 milioni di 0 e di 1, quasi la popolazione italiana. Tuttavia i file audio che dovrebbero contenere, in termini semplicistici, le ‘onde sonore’ non sempre sono ‘puri’, ovvero esistono degli algoritmi che consentono di ridurre drasticamente la dimensione del file audio, comprimendolo. Risulta comunque scontato che maggiore informazioni relative alle onde sonore abbiamo, maggiore sarà la definizione dell’audio ma anche più grande sarà il file che dovrà contenere queste informazioni. Alla luce di questo e a seconda della ‘compressione’ che utilizziamo abbiamo file e qualità diverse. Esistono algoritmi che consentono di preservare il maggior numero di informazioni e altri che invece ne perdono molte guadagnando però spazio. I primi solitamente generano file molto grandi e sono anche detti “Lossless” ovvero ‘meno perdite’, proprio perché preservano il massimo della qualità possibile, 4 minuti di un brano possono anche occupare dai 40MB ai 100MB a seconda dell’algoritmo che comprime file. I più conosciuti e usati sono
.wav / .wave | WAVEform audio file format |
.flac | Free Lossless Audio Codec |
.m4a | variante Apple Lossless |
.wma | variante Windows Media Audio LossLess |
Gli altri invece sono quelli forse più comuni e che consentono di avere 4 minuti in circa 10MB se di alta qualità ed essi sono
.mp3 | MPEG-1/2 Audio Layer III |
.m4a | variante Advanced Audio Coding (AAC) |
.wma | variante Windows Media Audio |
Bitrate e qualità
Un altro fattore determinante per la qualità sonora di un file audio è il bitrate ovvero quanti bit (ricordate? 0 e 1) è in grado di contenere il file in un secondo? Ho scritto appositamente ‘contenere’ ora capirete il perché. Il bitrate può essere variabile (Variable BitRate) oppure fisso. Cominciamo dall’ultimo. Un file con bitrate fisso di 320kbps [1kbps sta per 1kilobit-per-second = 1.000 bit ogni secondo] è in grado di contenere 320.000bit ogni secondo di esecuzione del file audio. Questo significa che essendo un file solo un ‘contenitore’, se noi non disponiamo di 320.000 bit ogni secondo, il file per esempio di 4 minuti comunque avrà dimensione di:
$$4 minuti \cdot 60secondi = 240 secondi \cdot 320.000bit = 76.800.000bit\$$
che trasformati in byte
$$\frac{76.800.000bit}{8} = 9.600.000byte = 9,6mb\$$
circa 10mb. Questo però non ci dice nulla riguardo alla qualità sonora!
Il VBR, cioè il bitrate variabile invece, riguarda quei file che non hanno una capacità fissa al secondo ma essa varia nel tempo, quindi è da preferire perché uno dei vantaggi è che non ‘spreca’ lo spazio non utilizzato. Infatti se in 1 secondo di un mp3 a 320kbps il file in realtà possiede solo una quantità di informazioni pari a 200kbit i restanti 120kbit non sono utilizzati ma occupano comunque spazio su disco! Come possiamo sapere allora se il file che abbiamo è veramente di qualità? Passiamo alla pratica!
Riconoscere un file di qualità
Possiamo sapere se un file audio è veramente di qualità andando proprio a vedere cosa succede, su un grafico, in ogni secondo. Questo perché le frequenze che vengono riprodotte variano a seconda della qualità di un file. Mi spiego meglio. Gli esseri umani sono in grado di percepire nominalmente le frequenze audio che variano dai 20Hz ai 20.000Hz, vi siete mai chiesti perché un brano per esempio si ‘sente male’? Perché se vengono a mancare le frequenze più alte, quelle che vanno dagli 8.000Hz in su, il suono è meno ‘rifinito’. Quindi basterà avere il grafico delle frequenze del nostro brano (lo spettro delle frequenze) e sapremo la verità.
A questo proposito possiamo usare Adobe Audition che fra le tante cose ci è utile anche per questo oppure un’alternativa gratis che si chiama Spek (disponibile qui).
Quindi apriamo il nostro programma per analisi dello spettro e apriamo un brano che di cui vogliamo analizzare lo spettro.
La linea rossa che ho disegnato è la massima frequenza udibile dall’orecchio umano, 20.000Hz. Vedete che da circa 16.000Hz a 20.000Hz il file non riproduce nulla? Questo significa che nonostante la qualità sia il massimo per un mp3, come potete vedere nella foto, alcune frequenze subiscono un ‘taglio’, quelle più alte. Non troverete mai un file senza le frequenze basse, sono solo quelle alte a determinare la qualità! Ecco lo stesso file con Adobe Audition:
Passiamo ora a un formato Lossless, quelli di cui parlavo prima, nello specifico un Apple Lossless con estensione .m4a
La differenza è palese! Il brano lossless ha tutte le frequenze che possiamo ascoltare è normale, la qualità è massima ma questo file occupa ben 30mb!
Quale compressione scegliere?
Quindi ora è chiaro, dobbiamo cercare un algoritmo di compressione che ci permette di mantenere più frequenze ma con una dimensione ridotta, se ogni brano occupasse 30mb i nostri dispositivi sarebbero pieni immediatamente!
Avendo analizzato numerosi brani con estensione diversa e cercando un po’ in rete, sono giunto alla conclusione che il miglior algoritmo di codifica è senza dubbio la compressione AAC con bitrate variabile a estensione .m4a, il miglior algoritmo che consente di mantenere gran parte delle frequenze più alte in dimensioni molto ridotte. Guardiamo insieme gli spettri provando a convertire il brano precedente in Apple Lossless (di 4 minuti e 23 secondi) prima in mp3 a 320kbps a bitrate fisso, poi sempre mp3 a 320kbps in bitrate variabile (massima qualità) e infine in AAC con bitrate variabile (massima qualità), confrontando anche le dimensioni di file e il rapporto massima frequenza dopo il taglio/dimensione. Il programma utilizzato per la conversione è Total Audio MP3 Converter .
MP3 bitrate fisso
MP3 bitrate varibile (massima qualità)
AAC bitrate variabile (massima qualità)
Riepilogo
Confrontiamo in una tabella i vari dati
Codec | Sample Rate | Lunghezza | Bitrate | Dimensione | Frq. max | Frq. max/dimensione |
Apple Lossless | 44100 Hz | 4:23 | 980kbps | 30,7MB | 22kHz | 0,73 |
MP3 bitrate fisso | 44100 Hz | 4:23 | 320kbps | 10MB | 20kHz | 2,00 |
MP3 bitrate variabile | 44100 Hz | 4:23 | 256kbps | 8,43MB | 19kHz | 2,25 |
AAC bitrate variabile | 44100 Hz | 4:23 | 313kbps | 9,91MB | 22kHz | 2,21 |
Come possiamo vedere dalla tabella l’MP3 a bitrate variabile vince riguardo al rapporto frequenza massima dopo il taglio su dimensione, tuttavia la differenza è veramente infinitesimale con l’AAC che è in realtà il vero vincitore. Ma passiamo in rassegna tutti i file.
Il lossless ovviamente ha una dimensione spropositata e non è confrontabile, l’MP3 fisso ha una buona qualità, infatti rende fino a 20kHz ma occupa 10MB. L’MP3 variabile invece effettua un taglio dai 19kHz in su ma vince con 8,43MB: il taglio non dovrebbe essere forse neanche percepibile ma comunque è sotto i 20kHz. L’AAC occupa qualcosa di più rispetto all’MP3 variabile ma consente di preservare tutte le frequenze come il lossless fino a 22kHZ! Ecco dimostrato perché lo preferisco. Comunque possiamo stilare una classifica ordinando in base al rapporto frequenza/dimensione :
- MP3 – VBR (Massima qualità)
- AAC – VBR (Massima qualità)
- MP3 – CBR
Quindi il mio consiglio è di rippare i cd in lossless poi effettuare una conversione in AAC a bitrate variabile scegliendo la massima qualità!
Il sample rate (frequenza di campionamento)
Finora non abbiamo parlato di sample rate, ovvero della frequenza di campionamento, perché sostanzialmente essa è fissa di 44100Hz per i rip da CD. Comunque quando registriamo per esempio la nostra voce per un memo, se la registrazione è fatta a 44100Hz significa che ogni secondo l’audio in entrata viene trasformato in bit a 44100 ‘fotogrammi’ al secondo, come se ogni secondo fosse diviso in 44100 parti e ogni pezzettino di audio di ogni parte viene convertito in bit. Le varie frequenze comuni sono 44100Hz (qualità CD), 48000Hz (qualità più alta), 96000Hz, qui trovate una tabella con tutte le varie frequenze esistenti. Maggiore ovviamente è il sample rate, maggiore sarà la qualità sonora.