Riconoscere i file audio di qualità

A tutti sarà capitato almeno una volta di ascoltare un brano e accorgersi di quanto esso fosse di "bassa qualità" sonora, nonostante addirittura fosse piuttosto 'pesante'! La dimensione di un file audio infatti non sempre è segno di qualità, ma perché? Prima di capirlo è necessaria una premessa dopodiché passeremo alla pratica per riconoscere se i file che abbiamo sono veramente di qualità senza fidarci più di tanto del nostro orecchio.

I file audio

Forse non tutti sanno che qualsiasi 'file' che abbiamo nel nostro pc in realtà non è altro che un elenco di byte ovvero bit che non sono altro che 0 e 1. Per avere un'idea pensate che un file di 10MB (appunto MegaByte), che può essere un brano, un'immagine piuttosto grande, 10 secondi di video ad alta definizione è formato da circa 80.000.000 di bit (1byte = 8bit e 1 bit = 0 oppure 1), ovvero 80 milioni di 0 e di 1, quasi la popolazione italiana. Tuttavia i file audio che dovrebbero contenere, in termini semplicistici, le 'onde sonore' non sempre sono 'puri', ovvero esistono degli algoritmi che consentono di ridurre drasticamente la dimensione del file audio, comprimendolo. Risulta comunque scontato che maggiore informazioni relative alle onde sonore abbiamo, maggiore sarà la definizione dell'audio ma anche più grande sarà il file che dovrà contenere queste informazioni. Alla luce di questo e a seconda della 'compressione' che utilizziamo abbiamo file e qualità diverse. Esistono algoritmi che consentono di preservare il maggior numero di informazioni e altri che invece ne perdono molte guadagnando però spazio. I primi solitamente generano file molto grandi e sono anche detti "Lossless" ovvero 'meno perdite', proprio perché preservano il massimo della qualità possibile, 4 minuti di un brano possono anche occupare dai 40MB ai 100MB a seconda dell'algoritmo che comprime file. I più conosciuti e usati sono

.wav / .wave WAVEform audio file format
.flac Free Lossless Audio Codec
.m4a variante Apple Lossless
.wma variante Windows Media Audio LossLess

Gli altri invece sono quelli forse più comuni e che consentono di avere 4 minuti in circa 10MB se di alta qualità ed essi sono

.mp3 MPEG-1/2 Audio Layer III
.m4a variante Advanced Audio Coding (AAC)
.wma variante Windows Media Audio

Bitrate e qualità

Un altro fattore determinante per la qualità sonora di un file audio è il bitrate ovvero quanti bit (ricordate? 0 e 1) è in grado di contenere il file in un secondo? Ho scritto appositamente 'contenere' ora capirete il perché. Il bitrate può essere variabile (Variable BitRate) oppure fisso. Cominciamo dall'ultimo. Un file con bitrate fisso di 320kbps [1kbps sta per 1kilobit-per-second = 1.000 bit ogni secondo] è in grado di contenere 320.000bit ogni secondo di esecuzione del file audio. Questo significa che essendo un file solo un 'contenitore', se noi non disponiamo di 320.000 bit ogni secondo, il file per esempio di 4 minuti comunque avrà dimensione di:

4 minuti \cdot 60secondi = 240 secondi \cdot 320.000bit = 76.800.000bit\

che trasformati in byte

\frac{76.800.000bit}{8} = 9.600.000byte = 9,6mb\

circa 10mb. Questo però non ci dice nulla riguardo alla qualità sonora!

Il VBR, cioè il bitrate variabile invece, riguarda quei file che non hanno una capacità fissa al secondo ma essa varia nel tempo, quindi è da preferire perché uno dei vantaggi è che non 'spreca' lo spazio non utilizzato. Infatti se in 1 secondo di un mp3 a 320kbps il file in realtà possiede solo una quantità di informazioni pari a 200kbit i restanti 120kbit non sono utilizzati ma occupano comunque spazio su disco! Come possiamo sapere allora se il file che abbiamo è veramente di qualità? Passiamo alla pratica!

Riconoscere un file di qualità

Possiamo sapere se un file audio è veramente di qualità andando proprio a vedere cosa succede, su un grafico, in ogni secondo. Questo perché le frequenze che vengono riprodotte variano a seconda della qualità di un file. Mi spiego meglio. Gli esseri umani sono in grado di percepire nominalmente le frequenze audio che variano dai 20Hz ai 20.000Hz, vi siete mai chiesti perché un brano per esempio si 'sente male'? Perché se vengono a mancare le frequenze più alte, quelle che vanno dagli 8.000Hz in su, il suono è meno 'rifinito'. Quindi basterà avere il grafico delle frequenze del nostro brano (lo spettro delle frequenze) e sapremo la verità.

A questo proposito possiamo usare Adobe Audition che fra le tante cose ci è utile anche per questo oppure un'alternativa gratis che si chiama Spek (disponibile qui).

Quindi apriamo il nostro programma per analisi dello spettro e apriamo un brano che di cui vogliamo analizzare lo spettro.

Analisi dello spettro di un file mp3 a 320kbps con Spek
Analisi dello spettro di un file mp3 a 320kbps con Spek

La linea rossa che ho disegnato è la massima frequenza udibile dall'orecchio umano, 20.000Hz. Vedete che da circa 16.000Hz a 20.000Hz il file non riproduce nulla? Questo significa che nonostante la qualità sia il massimo per un mp3, come potete vedere nella foto, alcune frequenze subiscono un 'taglio', quelle più alte. Non troverete mai un file senza le frequenze basse, sono solo quelle alte a determinare la qualità! Ecco lo stesso file con Adobe Audition:

Analisi di un file mp3 a 320kbps con Adobe Audition
Analisi di un file mp3 a 320kbps con Adobe Audition

Passiamo ora a un formato Lossless, quelli di cui parlavo prima, nello specifico un Apple Lossless con estensione .m4a

Analisi dello spettro delle frequenze di un brano .m4a codificato in Apple Lossless
Analisi dello spettro delle frequenze di un brano .m4a codificato in Apple Lossless con Adobe Audition
lnnk
Analisi dello spettro delle frequenze di un brano .m4a codificato in Apple Lossless con Adobe Audition

La differenza è palese! Il brano lossless ha tutte le frequenze che possiamo ascoltare è normale, la qualità è massima ma questo file occupa ben 30mb!

Quale compressione scegliere?

Quindi ora è chiaro, dobbiamo cercare un algoritmo di compressione che ci permette di mantenere più frequenze ma con una dimensione ridotta, se ogni brano occupasse 30mb i nostri dispositivi sarebbero pieni immediatamente!

Avendo analizzato numerosi brani con estensione diversa e cercando un po' in rete, sono giunto alla conclusione che il miglior algoritmo di codifica è senza dubbio la compressione AAC con bitrate variabile a estensione .m4a, il miglior algoritmo che consente di mantenere gran parte delle frequenze più alte in dimensioni molto ridotte. Guardiamo insieme gli spettri provando a convertire il brano precedente in Apple Lossless (di 4 minuti e 23 secondi) prima in mp3 a 320kbps a bitrate fisso, poi sempre mp3 a 320kbps in bitrate variabile (massima qualità) e infine in AAC con bitrate variabile (massima qualità), confrontando anche le dimensioni di file e il rapporto massima frequenza dopo il taglio/dimensione. Il programma utilizzato per la conversione è Total Audio MP3 Converter .

 MP3 bitrate fisso

spek(MP3-CBR).mp3

MP3 bitrate varibile (massima qualità)

spek(MP3-VBR).mp3

AAC bitrate variabile (massima qualità)

spek(M4A-VBR)

Riepilogo

Confrontiamo in una tabella i vari dati

Codec Sample Rate Lunghezza Bitrate Dimensione Frq. max Frq. max/dimensione
Apple Lossless 44100 Hz 4:23 980kbps 30,7MB 22kHz 0,73
MP3 bitrate fisso 44100 Hz 4:23 320kbps 10MB 20kHz 2,00
MP3 bitrate variabile 44100 Hz 4:23 256kbps 8,43MB 19kHz 2,25
AAC bitrate variabile 44100 Hz 4:23 313kbps 9,91MB 22kHz 2,21

Come possiamo vedere dalla tabella l'MP3 a bitrate variabile vince riguardo al rapporto frequenza massima dopo il taglio su dimensione, tuttavia la differenza è veramente infinitesimale con l'AAC che è in realtà il vero vincitore. Ma passiamo in rassegna tutti i file.

Il lossless ovviamente ha una dimensione spropositata e non è confrontabile, l'MP3 fisso ha una buona qualità, infatti rende fino a 20kHz ma occupa 10MB. L'MP3 variabile invece effettua un taglio dai 19kHz in su ma vince con 8,43MB: il taglio non dovrebbe essere forse neanche percepibile ma comunque è sotto i 20kHz. L'AAC occupa qualcosa di più rispetto all'MP3 variabile ma consente di preservare tutte le frequenze come il lossless fino a 22kHZ! Ecco dimostrato perché lo preferisco. Comunque possiamo stilare una classifica ordinando in base al rapporto frequenza/dimensione :

  1. MP3 - VBR (Massima qualità)
  2. AAC - VBR (Massima qualità)
  3. MP3 - CBR

Quindi il mio consiglio è di rippare i cd in lossless poi effettuare una conversione in AAC a bitrate variabile scegliendo la massima qualità!

Il sample rate (frequenza di campionamento)

Finora non abbiamo parlato di sample rate, ovvero della frequenza di campionamento, perché sostanzialmente essa è fissa di 44100Hz per i rip da CD. Comunque quando registriamo per esempio la nostra voce per un memo, se la registrazione è fatta a 44100Hz significa che ogni secondo l'audio in entrata viene trasformato in bit a 44100 'fotogrammi' al secondo, come se ogni secondo fosse diviso in 44100 parti e ogni pezzettino di audio di ogni parte viene convertito in bit. Le varie frequenze comuni sono 44100Hz (qualità CD), 48000Hz (qualità più alta), 96000Hz, qui trovate una tabella con tutte le varie frequenze esistenti. Maggiore ovviamente è il sample rate, maggiore sarà la qualità sonora.

  • Cosmo

    Ciao, quindi (lasciando perdere la dimensione)per quanto riguarda la qualità non c'è molta differenza tra un mp3 cbr 320 e un flac? C'è da rompersi la testa su questo argomento 🙂 ma esiste anche la possibilità di vedere se è un vero 320 o se (per fare un esempio) è un 192 convertito a 320?

    • Ciao Cosmo, in realtà la differenza tra un mp3 e un flac è abissale (in termini tecnici) perché l'mp3 è un formato molto compresso, ti basta vedere nella tabella del riepilogo: l'mp3 cbr anche a 320kbps taglia tutte le frequenze oltre i 19khz (è vero che sono totalemente inudibili ma comunque vengono perse). Il flac, e tutta la famiglia di formati lossless, invece non taglia queste frequenze mantenendo l'intero spettro dei 22khz (in pratica esiste un teorema per cui se tu effettui un campionamento a 44100Hz puoi catturare al massimo uno spettro sonoro che raggiunge 44100/2 Hz ovvero 22khz per l'appunto https://it.wikipedia.org/wiki/Teorema_del_campionamento_di_Nyquist-Shannon ). Per quanto riguarda la percezione umana invece non c'è alcuna differenza, comunque le frequenze oltre i 18000Hz circa non vengono percepiti, è solo gusto personale avere i brani in lossless e forse pura audiofilìa 🙂 A meno che tu sia in studio per la registrazione, teoricamente non avrebbe senso ascoltare brani in lossless.

      Per la seconda domanda: non è sempre facile riconoscerlo. Innanzitutto devi analizzare lo spettro utilizzando per esempio Spek oppure Adobe Audition. Più il bitrate dell'mp3 è basso e più vedrai frequenze tagliate. Per esempio un mp3 a 128Kbps taglia quasi tutte le frequenze sopra i 15000Hz - 16000Hz quindi se analizzando lo spettro trovi "vuoto" in quel range anche se il file presenta 320kbps sei di fronte a un fake eclatante. Dai 192Kbps in su diventa difficile: per esempio un 192kbps taglia tutte le frequenze sopra i 18000Hz quasi, molto vicino ai 19000Hz del 320kbps. Minore è il bitrate e minore è la dimensione del singolo campione che viene catturato 44100 volte in un secondo. Se questo campione porta meno informazione vuol dire che stai approssimando l'onda sonora originale perdendo in intervallo dinamico sopratutto e di conseguenza fedeltà sonora (per questo motivo le frequenze più alte appaiono "tagliate", esse comunque esistono ma hanno molta meno dinamica delle altre cioè sono più basse in termini di potenza decibel perché la frequenza di campionamento di 44100 consente comunque di raggiungere i 22khz). https://helpx.adobe.com/it/audition/using/digitizing-audio.html

      Ti ringrazio per aver visitato il blog e per questo spunto di riflessione, prima o poi aggiornerò l'articolo 😉 Spero di aver risposto esaurientemente alle tue domande 😉

      • Cosmo

        Grazie mille! Sei stato molto chiaro e gentile!