Com o advento dos serviços de streaming, as disputas sobre formatos de áudio tornaram-se muitos geeks. Conheça os formatos de áudio mais utilizados, e descubra qual a melhor opção para ouvir músicas.
Noções básicas digitais de áudio
Para não se confundir na terminologia, a conversa sobre formatos de áudio deve começar com o básico do som digital. Como o áudio se transforma em zeros e uns
Por exemplo, um músico conecta uma guitarra elétrica a uma placa de som. Possui um módulo ADC , um conversor analógico-digital que converte um sinal em números usando o método de codificação de pulso. A ADC mede a amplitude do sinal milhares de vezes por segundo e registra cada alteração, obtendo uma cópia do sinal analógico.
Esse processo é chamado de discretização, do latim discretus – intermitente, em oposição a uma onda analógica contínua. Em que frequência devo realizar amostragem para obter a cópia mais precisa sem perda significativa?
Taxa de amostragem
De acordo com o teorema de Kotelnikov, a fixação das mudanças deve ocorrer pelo menos 2 vezes mais vezes do que a maior frequência audível no espectro de sinais. O limiar de audibilidade para uma pessoa é de aproximadamente 20 kHz. Assim, se você registrar alterações na amplitude pelo menos 40 mil vezes por segundo, você terá um sinal discreto que é indistinguível do analógico. Portanto, as taxas típicas de amostra em qualquer placa de som são as seguintes:
- 44,1 kHz é o padrão de CD de áudio e geralmente a taxa de amostra padrão na qual a maioria das gravações são criadas. Por que não 40, mas 44.1? Historicamente, este tem sido o caso. CDs apareceram no início dos anos 80, quando o principal portador de informações digitais ainda era filme magnético, e era vídeo film. Ele poderia gravar 60 quadros por segundo, cada quadro contendo 245 linhas com três seleções para as três cores primárias. Acontece que 245x3x60 = 44100 amostras. Para garantir a compatibilidade entre os dois formatos, esta é a taxa de amostra escolhida para o CD de áudio.
- 48 kHz é um padrão de estúdio de gravação que veio do cinema. O filme tem 24 quadros por segundo, então 48 kHz garante a sincronização de áudio e vídeo. Do cinema, o padrão chegou aos estúdios de gravação, onde hoje é frequentemente usado como um valor padrão.
- 88,2, 96, 192 kHz são os padrões anteriores, duplicados. Muitos artistas e produtores querem gravar código-fonte em máxima qualidade, por exemplo, para publicar músicas em SACD e outros formatos avançados.
Profundidade de bits
Profundidade de bits, ou profundidade, é quantos bits são usados para codificar cada segmento do sinal. Se a taxa de amostra é com que frequência um registro de ADC muda em amplitude, então a profundidade de bit é a precisão de cada alteração.
Por exemplo, com um pouco de profundidade de 1 bit, há apenas duas opções: 1 (sinal no volume máximo) e 0 (silêncio). Com um pouco de profundidade de 8 bits, já é possível ter 256 valores (2 a 8ª potência) do volume de ondas, com 16 bits (padrão CD) – 65.536 valores, etc. Não adianta subir acima de 32 bits, então há um aumento no tamanho do arquivo sem uma diferença perceptível na qualidade.
Bitrate
O bitrate mostra quanta informação foi preciso para codificar um segundo de som. Depende dos dois parâmetros anteriores e é calculado pela fórmula:
Bitrate = Taxa de Amostra x Profundidade de bit x Número de canais
Por exemplo, o bitrate de música em um CD de áudio: 44,1 kHz × 16 bits × 2 = 1.411,2 kbit/s
O bitrate de áudio comprimido é muito menor. Por exemplo, o mp3 máximo é de 320 kbit\s. Este é o significado de compressão de áudio – para obter um tamanho menor devido à perda de parte das informações do sinal original. Que tipo de informação isso será discutido abaixo, mas primeiro precisamos falar sobre formatos de som não comprimidos.
Formatos de áudio não comprimidos
Formatos não comprimidos oferecem a melhor qualidade de som possível, que às vezes está além das capacidades de outros formatos. O preço para isso será um grande volume de arquivos, de modo que uma coleção de música nessa capacidade geralmente é armazenada em discos licenciados, ouvida em equipamentos caros e é uma fonte de orgulho para os audiófilos e amantes da música.
- wave. Em um CD de áudio, a música é gravada em formato wav com uma taxa de amostra de 44,1 kHz \ 16 bits. Wave é um dos formatos de áudio digital mais antigos, criado pela Microsoft em conjunto com a IBM em 1991 e ainda é amplamente utilizado hoje. O som analógico original nele é digitalizado sem alterações. A maioria dos materiais de origem musical – partes de instrumentos, vocais, faixas mestras – são armazenados em arquivos com a extensão .wav. Um minuto de faixa de áudio neste formato sempre ocupará o mesmo volume no disco dependendo da taxa de amostra e bitness, mas independentemente de haver música ou não. Ou seja, um minuto de silêncio pesará até um minuto de death metal.
- Aiff (Audio Interchange File Format) é irmão da wave da Apple. Vale ressaltar que ambos os formatos não são específicos para cada uma das plataformas, por isso funcionam perfeitamente em PCs e Macs.
- O PCM linear é um formato de áudio para DVD – Áudio, suporta qualidade de até 192 kHz\24 bits. Isso expande a faixa dinâmica de 96 para 144 dB, e a faixa de frequência para 96 kHz. Normalmente, o áudio é gravado descompactado, mas se o álbum não se encaixa na mídia, então ele pode ser comprimido sem perda de qualidade usando o algoritmo meridian lossless Packing em qualidade de até 192 kHz \ 24 bits para estéreo e até 96 kHz \ 24 bits para áudio multicanal.
- DSD é um formato de áudio Super Audio CD com uma taxa de amostra de 2822,4 kHz, enquanto a resolução é de 1 DSD, ou seja, aproximadamente, 1 bit. A questão é que a taxa de amostragem excessiva reduz o ruído de quantização e aumenta a relação sinal-ruído. Este formato tem uma faixa dinâmica de até 120 dB, e uma faixa de frequência de até 50 kHz. Ele também sabe como trabalhar com som multicanal 5.1.
O vinil também se enquadra nessa categoria – um formato único que tem sido popular há mais de um século. Em um registro, o som é na forma de uma faixa de áudio analógica, não em zeros e uns. A falta de digitalização e o método mecânico de reprodução fazem dele um prato especial para os audiófilos e amantes da música.
Formatos com compressão e perda de qualidade
Compressão lossy é compressão com perda de qualidade. Ao converter o arquivo de áudio original, algumas informações são perdidas. Depois de uma espécie de “limpeza”, o sinal é comprimido e ocupa muito menos espaço no disco do que o arquivo original, mas também soa pior. Cada formato tem seus próprios algoritmos de compressão, mas, em geral, cada um deles remove:
- Pedaços do espectro de frequência das bordas são frequências ultra-baixas e ultra-altas. Quanto mais forte a compressão, menos graves e agudos haverá no som. Isso é especialmente perceptível ao comparar a faixa original com um MP3 altamente comprimido – o áudio do MP3 soará mais selvagem. Assim, a faixa de frequência do som é estreitada.
- Harmônicos silenciosos seguindo harmônicos altos. Por exemplo, se houver uma nota de guitarra tranquila depois de bater no barril, ela será cortada parcial ou completamente, já que o ouvinte provavelmente ainda não vai conseguir ouvir nitidamente devido ao efeito da camuflagem sonora – sons altos abafam os silenciosos. Isso reduz o alcance dinâmico do áudio.
- Elementos repetitivos podem ficar juntos, perto uns dos outros picos de ondas podem ser mediados, e assim por diante.
Os formatos mais populares de áudios compactados com perda de qualidade são:
- MP3 é o rei de todos os formatos lossy, desenvolvido em 1994 pelo Instituto Fraunhofer. O princípio da operação é semelhante à compressão de imagens em jpeg. O som é cortado em pedaços (quadros), então o algoritmo remove desses quadros tudo o que não pode ser ouvido em equipamentos domésticos. Tendo limpado completamente o áudio, os algoritmos então a comprimem de modo que ela ocupe um volume menor – até 1/10 do original. Mp3 pode codificar em 32-320 kbit\s com taxas de amostra de até 48 kHz, há também uma função de bitrate variável (VBR) – quando partes menos saturadas da pista são codificadas com uma taxa de bits mais baixa, economizando espaço. A capacidade de codificar áudio multicanal está ausente, então esse formato não se enraizou no cinema.
- A AAC é uma alternativa ao mp3 desenvolvido por todo o mundo, incluindo Sony, Nokia, Dolby Laboratories, o Instituto Fraunhofer e um monte de outras organizações. Oferece maior qualidade em relação ao mp3 com um tamanho de arquivo menor devido a algoritmos de compressão mais avançados. Produz arquivos de áudio com taxas de amostra de até 96 kHz (duas vezes mais que mp3), é capaz de codificar som multicanal 5.1, funciona muito melhor do que o principal concorrente com frequências acima de 16 kHz. Como resultado, o som em AAC com um bitrate de 128 kbit/s soa melhor que o mp3 em velocidade máxima. O formato é usado ativamente na tecnologia Apple, popular em serviços de streaming (incluindo YouTube) e em eletrodomésticos. Os arquivos geralmente têm a extensão .aac, mas também podem ser arquivados em extensões .mp4 ou .3gp.
- WMA – O cérebro da Microsoft foi apontado como um formato de perda final, e oferece maior qualidade de som em comparação com mp3: sem recorte, compressão mais eficiente e tamanhos de arquivos menores. Dos negativos – afiação para o Windows Media Player, muitos dispositivos simplesmente não o lêem (por exemplo, equipamentos da Apple).
- OGG VORBIS é um formato de código aberto com muitas vantagens. A taxa de amostra é variável – de 2 a 192 kHz com um pouco de profundidade de até 32 bits. Por padrão, um bitrate variável é usado, enquanto os valores extremos não são limitados e podem variar de 1 a 1000 kbit\s. O esquema de trabalho é semelhante ao mp3, mas outro modelo matemático proporciona melhor compressão e garante alta precisão da localização das amostras sem deslocamentos e áreas perdidas. Se você pegar .mp3 e .ogg arquivos com a mesma taxa de bits, o segundo não só soará melhor, mas também ocupará menos espaço em disco. O formato não recebeu popularidade como MP3, mas é frequentemente usado por estúdios de jogos para armazenar arquivos de áudio para o jogo. Você pode reconhecer pela extensão .ogg ou .oga.
Os formatos de compressão ganharam popularidade devido à Internet, pois permitem que você ouça faixas online mesmo com uma baixa velocidade de conexão. Devido ao seu pequeno tamanho, eles abriram a possibilidade de armazenar discografias inteiras em um disco rígido ou servidor de mídia. O preço será uma perda de qualidade, mas não é sentido em alto-falantes domésticos e torna-se perceptível apenas para o ouvido treinado quando comparado de frente com outros formatos na acústica do estúdio.
Formatos de compressão sem perdas
A compressão sem perdas é realizada sem perda de qualidade. Como resultado, são obtidos arquivos que contêm toda a quantidade de informações das fontes, mas assumem menos espaço na mídia. Parece mágica? É muito simples – esses formatos encontram maneiras mais eficientes de armazenar dados redundantes. Por exemplo, uma sequência de bit do tipo ABCDABCDABCD será escrita como (ABCD)*3, o que reduz significativamente o tamanho do arquivo. Os arquivadores funcionam de forma semelhante, mas formatos sem perdas são aguçados para áudio, então eles fazem seu trabalho melhor do que o Winrar usual.
Abaixo os formatos sem perdas mais conhecidos:
- FLAC — formato sem perdas gratuito dos desenvolvedores do OGG VORBIS, apareceu no início dos anos 2000. Durante a compactação, ele corta a trilha em pedaços de vários kilobytes, para cada uma das peças o método de compactação ideal é selecionado individualmente. A partir de uma faixa estéreo, faz uma faixa mono média e uma faixa separada com uma diferença entre os canais esquerdo e direito – desta forma é mais fácil comprimir os dados de áudio. Assim, é possível reduzir o tamanho do arquivo original de 1,5 a 3,5 vezes. A taxa de bits para uma faixa de CD padrão varia de 400 a 1200 kbps, que é aproximadamente igual a 20-50 MB para cinco minutos de música. A qualidade do som é idêntica ao original. A taxa de amostragem máxima é de 192 kHz com resolução de até 24 bits, neste caso a taxa de bits será de 36.864 kbps.
- ALAC é o formato de compactação de áudio sem perdas da Apple. Cria arquivos com taxas de amostra de até 384 kHz e profundidades de bits de até 32 bits. O formato é aguçado para a técnica “Apple” e funciona nele melhor do que outros formatos sem perdas, uma vez que é decodificado usando o DSP embutido, enquanto FLAC e seu iPod carregarão a CPU. Em 2011, a Apple abriu o código-fonte do ALAC, e agora é suportada pela tecnologia de uma variedade de fabricantes. Os arquivos deste formato são aguçados em um recipiente MP4 e têm a extensão .m4a.
- WMA é uma versão sem perdas do formato da Microsoft com uma taxa de amostra de até 96 kHz e um pouco de profundidade de até 24 bits. No entanto, esses algoritmos de compressão não são muito eficientes, o que levam tomar mais espaço do que outros formatos sem perdas. Olhando o lado positivo, ele pode codificar o som surround.
- WavPack, OptimFROG – ambos têm um modo híbrido para criar dois arquivos a partir de uma faixa de áudio. O primeiro arquivo terá música compactada com perdas, e o segundo é um arquivo de correção, que, quando adicionado ao primeiro, dá um som sem perdas. Assim, os formatos absorveram o melhor dos dois mundos, embora ainda não tenham ganhado grande popularidade.
Conclusão
É possível sentir a diferença entre wav\flac e mp3 com bitrate alto? A diferença é muito grande? Isso vai depender da composição, equipamento e audição. Veja os dois áudio abaixo e tente detectar a diferença.
WAV x MP3
É claro esse é só um exemplo, mas se em metade dos casos você consegue distinguir áudio não comprimido – então você deve se preocupar com uma coleção de música em flac ou outro formato sem perdas. Caso contrário, você pode continuar a usar qualquer um dos serviços de streaming.