¿Qué es la calidad de audio y cómo lograrla en tus contenidos?

Qué aprenderás en este post

Índice

Formatos, extensiones y códecs: ¿qué significan? Tasa de compresión: ¿cuál es la relación con la calidad del audio? Resolución de amplitud: ¿16 bits o 24 bits? Tasa de muestreo: ¿qué nos dice ese valor? Aplicando ese conocimiento en el día a día: ¿qué debes considerar? ¿Cómo garantizar la calidad del audio?

Las configuraciones de audio para grabadores o interfaces pueden ser complejas, pero si vas a trabajar con videos, podcasts o audiolibros y quieres tener una buena calidad de audio, debes conocer los parámetros al grabar y exportar archivos, ya sea en Audacity (gratuito), Reaper, Adobe Audition, o en editores de video.

Por eso, en este post, te vamos a hablar sobre las diferencias entre las tasas de muestreo (sample rate), resolución (bit depth), compresión de archivo y variaciones de formatos. Así, sabrás cuáles son las opcionesa tu disposición y podrás garantizar buenos resultados.

Te explicaremos por qué recomendamos grabar en formato no comprimido (WAV, por ejemplo) en 24 bits y 48 kHz, y el motivo por el cual, en la mayoría de los casos, no necesitamos más que un MP3 de 192 kbps para exportar audios de buena calidad.

Abordaremos también la posibilidad de una mayor compresión en archivos de podcasts, que pueden ser generados en MP3 de 64 kbps, mono, facilitando su consumo online.

Formatos, extensiones y códecs: ¿qué significan?

De manera simple, el formato es el tipo de archivo, identificado por su extensión (*.mp3, *.wav, *.ogg, *.wma, etc.), que muchas veces indica cómo ha sido codificado o cuál es su códec.

Como ejemplo, un archivo en formato MP3 posee la extensión *.mp3 y códec MPEG-1 Audio Layer III.

Normalmente, estas terminaciones se mezclan, pero lo que importa es saber que, así como en los videos, los archivos con el mismo tipo de extensión no siempre poseen el mismo códec, y viceversa.

Por eso, puede ocurrir que un software que reproduce tus archivos se rehuse a reproducir otro de la misma extensión, lo que puede indicar que se utilizaron códecs diferentes. Si te pasa esto, la solución es usar otro software para leer el archivo o hacer una conversión (nueva codificación), que puede ser realizada incluso en editores de video.

Estas variaciones de formatos y códecs dependen de las opciones de las empresas que desarrollan los softwares para ejecutar archivos.

Los archivos suelen dividirse en dos tipos: sin compresión o comprimidos.

1. Archivos sin compresión

Algunos equipos de grabación de audio permiten grabar archivos sin perder nada de su información. Estos archivos, no comprimidos, pueden ser generados en diversos formatos y extensiones, como WAV, AIFF, FLAC y ALAC. Para quien conoce un poco sobre fotografía, son equivalentes al RAW o DNG.

Al ser muy pesados, solo se recomienda usar estos formatos sin pérdidas (lossless) en algunos casos, como:

Cuando el consumidor puede procesar el producto final (archivos destinados a bancos sonoros, por ejemplo);
Cuando ocurre la grabación en medio físico (CD, DVD y Blue-Ray);
Para el mercado de audiófilos (por una cuestión de valor percibido y garantía de alta calidad).

Sin embargo, aunque no quieras finalizar el proceso con un WAV (uno de los más comunes), los formatos lossless pueden ser muy útiles en la etapa de edición. Por contener mucha información, soportan modificaciones más extremas sin disminuir la calidad del sonido.

De esta forma, por medio de plugins, conversiones y procesamientos, es posible manipularlos más libremente, garantizando una calidad alta, aunque se genere un archivo comprimido posteriormente.

2. Archivos comprimidos

La mayor parte de los equipos disponibles en el mercado (cámaras, smartphones y hasta grabadores de audio) suele entregar archivos ya comprimidos, que son más prácticos, fáciles de procesar y requieren menos espacio de almacenamiento, con tamaños muy reducidos (en bytes).

Algunos ejemplos de estos formatos son: 3GP, AAC, M4A, OGG, WMA y MP3, que es sin lugar a duda, el más conocido. Esos archivos son como el JPEG o GIF en el campo de las imágenes.

Se generan por medio de un algoritmo complejo, buscando mantener apenas las informaciones de sonido más relevantes. Dependiendo del modo de compresión, podemos generar un MP3 a partir de un WAV y tener un archivo 10 veces más pequeño, sin modificaciones perceptibles en el sonido.

A pesar de ser muy popular, el formato MP3 ya es considerado obsoleto, pues existen otros como el ACC (extensión .acc o .m4a) que posibilitan archivos aún más pequeños y con mejor calidad.

Aun así, el MP3 sigue siendo ampliamente utilizado, pues gran parte de los softwares y equipos fueron desarrollados pensando en él. Por eso, lo utilizaremos como ejemplo al hablar de tasas de compresión.

Tasa de compresión: ¿cuál es la relación con la calidad del audio?

Ahora que ya hemos dicho que un archivo puede ser comprimido y aún así mantener una mejor calidad de audio, debes saber que ese nivel de compresión puede variar mucho.

Por el valor de la tasa de compresión (o bitrate) logramos controlar el tamaño del archivo y, por lo tanto, la calidad del sonido.

Por ejemplo, un MP3 de 320 kbps (kilobits por segundo) puede sonar tan bien como el audio no comprimido de un CD o DVD. A medida que disminuye el valor de bitrate, el tamaño del archivo disminuye, pero las pérdidas sonoras pasan a percibirse, dependiendo del audio en cuestión.

Aquí hay algunas referencias para tener una noción de cómo esa tasa afecta la calidad de audio:

320 kbps – audio que no se diferencia de la calidad de un CD;
192 kbps – sin pérdidas significativas para la mayoría de las personas;
128 kbps – pérdidas ligeramente perceptibles;
96 kbps – calidad similar a la radio FM;
32 kbps – similar a la radio AM;
16 kbps – similar a la radio de ondas cortas (“walkie-talkie”).

Te recordamos que estos valores y descripciones son apenas una aproximación, pues la compresión del archivo actúa de manera diferente en cada tipo de audio. Cuanta más información perceptible (o cuanto más complejo sea el audio en cuestión), más margen habrá para que la compresión afecte la calidad.

Por eso, para un podcast sin banda sonora, puede no ser un problema generar un archivo de apenas 64 kbps, mono, con una única señal de audio, reproduciéndose simultáneamente en los canales de la izquierda (L) y de la derecha (R).

Sin embargo, una música producida en estudio, con varios instrumentos diferentes, puede sufrir pérdidas perceptibles, aun cuando el archivo comprimido sea de 128 kbps, estéreo, con una señal diferente para cada altoparlante, derecho e izquierdo.

Aquí estamos hablando de tasas de compresión fijas (CBR – constant bitrate), pero existe también la posibilidad de generar archivos con tasas variables, como las llamadas VBR (variable bitrate) o ABR (average bitrate).

En la VBR, el algoritmo analiza el audio y decide en qué partes puede comprimir de manera más agresiva y en cuáles debe retirar menos información. El ABR actúa de modo similar, pero se mantiene en el promedio de la tasa estipulada previamente. Esos dos métodos, a pesar de ser más inteligentes, pueden generar incompatibilidad con algunos reproductores de audio.

Cuando hablamos sobre compresión vs calidad, recuerda que no hay reglas: cada caso es un caso y es preciso evaluarlos individualmente para saber hasta qué punto las pérdidas son aceptables, o cuándo vale la pena priorizar la facilidad del uso (descarga más rápida o menor impacto de almacenamiento, por ejemplo) antes que la calidad.

Recuerda que algunos sitios web y servicios recodifican el audio después de cargarlos. Como no tenemos control sobre este proceso, puede ser una buena idea enviar archivos con calidad un poco mayor que lo necesario, para que haya un margen de seguridad en el caso de nuevas conversiones.

Resolución de amplitud: ¿16 bits o 24 bits?

Si vas a utilizar una interfaz/placa de sonido o un grabador dedicado, vas a depararte con opciones de valores de bit depth. Esto está relacionado al estándar de audio digital PCM y no se aplica a los archivos comprimidos.

Los valores se refieren a la relación señal-ruido. En otras palabras, tiene que ver con la dinámica, o los niveles de volumen que el archivo consigue registrar con calidad.

Es como si fuera una resolución de amplitud del sonido. Así, en teoría, un audio en 16 bits consigue representar 65.536 niveles de volumen entre el valor más bajo y el más alto de la escala. Mientras que en 24 bits, hay 16.7 millones de gradaciones.

Imagen que muestra la diferencia entre las ondas de frecuencia de 16 y 24 bits

A pesar de la gran diferencia numérica, en la práctica no se trata de una variación perceptible a nuestros oídos. Pero existe una diferencia técnica que puede, en algunos casos, dar una ventaja al archivo de 24 bits en el momento de la captación y edición.

Sabemos que debemos tener cuidado con el nivel de entrada al grabar, para que el audio no “estalle” (generando clipping). Eso es lo que ocurre cuando dejamos el medidor gráfico subir mucho, llegando a pasar de 0 dB (valor máximo antes de que ocurra la saturación/ distorsión digital). Por eso, se debe respetar un cierto margen de seguridad, llamado “headroom”.

En 16 bits, además de cuidado, se recomienda también prestar atención para que el nivel de entrada no sea muy bajo.

El motivo es que como no hay resolución suficiente para registrar con exactitud señales extremadamente débiles, esos sonidos pueden sonar distorsionados digitalmente o con ruidos, a través de un proceso llamado dithering, que busca esconder esas fallas de cuantización.

De esta forma, como el archivo en 16 bits registra menos gradaciones de volumen (48 dB menos con relación al de 24 bits), teóricamente se corre el riesgo de que, al subir el volumen en el software, haya más pitidos. En 24 bits, técnicamente ya no existe ese riesgo.

A pesar de todo, seguramente habrá una cantidad de ruidos (noise floor) provenientes de diversas fuentes, como: cables, red eléctrica, preamplificadores, micrófonos, componentes de baja calidad, ruidos del propio ambiente (“ruido de sala”) y hasta derivados del funcionamiento natural del equipo utilizado (algunos fabricantes especifican el valor en el manual).

Así, en la práctica, valores de bit depth probablemente no tendrán influencia en tu grabación. Entonces, si tu equipo apenas soporta 16 bits, no te preocupes, pues al final es el mismo valor de bit depth de un CD de audio.

Sin embargo, como un archivo de 24 bits no resulta más pesado que uno en 16 bits, vale la pena grabar en esta resolución más alta, siempre que sea posible. Además de garantizar un margen de seguridad mayor al procesar el archivo digitalmente, 24 bits es el estándar del DVD y Blue-Ray. De esta forma, evitas conversiones innecesarias, en el caso de que el audio final se destine a uno de esos medios de comunicación físicos.

Actualmente, ya existen hasta equipos que trabajan en 32 bits, pero, como vimos, difícilmente podrás beneficiarte de algo así, pues se trata de una opción para casos específicos.

Tasa de muestreo: ¿qué nos dice ese valor?

Otros valores que vas a encontrar son relativos a la tasa de muestreo (o sample rate). Esos números dependen de la cantidad de veces que se registra el sonido analógico por segundo, para ser reconstruido digitalmente (44.1 kHz es igual a 44.100 muestras por segundo). Es como si fuera la cantidad de cuadros (frames) por segundos en un video, necesarios para crear la ilusión de movimiento.

Esos valores también se refieren a la frecuencia máxima (sonido más agudo) posible de reproducirse en el archivo.

Recordemos que cuanto más grave un sonido (baja altura tonal), más baja es su frecuencia (medida en Hertz). Cuanto más agudo (tono más alto), mayor el valor numérico en Hz.

Imagen sobre la diferencia entre sonidos graves y agudos en la calidad de audio.

En general, la frecuencia más baja que logramos oír, el sonido más grave, es alrededor de 20 Hz (o 20 oscilaciones de onda por segundo) y la más alta, el sonido más agudo, en torno a 20 kHz (o 20 000 oscilaciones por segundo).

Por cuestiones técnicas (teorema de Nyquist), el promedio digital debe comportar el doble de la capacidad de frecuencia que va a reproducir.

Esto significa que con ese valor se tienen datos suficientes (por segundo) para representar frecuencias de hasta 22 kHz, aproximadamente. En teoría, es más de lo necesario para reproducir cualquier sonido audible, pues mucha gente no consigue percibir frecuencias tan agudas, principalmente con el avance de la edad, buena parte de los adultos no oye frecuencias superiores a 17 kHz o 16 kHz.

A pesar de esto, algunos equipos permiten grabaciones en hasta 96 kHz o más. El único motivo para trabajar con valores tan elevados de sample rate, es tener datos para manipular archivos digitalmente (algo similar a lo que vimos sobre trabajar con WAV con relación al MP3).

Pero, como esto implica más espacio de almacenamiento y una mayor exigencia de procesamiento, no es tan recomendable. Para el video online o podcast, las ventajas probablemente serán insignificantes. Además, en algunos casos, valores muy elevados de sample rate pueden generar distorsiones armónicas indeseables.

Por eso, recomendamos utilizar 48 kHz, especialmente para trabajar con video. Por tratarse de un valor estándar de mercado, tendrás menos riesgos de incompatibilidades o errores de lectura.

Algunos de los posibles errores de compatibilidad tienen relación con la duración del audio y la altura tonal (pitch) reproducida. Por ejemplo, un archivo de 44.1 kHz puede sonar más rápido y “agudo” en un proyecto configurado para 48 kHz. Mientras uno 48 kHz, leído como 44.1 kHz, sonará más lento y con los timbres más “graves”.

Imagen que muestra la diferencia entre el sonido de 48kHz y el de 44;1 kHz

Por suerte, la mayor parte de los softwares actuales consigue identificar esas diferencias de tasas de muestreo y ya interpretan automáticamente el archivo de manera correcta, realizando una conversión instantánea (generalmente seguida de un aviso) cuando el valor no concuerda con lo definido en el software.

En algunos casos, para quien trabaja exclusivamente con audio (principalmente música), puede ser una buena idea mantenerse en 44.1 kHz, pues a pesar de que el CD no se usa casi, todavía es el principal medio físico para consumo musical.

En realidad, difícilmente tendrás problemas convirtiendo de un estándar a otro. Como dijimos, actualmente las plataformas y softwares leen e interpretan muy bien ambos valores de las tasas de muestreo.

Esas recomendaciones son solo para evitar posibles y raros problemas, que pueden generar pequeños errores (artefactos digitales) derivados de las fallas de las conversiones.

Aplicando ese conocimiento en el día a día: ¿qué debes considerar?

Hablar sobre configuraciones de audio, preferencias y recomendaciones demanda algunas observaciones. Como el modo de consumo varía mucho, así como la capacidad de audición de las personas, lo que puede ser una excelente calidad para algunos, puede no ser para otros.

Además, en una cadena de audio existe una infinidad de elementos que pueden modificar el sonido de manera más significativa que los tópicos mencionados aquí.

Para un aficionado de audio, que utiliza equipos de alta fidelidad, las diferencias de parámetros (como las tasas de compresión) pueden ser más perceptibles, dependiendo de los sonidos en cuestión.

Existe además, una teoría de que algunos sonidos muy graves, a pesar de no ser audibles, por ejemplo, infrasonidos entre 4 y 16 Hz pueden ser percibidos de manera táctil.

Algunos estudios (que son controvertidos) plantean que frecuencias ultrasónicas (superiores a 20 kHz), pueden ser percibidas por nuestro organismo, pero no necesariamente a través del sistema auditivo.

Por último, nuestra audición no es tan desarrollada como nuestra visión. Por eso, es más difícil hacer evaluaciones de audio, por lo que es común el “efecto placebo” al analizarse la calidad.

Por la misma razón, el mercado de electrónicos puede, en algunos casos, aprovecharse de la evolución técnica de los equipos (mayores valores de bit depth, sample rate, respuesta de frecuencias) para vender productos que, en la práctica, pueden no presentar diferencia alguna para el usuario.

¿Cómo garantizar la calidad de audio?

Ahora que ya conoces algunas tasas importantes para garantizar la calidad del audio y mucho contenido técnico, vamos a darte algunos consejos para poner en práctica a la hora de producir tu contenido digital.

Más allá de si sabes un poco o mucho sobre cómo grabar y comprimir audio, seguramente no tienes dudas de que entregar un video, un podcast o cualquier producto sonoro con calidad es lo más importante para el público.

¿Quién nunca ha dejado de reproducir un video porque la calidad de audio en YouTube era pésima? Y obviamente no quieres que pase esto con lo que creas. Así que, recuerda estos puntos esenciales:

Graba con micrófonos profesionales;
Busca el ambiente más adecuado para captar sonido y ten en cuenta las cuestiones técnicas de las que hablamos antes;
Independientemente de tus recursos, usa el mejor editor de audio que tengas a tu disposición;
Aprende a usar efectos sonoros con creatividad y calidad.

Además, considera usar programas y aplicaciones que ayuden a garantizar una mejor calidad de audio.

Mejores programas para la calidad de audio

Rev

Una grabadora de voz en línea que cuenta con un diseño simplificado y eficaz, además de gratuito, que permite grabar voz y descargar los archivos en formato MP3 sin ningún tipo de costo.

Una de sus mejores funcionalidades es que cuenta con encriptación, lo que significa que solo el dueño del contenido tendrá acceso a estos materiales ya que no se carga en los servidores de Rev.

Easy Voice Recorder Pro

Una aplicación para Android que tiene un costo de US $3.99 pero que ofrece funcionalidades que justifican este precio.

La aplicación proporciona una interfaz simple que permite hacer grabaciones sin límite de duración y que comprime el audio grabado. Lo que la hace perfecta para almacenar conferencias largas o conversaciones con mucha extensión.

Este servicio brinda la posibilidad de almacenar el archivo en Dropbox o Google Drive, incluso de mandarlo por email. Lo que lo convierte en una herramienta ideal para estudiantes, músicos o empresarios.

Telbee

Una grabadora de voz gratuita y 100% en línea que permite grabar audio en altísima calidad desde el micrófono de cualquier dispositivo móvil o computadora.

Una vez que se haya concluido la grabación, el usuario tiene la posibilidad de descargar el archivo en formato MP3 o compartirlo a través de email, sus redes sociales o cualquier otra plataforma online.