Meta presenta Voicebox, su revolucionaria IA de texto a voz

Meta presenta Voicebox, un sistema de generación de texto a voz tan potente que su uso de momento es restringido.

La compañía de Mark Zuckerberg, ha dado a conocer su último avance en inteligencia artificial.
Voicebox, es un sistema que convierte texto a voz (TTS) que promete superar los modelos más avanzados actuales en rendimiento y velocidad.

Utiliza una arquitectura novedosa, similar a ChatGPT de OpenAI y Bard de Google, en lugar de seguir el enfoque tradicional de TTS. Una de sus principales ventajas es la capacidad de generalizar a través del aprendizaje en contexto, algo que lo distingue de otros modelos similares, como la conocida IA Prime Voice de ElevenLabs.

Según el blog de Meta, Voicebox es el “primer modelo capaz de realizar tareas de generación del habla — como edición, sampling y estilización — para las que no fue entrenado específicamente; pero que puede resolver a través del aprendizaje en contexto”

Para desarrollar Voicebox, los ingenieros de Meta entrenaron su modelo con un total de 50. 000 horas en inglés y 60.000 horas en otros idiomas, procedentes de audiolibros en varios idiomas.
Y aunque la entonación de las voces generadas suena similar a una la locución de un audiolibro, Meta espera que su IA alcance una mayor naturalidad en futuras actualizaciones.

voicebox_detalle — Detalle del funcionamiento de Voicebox, la IA de voz de Meta

Principales características de Voicebox

El sistema puede sintetizar varias voces a partir de un solo texto y con diferentes estilos seleccionables.
Es capaz de duplicar la voz de cualquier persona a partir de un breve clip de audio que le proporcionemos.
Podemos generar una voz en varios idiomas, incluso a partir de un texto escrito en un idioma distinto al nativo.
Algo parecido a lo que ya os mostramos con Rask.AI y su doblaje de voz a otros idiomas.
Tiene la capacidad de detectar y eliminar cualquier ruido de fondo que se nos haya colado en nuestras grabaciones de audio.
Permite modificar el clip de audio original, reemplazando palabras y añadiendo otras nuevas tan solo escribiéndolas. El modelo es capaz de insertar en la locución dicho texto con nuestra propia voz.

Y aunque Meta presenta Voicebox ahora, habrá que esperar a que en un futuro la compañía nos deje probarla. La razón que han dado es que han creado un sistema tan potente que han decidido no hacerlo Open Source por seguridad.

Hay muchos casos de uso interesantes para los modelos de habla generativa, pero debido a los riesgos de uso indebido, no estamos poniendo a disposición del público el modelo o el código de Voicebox en este momento. Si bien creemos que es importante ser abiertos con la comunidad de IA y compartir nuestra investigación para avanzar en el estado del arte en IA, también es necesario lograr el equilibrio adecuado entre la apertura y la responsabilidad.
-Meta AI

Lo que sí que podemos hacer de momento, es escuchar algunos ejemplos generados con Voicebox.

Etiquetas