Este modelo de Inteligencia Artificial podría traer varios cambios a los sintetizadores de voz que conocemos

Meta ha anunciado un nuevo avance en Inteligencia Artificial. Se trata de Voicebox, un modelo generativo de habla el cual se basa en un nuevo método propuesto por Meta IA llamado Flow Matching.

De acuerdo con el comunicado de Meta, este modelo generativo de IA ayuda a la edición, samplig y estilización de audio. Además, en un futuro ayudará «a los creadores a editar fácilmente pistas de audio, permitir a las personas con discapacidad visual escuchar los mensajes escritos de sus amigos en sus voces y que las personas se comuniquen en cualquier idioma extranjero usando su propia voz”, señaló la compañía de Mark Zuckerberg.

Si quieres conocer más sobre este nuevo modelo de Inteligencia Artificial de Meta, te damos los detalles.

¿Cómo funcionará Voicebox?

Voicebox nace con el propósito de darle un nuevo enfoque a la generación de voz. Y es que muchos de los sintetizadores de voz que existen en la actualidad dan salidas de audio monótonas, algo que Meta está dispuesto a cambiar.

Con el uso del método de Flow Matching, el cual ha mejorado los modelos de difusión, Meta busca que Voicebox pueda «entrenarse con datos más diversos y una escala de datos mucho mayor», además de tener variaciones de voz que rompan con este esquema del habla monótono.

Al respecto, Meta explica en su comunicado que se capacitó a «Voicebox con más de 50 000 horas de voz grabada y transcripciones de audiolibros de dominio público en inglés, francés, español, alemán, polaco y portugués. Voicebox está entrenado para predecir un segmento de voz cuando se le da el habla circundante y la transcripción del segmento. Habiendo aprendido a rellenar el habla a partir del contexto, el modelo puede aplicar esto en las tareas de generación de voz, incluida la generación de partes en medio de una grabación de audio sin tener que volver a crear la entrada completa.»

Es decir que nos encontramos con un modelo totalmente distinto a los sintetizadores de voz que ya conocemos y el cual brindará una experiencia de habla mucho más natural. Además que en un futuro puede llegar a beneficiar a varios sectores de la sociedad.

Un modelo multitareas

El modelo inteligente de Voicebox le permitirá a los usuarios realizar varias tareas que facilitarán su comunicación con otras personas. A continuación te enlistamos algunas de las que mencionó Meta:

Síntesis de contexto de texto a habla. En su comunicado, Meta señaló que «utilizando una muestra de audio de tan solo un par de segundos, Voicebox puede adaptar el estilo de audio y utlizarlo para la generación de texto a habla».

Edición de habla y reducción de ruido. Una de las tareas que te permitirá hacer Voicebox es mejorar el audio eliminando el ruido del exterior o sustituyendo palabras que el hablante pronunció de manera inadecuada, esto sin tener que volver a grabar de nuevo el discurso.

Transferencia de estilo entre idiomas. Como mencionamos anteriormente Voicebox tendrá la capacidad de producir el habla en seis idiomas diferentes, incluso si la muestra del habla y el texto no se encuentran en el mismo idioma.

Con ello, Meta da un paso importante en la brecha de comunicación entre diferentes países ya que en un futuro, las personas podrán comunicarse de forma natural con individuos que no hablen el mismo idioma.

Muestreo de habla diversa. Otras de las características importantes de Voicebox, es que este modelo también podrá generar un habla muy parecida a cómo se expresan las personas en el mundo real.

Por lo que ya no parecerá que hablamos con un robot, sino más bien con una persona más de nuestro círculo. Además, esto lo podrá hacer en los seis idiomas mencionados anteriormente.

Uso de Inteligencia Artificial con responsabilidad

El uso de la Inteligencia Artificial en los últimos tiempos ha generado polémica debido a la mala práctica que se le puede dar a los avances de esta rama y que pueden ocasionar daños potenciales.

Meta está consciente de ello, por está razón en su comunicado dio a conocer que este modelo generativo de voz «puede distinguir entre voz auténtica y audio generado con Voicebox para mitigar riesgos futuros». Además, compartieron sus avances en un artículo para que la comunidad de investigadores puedan basarse en su trabajo para crear nuevas aproximaciones en un futuro.

Mauricio

Más Noticias

Internacional

Trump entregará el trofeo al Campeón en la Final del Mundial 2026 al lado de Infantino: “Estamos juntos todo el tiempo”

Gianni Infantino, presidente de la FIFA, reveló que Trump estará junto a él entregando el trofeo al Campeón del Mundial 2026. Reuters.- El presidente de...

Nacional

Mat4n a mujer durante ataque a bal4zos en Juárez, Nuevo León; menor de dos años y otra mujer resultaron lesionadas

El hecho ocurrió en un domicilio de la colonia Arcos de Zirándaro; la Fiscalía Estatal inició las indagatorias correspondientes Monterrey. – Una mujer fue asesin4da...

Nacional

Civiles armados emboscan a elementos de la Guardia Civil de San Luis Potosí: uno perdió la vida y otro resultó herido

Las autoridades informaron que uno de los agresores fue hallado muert0 tras resultar lesionado en el enfrentamiento y otro fue detenido Elementos de la Guardia Civil de San...