menú

Ciudad de Mexico

24°C
Few clouds

martes 18 de febrero de 2025

>
>
>
>
>
Meta lanza Voicebox, su nuevo modelo generativo de habla

Meta lanza Voicebox, su nuevo modelo generativo de habla

Este modelo de Inteligencia Artificial podría traer varios cambios a los sintetizadores de voz que conocemos

Meta ha anunciado un nuevo avance en Inteligencia Artificial. Se trata de Voicebox, un modelo generativo de habla el cual se basa en un nuevo método propuesto por Meta IA llamado Flow Matching.

De acuerdo con el comunicado de Meta, este modelo generativo de IA ayuda a la edición, samplig y estilización de audio. Además, en un futuro ayudará «a los creadores a editar fácilmente pistas de audio, permitir a las personas con discapacidad visual escuchar los mensajes escritos de sus amigos en sus voces y que las personas se comuniquen en cualquier idioma extranjero usando su propia voz”, señaló la compañía de Mark Zuckerberg.

Si quieres conocer más sobre este nuevo modelo de Inteligencia Artificial de Meta, te damos los detalles.

¿Cómo funcionará Voicebox?

Voicebox nace con el propósito de darle un nuevo enfoque a la generación de voz. Y es que muchos de los sintetizadores de voz que existen en la actualidad dan salidas de audio monótonas, algo que Meta está dispuesto a cambiar.

Con el uso del método de Flow Matching, el cual ha mejorado los modelos de difusión, Meta busca que Voicebox pueda «entrenarse con datos más diversos y una escala de datos mucho mayor», además de tener variaciones de voz que rompan con este esquema del habla monótono.

Al respecto, Meta explica en su comunicado que se capacitó a «Voicebox con más de 50 000 horas de voz grabada y transcripciones de audiolibros de dominio público en inglés, francés, español, alemán, polaco y portugués. Voicebox está entrenado para predecir un segmento de voz cuando se le da el habla circundante y la transcripción del segmento. Habiendo aprendido a rellenar el habla a partir del contexto, el modelo puede aplicar esto en las tareas de generación de voz, incluida la generación de partes en medio de una grabación de audio sin tener que volver a crear la entrada completa.»

Es decir que nos encontramos con un modelo totalmente distinto a los sintetizadores de voz que ya conocemos y el cual brindará una experiencia de habla mucho más natural. Además que en un futuro puede llegar a beneficiar a varios sectores de la sociedad.

Un modelo multitareas

El modelo inteligente de Voicebox le permitirá a los usuarios realizar varias tareas que facilitarán su comunicación con otras personas. A continuación te enlistamos algunas de las que mencionó Meta:

Síntesis de contexto de texto a habla. En su comunicado, Meta señaló que «utilizando una muestra de audio de tan solo un par de segundos, Voicebox puede adaptar el estilo de audio y utlizarlo para la generación de texto a habla».

Edición de habla y reducción de ruido. Una de las tareas que te permitirá hacer Voicebox es mejorar el audio eliminando el ruido del exterior o sustituyendo palabras que el hablante pronunció de manera inadecuada, esto sin tener que volver a grabar de nuevo el discurso.

Transferencia de estilo entre idiomas. Como mencionamos anteriormente Voicebox tendrá la capacidad de producir el habla en seis idiomas diferentes, incluso si la muestra del habla y el texto no se encuentran en el mismo idioma.

Con ello, Meta da un paso importante en la brecha de comunicación entre diferentes países ya que en un futuro, las personas podrán comunicarse de forma natural con individuos que no hablen el mismo idioma.

Muestreo de habla diversa. Otras de las características importantes de Voicebox, es que este modelo también podrá generar un habla muy parecida a cómo se expresan las personas en el mundo real.

Por lo que ya no parecerá que hablamos con un robot, sino más bien con una persona más de nuestro círculo. Además, esto lo podrá hacer en los seis idiomas mencionados anteriormente.

Uso de Inteligencia Artificial con responsabilidad

El uso de la Inteligencia Artificial en los últimos tiempos ha generado polémica debido a la mala práctica que se le puede dar a los avances de esta rama y que pueden ocasionar daños potenciales.

Meta está consciente de ello, por está razón en su comunicado dio a conocer que este modelo generativo de voz «puede distinguir entre voz auténtica y audio generado con Voicebox para mitigar riesgos futuros». Además, compartieron sus avances en un artículo para que la comunidad de investigadores puedan basarse en su trabajo para crear nuevas aproximaciones en un futuro.

Más Noticias

En Frontera, la educación en nuestra prioridad: Sari
Seguirá trabajando de la mano del gobernador Manolo Jiménez para dar más y mejores oportunidades a los jóvenes fronterenses Óscar Ballesteros LA PRENSA FRONTERA, COAHUILA.-...
“Aquí Andamos” continua en trabajos de rehabilitación en todos los sectores de Saltillo
Cuadrillas municipales atienden la ciudad de manera integral Saltillo, Coahuila de Zaragoza; 18 de febrero de 2025.- Con el programa “Aquí Andamos”, del alcalde Javier...
Bomberos sofocan incendio de pastizales
Allende, Coahuila.- El Cuerpo de Bomberos de Allende, liderado por José Raúl Garza Tron, respondió con rapidez y eficacia a un incendio de pastizales registrado,...

Relacionados

Identifican a 2 mineros de Pasta de Conchos
SE TRATA DE PABLO SOTO Y MARGARITO CRUZ De los...
Reconocen el esfuerzo ambiental en Coahuila
Instituciones del Estado reciben las Constancias de Cumplimiento y Ratificación...
Detienen a “Chayan” con drogas en Agujita.
•El sujeto escondía la droga en el asiento de una...
INICIA COAHUILA EL 2025 CON MÁS INVERSIONES Y EMPLEOS
Se inaugura la planta Imperial Auto, primera en México y...
SABOR Y TRADICIÓN EN LA QUINTA FERIA DEL TAMAL Y EL VINO
Parras celebrará su 427 aniversario con arte, gastronomía y el...
Fomenta SB deporte con torneo de softbol
El alcalde Hugo Lozano estuvo presente en el emocionante partido...

Suscríbete

Inscribete a todas nuestras noticias y avisos.