Los investigadores de Meta utilizaron datos generados íntegramente por la inteligencia artificial para entrenar el modelo evaluador, eliminando también la intervención humana en esa fase.
Meta, la matriz de Facebook, anunció el viernes la publicación de una serie de nuevos modelos de inteligencia artificial de su división de investigación, entre ellos un «evaluador autodidacta» que puede ofrecer una vía hacia una menor intervención humana en el proceso de desarrollo de la inteligencia artificial.
El lanzamiento se produce después de que Meta presentó la herramienta en un artículo publicado en agosto, en el que se detallaba cómo se basa en la misma técnica de «cadena de pensamiento» utilizada por los modelos o1 de OpenAI, recientemente publicados, para emitir juicios fiables sobre las respuestas de los modelos.
Esta técnica consiste en dividir problemas complejos en pasos lógicos más pequeños y parece mejorar la precisión de las respuestas a problemas complejos en materias como ciencias, codificación y matemáticas.
Los investigadores de Meta utilizaron datos generados íntegramente por la inteligencia artificial para entrenar el modelo evaluador, eliminando también la intervención humana en esa fase.
La capacidad de utilizar la IA para evaluar la inteligencia artificial de forma fiable permite vislumbrar un posible camino hacia la creación de agentes de inteligencia artificial autónomos capaces de aprender de sus propios errores, según explicaron a Reuters dos de los investigadores de Meta responsables del proyecto.
Muchos en el campo de la IA imaginan este tipo de agentes como asistentes digitales lo suficientemente inteligentes como para llevar a cabo una amplia gama de tareas sin intervención humana.
Los modelos autoperfeccionados podrían eliminar la necesidad de un proceso a menudo caro e ineficaz que se utiliza hoy en día, denominado aprendizaje por refuerzo a partir de la retroalimentación humana, que requiere la aportación de anotadores humanos que deben tener conocimientos especializados para etiquetar los datos con precisión y verificar que las respuestas a complejas consultas matemáticas y de escritura son correctas.
«Esperamos que, a medida que la IA se vuelva más y más sobrehumana, mejore cada vez más en la comprobación de su trabajo, de modo que llegue a ser mejor que el ser humano promedio», afirma Jason Weston, uno de los investigadores.
«La idea de ser autodidacta y capaz de autoevaluarse es crucial para llegar a este nivel sobrehumano de la IA».
Otras empresas, como Google y Anthropic, también han publicado investigaciones sobre el concepto de RLAIF (Reinforcement Learning from AI Feedback). Sin embargo, a diferencia de Meta, estas empresas no suelen hacer públicos sus modelos.
Otras herramientas de IA publicadas por Meta el viernes incluyen una actualización del modelo de identificación de imágenes Segment Anything, una herramienta que acelera los tiempos de generación de respuestas LLM y conjuntos de datos que pueden utilizarse para ayudar al descubrimiento de nuevos materiales inorgánicos.
POR: EL ECONOMISTA