El nuevo método de entrenamiento de IA crea potentes agentes de software con solo 78 ejemplos

Un nuevo estudio realizado Universidad Jiao Tong de Shanghái y Trabajo de IA generativa del SII Gair muestra que entrenar grandes modelos de lenguaje (LLM) para tareas complejas e independientes no requiere grandes conjuntos de datos.
Su marco, déjame (Menos es más para una agencia inteligente), se basa en trabajos similares en otras áreas de investigación de LLM y descubre que «la autonomía de la máquina surge no de una abundancia de datos sino de la guía estratégica de demostraciones de orden superior y alta calidad».
En otras palabras, son datos. calidadNo cantidadEsto es importante.
En experimentos, los investigadores encontraron que con A Con un conjunto de datos pequeño, pero cuidadosamente seleccionado, de solo 78 ejemplos, pueden capacitar a los LLM para que superen los modelos entrenados con miles de ejemplos. Por un margen significativo sobre los puntos de referencia clave de la industria.
Este descubrimiento puede tener implicaciones importantes para las aplicaciones empresariales donde los datos son escasos o costosos.
El desafío de construir agentes que funcionen
Los investigadores definen la agencia como «la capacidad emergente de los sistemas de IA para actuar como agentes autónomos: descubriendo problemas, formulando hipótesis e implementando soluciones de forma autónoma a través de un compromiso autodirigido con entornos y herramientas». En otras palabras, estos sistemas de IA “no sólo piensan, sino que actúan”.
El problema es que los marcos de entrenamiento actuales asumen que la inteligencia de orden superior requiere una gran cantidad de datos, como se describe en las leyes de escala clásicas del modelado del lenguaje. Los investigadores sostienen que este enfoque conduce a procesos de formación cada vez más complejos y a importantes necesidades de recursos. Además, en muchas áreas los datos no abundan, son difíciles de obtener y muy costosos de cotejar.
Sin embargo, la investigación en otros campos sugiere que no necesariamente se necesitan más datos para lograr los objetivos de capacitación en la formación LLM.
Por ejemplo, Limaun artículo de 2023, demostró que el modelo puede ser una alineación eficiente con solo 1000 ejemplos coordinados. Recientemente, limusina Demostró que puede surgir un razonamiento matemático complejo a partir de sólo 817 muestras de entrenamiento.
Con Limi, los investigadores buscaron aplicar el principio de “menos es más” al complejo mundo de los agentes de IA.
¿Cómo funciona la lima?
El marco LIMI demuestra que una inteligencia agente sofisticada puede surgir de demostraciones mínimas pero fomentar estratégicamente un comportamiento autónomo. La clave del marco es un canal para recopilar demostraciones de alta calidad de las tareas de los agentes.
Cada demostración consta de dos partes: una consulta y una ruta. Una consulta es una solicitud en lenguaje natural de un usuario, como un requisito de desarrollo de software o un objetivo de investigación científica.
Una ruta es la serie de pasos que sigue la IA para procesar una consulta, incluido su razonamiento interno, sus llamadas a herramientas externas como un compilador de código y la retroalimentación que recibe del entorno. Por ejemplo, la consulta podría ser "Crea una aplicación de chat sencilla," La ruta incluirá el plan práctico y justo interno del agente, el código que escribe y ejecuta, y los resultados o errores resultantes.
El camino puede incluir múltiples iteraciones de planificación, implementación y pensamiento hasta lograr el objetivo deseado.
Para construir su conjunto de datos, los investigadores comenzaron con 60 consultas de escenarios del mundo real encontrados por desarrolladores e investigadores profesionales. Luego ampliaron esta piscina con… GPT-5 Sintetizar consultas adicionales de solicitudes de extracción de GitHub.
Utilizaron un equipo de cuatro estudiantes de doctorado en informática para verificar la calidad de estas consultas y seleccionaron 18 ejemplos para crear un conjunto de 78 consultas de alta calidad centradas en el desarrollo de software y los flujos de trabajo de investigación.
Para generar las pistas, los mismos estudiantes de doctorado colaboraron con un agente de codificación CLI impulsado por GPT-5 para completar 78 tareas.
Siguieron un proceso iterativo, reconstruyendo toda la secuencia de interacción hasta que cada tarea se completó con éxito, capturando el arco completo de la cooperación humana en la vida real, incluida la comunicación y la redundancia. Para consultas más complejas, las rutas recopiladas pueden abarcar más de 152.000 símbolos.
«Este enfoque garantiza que nuestros modelos aprendan no sólo de los resultados exitosos sino también del proceso completo de resolución de problemas, incluido cómo adaptar estrategias y recuperarse de fallas durante la ejecución colaborativa», escribieron los investigadores.
lemmy en el trabajo
Para probar su marco, el equipo evaluó modelos. una agenciaun estándar diseñado para medir las habilidades de un agente, así como otros estándares modificados para el uso de herramientas y la codificación.
los atraparon GLM-4.5un modelo robusto de código abierto, que utiliza un conjunto de datos de 78 muestras y compara su rendimiento con varios modelos paramétricos, incluido el GLM-4.5 básico. Como K2-instruiry Deepseek-V3.1. El modelo entrenado en Limi logró una puntuación promedio del 73,5 % en AgencyBench, superando significativamente a todos los modelos base, el mejor de los cuales (GLM-4.5) obtuvo una puntuación del 45,1 %.
Esta superioridad se extendió a otros puntos de referencia que cubren el uso de herramientas, la codificación y la informática científica, donde Limi también superó todas las líneas de base.
Lo más importante es que el estudio demostró que un modelo entrenado con solo 78 ejemplos supera a los modelos entrenados con 10.000 muestras de otro conjunto de datos, entregado Rendimiento superior con 128 veces menos datos.
«Este descubrimiento redefine fundamentalmente cómo se desarrollan los sistemas autónomos de IA, lo que sugiere que dominar la agencia requiere comprender su esencia, no escalar los datos de entrenamiento», escribieron los investigadores. «A medida que las industrias pasan de pensar en IA a IA, Limi proporciona un modelo para el cultivo sostenible de una inteligencia que realmente funcione».
Los investigadores emitieron Código Para síntesis de datos y entrenamiento. Pesos típicos. Para las empresas, este enfoque proporciona un camino práctico hacia el desarrollo de agentes de IA altamente especializados.
En lugar de emprender proyectos masivos de recopilación de datos, las organizaciones pueden aprovechar su talento interno y sus expertos en la materia para crear conjuntos de datos pequeños y de alta calidad para tareas personalizadas de los agentes. Esto reduce la barrera de entrada y permite a las empresas crear agentes de IA personalizados que pueden proporcionar una ventaja competitiva en los flujos de trabajo que más les importan.