Únase a boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo para cubrir la inteligencia artificial líder en la industria. Obtenga más información
Pensando en la serie de pensamiento (COT), el proceso con el que los modelos de formación se guardan en «ideas» que se pueden controlar antes de deducir las respuestas, una parte integral de la última generación de modelos de lenguaje fronterizo (LLM).
Sin embargo, los costos de razonamiento para los modelos de pensamiento pueden acumularse rápidamente a medida que los modelos generan símbolos vibrantes. en Papel nuevoLos investigadores de la Universidad Carnegie Mellon sugieren una tecnología de entrenamiento LLM que brinda a los desarrolladores más control sobre la cuna.
La mejora de la política controlada por la política (LCPO) y los términos de la tecnología modelo para proporcionar las respuestas correctas mientras mantienen sus «ideas» también dentro de un presupuesto simbólico prefirinado. Los experimentos muestran que los modelos capacitados de LCPO proporcionan una comparación suave entre la precisión y los costos y pueden superar a los modelos más grandes sobre la igualdad de longitudes de pensamiento. LCPO puede ayudar significativamente a reducir los costos de inferencia en las aplicaciones de las instituciones al ahorrar miles de símbolos en cada ronda de conversación con LLM.
El rendimiento de LLM conduce a un trasplante de velocidad más largo
Los modelos de pensamiento como OpenAI O1 y Deepseek-R1 están entrenados a través del aprendizaje de refuerzo (RL) para usar la escala del tiempo de prueba y crear efectos de cuna antes de producir una respuesta. La evidencia experimental indica que cuando los modelos piensan durante un período más largo, tienden a funcionar mejor en las tareas de pensamiento.
Por ejemplo, el R1 fue entrenado inicialmente en RL puro sin ejemplos de humanos. Una de las ideas era que con la mejora del rendimiento del modelo, también aprendió a crear efectos más largos.
Si bien en general, las largas cadenas de cuna conducen a respuestas más precisas, también crean el cuello de botella en la aplicación de modelos de pensamiento a gran escala. Actualmente hay muy pocos control sobre el presupuesto de la cuenta de tiempo de prueba, y las secuencias pueden extenderse fácilmente a decenas de miles de símbolos sin obtener grandes ganancias. Hubo algunos esfuerzos para controlar la longitud de las cadenas de pensamiento, pero generalmente analizaba el rendimiento del modelo.
Explique la duración de la política controlada (LCPO)
Entrenamiento RL Classic LLMS solo para lograr la respuesta correcta. LCPO cambia este modelo ingresando dos objetivos de entrenamiento: 1) Obtenga el resultado correcto y 2) Mantenga una cadena de cuna limitada dentro de la longitud de un símbolo específico. Por lo tanto, si el modelo resulta de la respuesta correcta, pero genera muchos símbolos distintivos, recibirá una penalización y tendrá que llegar a una serie de pensamiento que alcanza la misma respuesta, pero con un presupuesto simbólico más pequeño.
Los investigadores escribieron: «Los modelos capacitados de LCPO están satisfechos con satisfacer las restricciones de longitud mientras mejoran el rendimiento del pensamiento, en lugar de depender de inferir la ingeniería de manos», escribieron los investigadores.
Sugieren el sabor de dos LCPO: (1) percepción LCPO, lo que requiere que el pensamiento generado sea completamente igual a la longitud del objetivo, y (2) LCPO-Max, lo que requiere que la salida sea más larga que la longitud del objetivo.
Para probar esta tecnología, los investigadores establecieron el modelo de pensamiento 1.5B (QWEN-Deslantado-R1-1.5B) en los esquemas LCPO propuestos para crear modelos L1-Max y L1. La capacitación se basó en problemas matemáticos con resultados distinguidos y verificados. Sin embargo, la evaluación incluyó problemas matemáticos, así como tareas de distribución externa, como medir el lenguaje de las tareas múltiples masivas (MMLU) Tecnología, preguntas de resistencia estándar y respuestas a nivel de estudios de posgrado (GPQU).
Sus resultados muestran que los modelos L1 pueden equilibrar con precisión el presupuesto distintivo de símbolos y el rendimiento del pensamiento, y la interconexión suave entre el pensamiento corto, efectivo y más largo y el pensamiento más largo, y más preciso al exigir el modelo con las restricciones de diferente longitud. Más importante aún, en algunas tareas, los modelos L1 pueden reproducir el rendimiento del modelo de pensamiento original con un presupuesto simbólico más bajo.

En comparación con el S1, la única forma en que restringe los modelos COT, los modelos L1 muestran hasta el 150 % de las ganancias de rendimiento en diferentes presupuestos simbólicos.
«Esta gran diferencia se puede atribuir a dos factores principales», escriben los investigadores. (1) L1 se adapta de manera inteligente a su cama para que se ajuste dentro de las restricciones de longitud limitada sin interrumpir el proceso de pensamiento, mientras que el S1 a menudo se corta en la mitad del período;
L1 también supera a su contraparte no compatible en un 5 % y GPT-4O en un 2 % a lo largo de la generación igual. «Con respecto a nuestro conocimiento, esta es la primera evidencia de que el modelo 1.5B puede superar a los modelos de borde como GPT-4O, a pesar del uso de la misma longitud», escriben los investigadores.
Curiosamente, Cot Cot muestra que aprende a controlar el proceso de pensamiento en función de su presupuesto simbólico. Por ejemplo, en los presupuestos largos, es probable que el modelo genere los símbolos distintivos asociados con la auto corrección y la verificación (es decir, «pero» y «esperar») y dibujar el resumen («SO» y «SO»).

Además de mejorar la longitud de la longitud en la preparación del pensamiento matemático estándar, los modelos L1 circulantes son increíblemente sorprendentes para las tareas de distribución, incluidas GPQA y MMLU.
Esta nueva línea de investigación sobre modelos que su presupuesto de pensamiento puede ajustar los usos importantes de las aplicaciones en el mundo real, lo que brinda a las instituciones la capacidad de expandir el alcance de los modelos de pensamiento sin huir de los gastos. Es una alternativa sólida para publicar modelos más grandes y más caros, y puede ser un factor crucial para hacer que la inteligencia artificial sea de manera más económica aplicaciones para aplicaciones en el mundo real.
Los investigadores han abierto fuentes Código LCPO y Pesa para modelos L1.
Enlace de origen