Los investigadores de Nvidia mejoran las habilidades de pensamiento de los estudiantes de LLM haciéndoles «pensar» durante la formación previa

Investigadores de Nvidia han desarrollado una nueva tecnología que cambia el guión sobre cómo los modelos de lenguaje grandes (LLM) aprenden a razonar.

El método se llama Reforzar el aprendizaje antes de entrenar (RLP), la RL se incorpora a la fase inicial de entrenamiento en lugar de guardarla para el final.

Este enfoque El modelo fomenta «pensar por uno mismo antes de predecir lo que vendrá después, enseñando así un comportamiento de pensamiento independiente en las primeras etapas del pre-entrenamiento». Los investigadores afirmaron en su artículo.

Al aprender a pensar en texto plano sin necesidad de herramientas de verificación externas, Los modelos entrenados con RLP muestran mejoras significativas en el aprendizaje de tareas de razonamiento complejas En última instancia, apuntando a un futuro de IA que sea más capaz y adaptable a las tareas del mundo real.

Modelo de curso LLM

Por lo general, los modelos de lenguaje grandes primero se entrenan previamente en grandes cantidades de texto usando "Predecir el siguiente símbolo" Objetivo, donde se les da una cadena de texto y se les pide que adivinen continuamente la siguiente palabra (o ficha). En esta etapa, aprenden reglas, hechos y asociaciones básicas.

En la fase posterior al entrenamiento, los modelos generalmente aprenden habilidades de razonamiento complejas como Una serie de ideas (CoT) donde el modelo explica su lógica paso a paso. Esta fase a menudo implica un ajuste supervisado (SFT) o Aprendizaje mejorado a partir de la retroalimentación humana (RLHF), que requiere conjuntos de datos especializados y seleccionados.

Los autores del artículo sostienen que este proceso secuencial no coincide con la comprensión humana y «no es un proceso lineal simbólico tras otro, sino más bien una integración paralela de aportaciones con conocimientos previos». Los métodos de preentrenamiento actuales carecen de este mecanismo, lo que dificulta la capacidad del modelo para desarrollar un pensamiento profundo desde el principio.

Cómo funciona el aprendizaje por refuerzo previo al entrenamiento

RLP reformula este proceso al tratar la generación de CoT como una acción que realiza el modelo antes de predecir el siguiente token. En cada paso, el modelo primero crea un elemento interior. "creencia" O lógica en cadena. Luego predice la siguiente palabra del texto, utilizando el contexto original ampliado con su nuevo pensamiento.

El modelo recibe una recompensa basada en cuánto mejora su idea la precisión de sus predicciones en comparación con una línea de base que no generó una idea (predicción pura del siguiente código). Esta señal de recompensa se calcula automáticamente en función del cambio en la probabilidad, lo que elimina la necesidad de verificadores externos o datos etiquetados por humanos.

La recompensa sólo es positiva cuando la idea generada ayuda al modelo a predecir mejor el siguiente token. Al recompensar los conocimientos basados ​​en su utilidad predictiva, RLP enseña eficazmente al modelo cómo razonar de manera útil sobre los mismos conjuntos de datos grandes y no estructurados utilizados en el preentrenamiento estándar.

Un ciclo de retroalimentación constante permite al modelo saber cuándo una simple conjetura predictiva es suficiente y cuándo necesita involucrarse en un pensamiento más profundo. Como lo expresaron los investigadores, «RLP está diseñado para dar forma al pensamiento a través de modelos básicos Recompense sólo aquellos conocimientos que ayuden concretamente a predecir el siguiente símbolo».

Sin embargo, este enfoque fundamental no hace que las etapas posteriores de ajuste queden obsoletas. Según Brian Catanzaro, vicepresidente de investigación de aprendizaje profundo aplicado en Nvidia y coautor del artículo, RLP está diseñado para complementar, no reemplazar, estos pasos críticos. "RLP no pretende reemplazar las etapas posteriores al entrenamiento, como el ajuste supervisado o el aprendizaje reforzado a partir de la retroalimentación humana." Catanzaro le dijo a Venturebeat. "Estas etapas siguen siendo críticas para mejorar el comportamiento del modelo… y en realidad están diseñadas para amplificar la efectividad de esas etapas posteriores al darle al modelo un inicio temprano."

RLP en acción

En experimentos con Qwen3-1.7B y Nimotrón-Nano-12BEl equipo de Nvidia probó RLP en una variedad de puntos de referencia de matemáticas y ciencias. Los resultados muestran que Los modelos aumentados con RLP superaron consistentemente a sus contrapartes entrenados tradicionalmente, con ganancias particularmente fuertes en tareas que requieren más pensamiento.

Para una organización, esta lógica mejorada puede traducirse en resultados más confiables en flujos de trabajo de varios pasos, como análisis financieros o resúmenes de documentos legales.

"Durante el entrenamiento previo, RLP alienta al modelo a pensar antes de hacer una predicción, lo que ayuda al modelo a adaptarse a un estilo de pensamiento más coherente." Dijo Catanzaro. "Esto puede ayudar a reducir errores lógicos sutiles, especialmente en flujos de trabajo más largos.

Si bien Catanzaro enfatizó que los modelos entrenados en RLP seguirán necesitando las barreras habituales, como capas de validación, moderación humana y controles de coherencia, Catanzaro dijo que “RLP le brinda una base de referencia más sólida."

Es importante destacar que los beneficios del complejo RLP no desaparecen durante las fases de ajuste posteriores (el olvido catastrófico es un problema común en el entrenamiento LLM, donde las fases de entrenamiento posteriores hacen que el modelo olvide sus habilidades y conocimientos aprendidos previamente). El modelo entrenado con RLP logró una puntuación general entre un 7% y un 8% más alta que las líneas de base después de un régimen post-entrenamiento similar. Los investigadores concluyeron que RLP «establece una lógica sólida que no se elimina con la alineación final, sino que se acumula después del entrenamiento».

La eficacia de esta técnica es el principal resultado. En el modelo Qwen3-1.7B, RLP mejoró el rendimiento en un 17 % con respecto al preentrenamiento continuo estándar y también superó una técnica similar llamada preentrenamiento de refuerzo mediante coincidencia de prefijos de recompensas (RPT). Esta ventaja persistió incluso cuando el modelo base se entrenó utilizando 35 veces más datos para igualar el costo computacional, lo que confirma que las ganancias provienen del método en sí, no solo de un mayor procesamiento.

Además, RLP muestra una escalabilidad y versatilidad increíbles, extrayendo con éxito señales lógicas de datos web de propósito general, no solo de conjuntos de datos formateados. Cuando se aplica al modelo híbrido Nemotron-Nano-12B Mamba-Transformer, RLP logró una mejora relativa del 35 % en comparación con la línea de base con capacitación intensiva Mientras se utiliza solo una pequeña porción de los datos.

Si bien estos hallazgos apuntan a un camino más eficiente para construir modelos robustos, Catanzaro posiciona la innovación como una transformación fundamental en el proceso de aprendizaje en sí, en lugar de una solución inmediata a los altos costos de capacitación.

"Esta investigación es interesante porque presenta un cambio en la forma en que los modelos absorben información durante el entrenamiento previo, lo que conduce a un proceso de aprendizaje más inteligente." Explicó. "Esto no reemplazará una capacitación previa exhaustiva, pero ofrece otra forma creativa de construir los mejores modelos posibles."

Una nueva base para la formación en inteligencia artificial

En última instancia, RLP apunta hacia un futuro en el que el preentrenamiento ya no sea un proceso monolítico de predicción del siguiente token. En cambio, la próxima generación de modelos podría construirse sobre una combinación de objetivos, creando una IA que aprenda a pensar de manera más sólida desde el primer día. Catanzaro ofrece una poderosa analogía para enmarcar este cambio:

"Predecir el siguiente símbolo le dice al modelo cómo es el mundo; Los objetivos de estilo de refuerzo como RLP pueden enseñarle a pensar en lo que ve," Dijo. "La combinación de estos dos objetivos puede ayudar a los modelos a desarrollar un pensamiento más profundo y estructurado desde muy temprano en el entrenamiento… Herramientas como RLP pueden construir sobre esta base, haciendo que el aprendizaje sea más activo, más curioso e incluso más eficiente."

Todavía hay mucho que aprender sobre la dinámica del aprendizaje por refuerzo previo al entrenamiento, pero lo que parece claro es que «introducir la exploración tempranamente en el entrenamiento abre un nuevo eje de expansión, no sólo en escala, sino en cómo los modelos aprenden a pensar», dijo Catanzaro.

Enlace de origen

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba