Los investigadores han descubierto que volver a entrenar solo pequeñas porciones de modelos de IA puede reducir los costos y evitar el olvido

Las empresas suelen descubrir que cuando… Ajustan los modelosUn enfoque eficaz para hacer que un modelo de lenguaje grande (LLM) sea adecuado para su propósito y esté basado en datos es hacer que el modelo pierda algunas de sus capacidades. Después del ajuste, algunos modelos “olvidan” cómo realizar ciertas tareas u otras tareas que ya han aprendido.

Una investigación de la Universidad de Illinois Urbana-Champaign sugiere una nueva forma de volver a entrenar modelos que evite el «olvido catastrófico», donde el modelo pierde parte de su conocimiento previo. El artículo se centra en dos programas LLM específicos que generan respuestas a partir de imágenes: LLaVA y Qwen 2.5-VL.

Este enfoque alienta a las organizaciones a volver a capacitar solo partes limitadas del LLM para evitar volver a capacitar todo el modelo e incurrir en un aumento significativo en los costos informáticos. El equipo afirma que el olvido catastrófico no es una verdadera pérdida de memoria, sino más bien un efecto secundario del sesgo.

«Entrenar un nuevo LMM puede costar millones de dólares, semanas y emitir cientos de toneladas de dióxido de carbono, por lo que encontrar formas de actualizar los modelos existentes de manera más eficiente y efectiva es una preocupación apremiante», escribió el equipo en su informe. papel. «Guiados por este hallazgo, exploramos recetas de control que mantienen el aprendizaje y al mismo tiempo reducen el cambio en los resultados».

Los investigadores se centraron en el perceptrón multicapa (MLP), el componente interno de toma de decisiones del modelo.

Olvido catastrófico

En primer lugar, los investigadores quisieron investigar la presencia y la causa del olvido catastrófico en los modelos.

Para hacer esto, crearon un conjunto de tareas objetivo para que las completaran los modelos. Luego, los modelos se perfeccionaron y evaluaron para determinar si conducían significativamente al olvido. Pero a medida que avanzaba el proceso, los investigadores descubrieron que los modelos estaban recuperando algunas de sus habilidades.

«También observamos un resultado sorprendente, que es que el rendimiento del modelo disminuiría significativamente en los puntos de referencia después del entrenamiento en la tarea de conteo, y se recuperaría principalmente en PathVQA, otra tarea especializada que no está bien representada en los puntos de referencia», dijeron. «Mientras tanto, mientras realizábamos los experimentos de olvido, también intentamos ajustar las capas de proyección de autoatención (SA Proj) o las capas MLP por separado, motivados por el hallazgo de que ajustar solo el LLM era generalmente mejor que ajustar el modelo completo. Esto llevó a otro resultado muy sorprendente: que ajustar solo las capas de proyección de autoatención condujo a un muy buen aprendizaje de las tareas objetivo sin caída en el rendimiento en las tareas retenidas. Incluso después de entrenar los cinco objetivos de la misión secuencialmente”.

Los investigadores dijeron que creen que «lo que parece un olvido o una interferencia después de realizar un ajuste fino a una tarea objetivo limitada es en realidad un sesgo en la distribución de la producción debido a un cambio en la distribución de las tareas».

Reentrenamiento estrecho

Este descubrimiento resultó ser la clave del experimento. Los investigadores señalan que ajustar el MLP aumenta la probabilidad de «producción de tokens digitales y una disminución significativamente asociada en la precisión de las tareas de retención». Lo que demostró es que un modelo que olvida algunos de sus conocimientos es sólo un problema temporal y no a largo plazo.

«Para evitar sesgar la distribución de la producción, ajustamos las proyecciones MLP más altas/encantadoras mientras manteníamos congelada la proyección descendente, y descubrimos que logra un aprendizaje similar al ajuste completo de MLP con poco olvido», dijeron los investigadores.

Esto permite una forma más sencilla y repetible de ajustar el modelo.

Al centrarse en una porción reducida del modelo, en lugar de una recapacitación generalizada, las organizaciones pueden reducir los costos de computación. También permite un mejor control de la desviación de la salida.

Sin embargo, la investigación sólo se centra en dos modelos, concretamente los que tienen que ver con la visión y el lenguaje. Los investigadores señalaron que debido a la limitación de recursos, no pueden probar el experimento con otros modelos.

Sin embargo, sus hallazgos pueden extenderse a otros MBA, especialmente para diferentes modalidades.

Enlace de origen

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba