Inside Ring-1T: los ingenieros de Ant resuelven cuellos de botella en el aprendizaje por refuerzo a escala de un billón

Porcelana grupo de hormigasfilial de Alibaba, proporcionó información técnica detallada sobre su nuevo modelo. Anillo-1Tque según la compañía es «el primer modelo de razonamiento de código abierto con un billón de parámetros totales».

Ring-1T está destinado a competir con otros modelos de inferencia como GPT-5 y la serie o de Abierto AIademás GoogleGéminis 2.5. Con el nuevo lanzamiento del último modelo, Ant amplía el debate geopolítico sobre quién lo hará Controla la carrera de la inteligencia artificial: China o Estados Unidos.

Ant Group dijo que el Ring-1T está optimizado para la resolución de problemas matemáticos y lógicos, la generación de código y la resolución de problemas científicos.

«Con aproximadamente 50 mil millones de parámetros activos por token, Ring-1T logra un rendimiento de vanguardia en muchos puntos de referencia desafiantes, a pesar de depender únicamente de capacidades de razonamiento en lenguaje natural», dijo Ant. papel.

El Ring-1T, que se lanzó por primera vez como vista previa en septiembre, se basa en la misma arquitectura que Ling 2.0 y está entrenado en el modelo básico Ling-1T que la compañía lanzó a principios de este mes. Ant dijo que esto permite que el modelo admita hasta 128.000 tokens.

Para entrenar un modelo grande como Ring-1T, los investigadores tuvieron que desarrollar nuevos métodos para escalar el aprendizaje por refuerzo (RL).

Nuevas formas de entrenar

Ant Group ha desarrollado tres “innovaciones interconectadas” para respaldar el entrenamiento de RL y Ring-1T, un desafío dado el tamaño del modelo y los requisitos informáticos típicamente grandes que implica. Estos tres son IcePop, C3PO++ y ASystem.

IcePop elimina las molestas actualizaciones continuas para estabilizar el entrenamiento sin ralentizar la inferencia. Ayuda a eliminar la desastrosa desalineación de las heurísticas de entrenamiento en RL. Los investigadores señalan que cuando se entrenan modelos, especialmente aquellos que utilizan una arquitectura mixta de expertos (MoE) como Ring-1T, a menudo hay inconsistencia en los cálculos de probabilidad.

«Este problema es particularmente evidente en el entrenamiento de modelos MoE con RL debido al uso inherente del mecanismo de enrutamiento dinámico. Además, en entornos CoT prolongados, estas inconsistencias pueden acumularse gradualmente a lo largo de las iteraciones y amplificarse aún más», dijeron los investigadores.

IcePop «evita las actualizaciones de entrenamiento inestables calibrando el enmascaramiento dúplex».

El siguiente método nuevo que los investigadores tuvieron que desarrollar fue C3PO++, una versión mejorada del sistema C3PO que Ant había creado previamente. Este método gestiona cómo se generan Ring-1T y otros modelos de parámetros muy grandes y maneja ejemplos de entrenamiento, o lo que llaman restas, para que las GPU no queden inactivas.

La forma en que funciona dividirá el trabajo en partes para procesarlas en paralelo. Un conjunto es el conjunto de inferencia, que genera nuevos datos, y el otro es el conjunto de entrenamiento, que combina los resultados para actualizar el modelo. C3PO++ crea un presupuesto nominal para controlar la cantidad de datos que se procesan, garantizando que las GPU se utilicen de manera eficiente.

El último método nuevo, ASystem, adopta la arquitectura SingleController+SPMD (programa único, datos múltiples) para permitir operaciones asincrónicas.

Resultados de referencia

Ant se refirió al Ring-1T como puntos de referencia para medir el desempeño en matemáticas, programación, razonamiento lógico y tareas generales. Lo probaron con modelos como DeepSeek-V3.1-Terminus-Thinking, Qwen-35B-A22B-Thinking-2507, Gemini 2.5 Pro y GPT-5 Thinking.

En nuestra prueba de referencia, el Ring-1T tuvo un buen desempeño, ocupando el segundo lugar solo detrás del GPT-5 de OpenAI en la mayoría de las pruebas. Ant dijo que el Ring-1T mostró el mejor rendimiento de todos los modelos de peso abierto que probó.

El modelo registró una puntuación del 93,4% en la clasificación AIME 25, sólo superado por GPT-5. En programación, el Ring-1T superó tanto a DeepSeek como a Qwen.

«Esto indica que nuestro conjunto de datos cuidadosamente compilado constituye el sólido desempeño del Ring-1T en aplicaciones de programación, lo que forma una base sólida para futuros esfuerzos en aplicaciones proxy», dijo la compañía.

Ring-1T muestra cuánto han invertido las empresas chinas en los modelos

Ring-1T es el último modelo de China que pretende acabar con GPT-5 y Gemini.

Las empresas chinas han estado lanzando modelos impresionantes a un ritmo rápido desde el lanzamiento sorpresa de DeepSeek en enero. La empresa matriz de Ant, Alibabalanzado recientemente Qwen3-Omniun modelo multimedia que unifica de forma nativa texto, imagen, audio y vídeo. DeepSeek también ha seguido mejorando sus modelos y, a principios de este mes, Lanzamiento de DeepSeek-OCR. Este nuevo paradigma reinventa cómo los modelos procesan la información.

Mientras Ring-1T y Ant desarrollan nuevos métodos para entrenar y escalar modelos muy grandes, la batalla por el dominio de la IA entre EE. UU. y China continúa en pleno apogeo.

Enlace de origen

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba