Juntos, el multiplicador adaptativo de IA de ATLAS ofrece una aceleración de inferencia del 400 % al aprender de cargas de trabajo en tiempo real.

Las empresas que amplían las implementaciones de IA están chocando contra un muro de rendimiento invisible. ¿El culpable? Se corrigieron los batidores que no podían seguir el ritmo de las cargas de trabajo cambiantes.

Los especuladores son modelos de IA más pequeños que funcionan junto con modelos lingüísticos más grandes durante la inferencia. Formulan múltiples códigos directos, que luego el modelo principal verifica en paralelo. Esta técnica (llamada decodificación especulativa) se ha vuelto esencial para las organizaciones que intentan reducir los costos de inferencia y la latencia. En lugar de generar tokens uno por uno, el sistema puede aceptar varios tokens a la vez, lo que mejora enormemente el rendimiento.

Juntos Amnistía Internacional Hoy anuncié una nueva investigación y un sistema llamado ATLAS (AdapTive-LeArning Speculator System) que tiene como objetivo ayudar a las instituciones a superar el desafío de los especuladores persistentes. Esta tecnología proporciona optimización de inferencia de autoaprendizaje que puede ayudar a ofrecer un rendimiento de inferencia hasta un 400 % más rápido que el nivel de rendimiento básico disponible en las técnicas de inferencia actuales, como vLLM. El sistema aborda un problema crítico: a medida que evolucionan las cargas de trabajo de la IA, las velocidades de inferencia se degradan, incluso con especuladores dedicados.

la empresa que ella tuvo su comienzo En 2023, la atención se centrará en Mejorar la heurística En la plataforma de IA de la organización. A principios de este año la empresa Recaudó 305 millones de dólares. A medida que crecen la adopción y la demanda de los clientes.

"Las empresas con las que trabajamos generalmente, a medida que escalan, ven cambios en las cargas de trabajo y luego no ven la misma velocidad de ejecución especulativa que antes." Trey Dow, científico jefe de Together AI, dijo a VentureBeat en una entrevista exclusiva. "A estos revendedores generalmente no les va bien cuando su área de carga de trabajo comienza a cambiar."

Nadie habla del problema de la deriva en la carga de trabajo

La mayoría de los especuladores en la producción actual son "fijado" Modelos. Se entrenan una vez en un conjunto de datos estáticos que representan las cargas de trabajo esperadas y luego se implementan sin ninguna adaptabilidad. Empresas como Meta y Mistral envían revendedores previamente capacitados junto con sus modelos principales. Las plataformas de inferencia como vLLM utilizan estas especulaciones estáticas para aumentar el rendimiento sin cambiar la calidad del resultado.

Pero hay un problema. A medida que se desarrolla el uso de la inteligencia artificial en una organización, la precisión del raqueta fija disminuye.

"Si usted es una empresa que produce agentes de programación y la mayoría de sus desarrolladores escriben en Python y, de repente, algunos de ellos cambian a escribir Rust o C, entonces verá que la velocidad comienza a disminuir." Dao explicó. "El especulador tiene un desajuste entre lo que ha sido entrenado para hacer y la carga de trabajo real."

Este sesgo en la carga de trabajo representa un impuesto oculto a la ampliación de la IA. Las empresas aceptan un desempeño deteriorado o invierten en reentrenar a especuladores dedicados. Este proceso solo captura una instantánea en el tiempo y rápidamente queda obsoleto.

Cómo funcionan los especuladores adaptativos: un enfoque de modelo dual

ATLAS utiliza una estructura de especulación dual que combina estabilidad y adaptación:

El especulador estático -El modelo pesado entrenado con datos amplios proporciona un rendimiento de referencia consistente. es como "Piso de velocidad."

revendedor adaptativo – Un modelo liviano que aprende continuamente del tráfico en vivo. Se especializa en dominios emergentes y patrones de uso.

Controlador consciente de la confianza – La capa de coordinación elige dinámicamente qué raqueta quieres usar. Controla la especulación. "Esperar" Basado en grados de confianza.

"Antes de que el batidor adaptativo aprenda algo, todavía tenemos el batidor fijo para ayudar a proporcionar el aumento de velocidad inicialmente," Ben Athiwaratakon, científico de inteligencia artificial de Together AI, explicó a VentureBeat. "Una vez que el delantero adaptativo adquiere más confianza, la velocidad aumenta con el tiempo."

La innovación técnica radica en equilibrar la tasa de aceptación (la cantidad de veces que el modelo objetivo coincide con los tokens borrador) y el tiempo de llegada del borrador. Dado que el modelo adaptativo aprende de los patrones de tráfico, el controlador se basa más en paletas livianas y en el alcance hacia adelante. Esto duplica las ganancias de rendimiento.

Los usuarios no necesitan ajustar ningún parámetro. "Del lado del usuario, los usuarios no tienen que operar ninguna perilla;" Dijo Dow. "Por nuestra parte, hemos girado estos mandos para que los usuarios puedan ajustarlos en una configuración que consiga una buena velocidad."

Rendimiento que rivaliza con la silicona personalizada

En conjunto, las pruebas de IA muestran que ATLAS alcanza los 500 tokens por segundo en DeepSeek-V3.1 cuando está completamente adaptado. Aún más impresionante es que estos números en las GPU Nvidia B200 igualan o superan los chips de inferencia especializados como tu cachorro Hardware personalizado.

"La mejora del software y los algoritmos permite cerrar la brecha con hardware verdaderamente especializado." Dijo Dow. "Hemos visto 500 códigos por segundo en estos modelos masivos, lo que es más rápido que algunos chips dedicados."

La aceleración del 400% que la compañía afirma concluir representa el efecto acumulativo del conjunto de optimización Turbo de Together. La cuantificación del 4PM proporciona una aceleración del 80% con respecto a la base de referencia del 8PM. El turbo batidor fijo añade otra ganancia del 80-100 %. El sistema adaptativo se encuentra en la parte superior. Cada mejora multiplica los beneficios de las demás.

En comparación con los motores de inferencia estándar como vllm O TensorRT-LLM de Nvidia, la mejora es significativa. En conjunto, la tecnología de IA mide la línea de base más sólida entre las dos para cada carga de trabajo antes de aplicar optimizaciones especulativas.

Intercambio de cálculo de memoria

Las mejoras en el rendimiento surgen de la explotación de una ineficiencia fundamental en el razonamiento moderno: el poder computacional desperdiciado.

Dow explicó que, por lo general, durante la inferencia, gran parte de la potencia informática no se utiliza por completo.

"Durante la inferencia, que en realidad es la carga de trabajo dominante hoy en día, se utiliza principalmente el subsistema de memoria," Dijo.

La decodificación especulativa sacrifica el cálculo inactivo para minimizar los accesos a la memoria. Cuando el modelo genera un token a la vez, está vinculado a la memoria. La GPU permanece inactiva mientras espera memoria. Pero cuando el especulador propone cinco tokens y el modelo objetivo los verifica simultáneamente, la utilización de la computación aumenta mientras que el acceso a la memoria permanece aproximadamente constante.

"La cantidad total de cálculo para generar cinco códigos es la misma, pero sólo había que acceder a la memoria una vez, en lugar de cinco veces." Dijo Dow.

Piense en ello como un almacenamiento en caché inteligente para la IA.

Para los equipos de infraestructura familiarizados con la optimización de bases de datos tradicionales, la especulación adaptativa sirve como una capa de almacenamiento en caché inteligente, pero con una diferencia crucial.

Los sistemas de almacenamiento en caché tradicionales como Redis o Memcached requieren coincidencias exactas. Puede almacenar exactamente el mismo resultado de la consulta y recuperarlo cuando vuelva a ejecutar esa consulta específica. Los revendedores adaptativos funcionan de manera diferente.

"Puedes verlo como una forma inteligente de almacenar en caché, no exactamente almacenar en caché, sino detectar algunos de los patrones que ves," Dao explicó. "En términos generales, vemos que estás trabajando con un código similar, o trabajando con un código similar, ya sabes, y controlando la cuenta de manera similar. Entonces podemos predecir lo que dirá el gran modelo. Estamos mejorando cada vez más en predecir eso."

En lugar de almacenar respuestas exactas, el sistema aprende patrones sobre cómo el modelo genera tokens. Reconoce que si está editando archivos Python en una determinada base de código, es más probable que se produzcan determinadas secuencias de código. El especulador se adapta a esos patrones, mejorando sus predicciones con el tiempo sin necesidad de entradas coincidentes.

Casos de uso: capacitación en RL y cargas de trabajo en evolución

Hay dos escenarios institucionales que se benefician particularmente de los especuladores adaptativos:

Mejorar el aprendizaje de la formación: Los especuladores consistentes rápidamente se desalinean a medida que la política evoluciona durante la capacitación. ATLAS se adapta constantemente a medida que cambia la distribución de políticas.

Cargas de trabajo avanzadas: A medida que las organizaciones descubren nuevos casos de uso de la IA, la composición de la carga de trabajo cambia. "Tal vez comenzaron a usar IA para chatbots, pero luego se dieron cuenta de que podían escribir código, así que comenzaron a cambiar al código." Dijo Dow. "O se dan cuenta de que estos sistemas de IA en realidad pueden activar herramientas y controlar computadoras y hacer contabilidad y cosas así."

En una sesión de codificación dinámica, el sistema adaptativo puede especializarse en la base de código específica que se está editando. Estos son archivos que no fueron vistos durante el entrenamiento. Esto aumenta las tasas de aceptación y la velocidad de decodificación.

Qué significa para las organizaciones y el ecosistema de inferencia

ATLAS ahora está disponible en los puntos finales personalizados de Together AI como parte de la plataforma sin costo adicional. Los más de 800.000 desarrolladores de la empresa (frente a los 450.000 de febrero) tienen acceso a la optimización.

Pero las implicaciones más amplias se extienden más allá del producto de un solo proveedor. El cambio de la optimización estática a la adaptativa representa un replanteamiento fundamental de cómo funcionan las plataformas de inferencia. A medida que las organizaciones implementen la IA en múltiples dominios, la industria necesitará ir más allá de los modelos entrenados una sola vez hacia sistemas que aprendan y mejoren continuamente.

Históricamente, Together AI ha lanzado algunas de sus tecnologías de investigación como código abierto y ha colaborado con proyectos como vLLM. Aunque el sistema ATLAS totalmente integrado es propietario, algunas de las tecnologías subyacentes pueden, en última instancia, afectar el ecosistema de inferencia más amplio.

Para las empresas que buscan liderar la IA, el mensaje es claro: los algoritmos adaptativos en hardware básico pueden igualar el silicio personalizado por una fracción del costo. A medida que este enfoque madura en toda la industria, la optimización del software está superando cada vez más al hardware especializado.

Enlace de origen

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba