Jamba razonamiento 3B de AI21 redefine el significado

La última incorporación a la ola de pequeños modelos para instituciones proviene de Ai21 es buenoQue apuesta a que traer modelos a los dispositivos liberará el tráfico en los centros de datos.

Razonamiento Jamba 3B de AI21, que es un modelo fuente «pequeño» que puede ejecutar un pensamiento expandido, generar instrucciones de software y respuesta basadas en la verdad de la Tierra. El razonamiento de Jamba 3B trata de más de 250,000 iconos únicos y puede ejecutar inferencia en dispositivos avanzados.

La compañía dijo que el razonamiento de Jamba 3B funciona en dispositivos como computadoras portátiles y teléfonos móviles.

Uri Joshin, co -silla de AI21, dijo a VentureBeat que la compañía ve más uso institucional de modelos pequeños, principalmente debido al hecho de que la transferencia de la mayor parte de la inferencia a los dispositivos conduce a la edición de centros de datos.

«Lo que vemos ahora en la industria es un problema económico en el que hay centros de datos muy costosos, y los ingresos que se generan a partir de los centros de datos para el consumo promedio de todas sus diapositivas muestran que las cuentas no se suman», dijo Joshen.

Agregó que en el futuro, «la industria en general será híbrida, lo que significa que algunos cálculos estarán en los dispositivos localmente, mientras que otras inferencias se trasladarán a las unidades de procesamiento de gráficos».

Fue probado en el dispositivo MacBook

Jamba Razoning 3B combina estructura de mamba y transformadores para permitirle operar una ventana simbólica de 250,000 en los dispositivos. AI21 dijo que podía hacer 2-4 veces las velocidades de inferencia. Jacan dijo que Mampa Engineering ha contribuido en gran medida a la velocidad del modelo.

La estructura híbrida del razonamiento Jamba 3B también permite reducir los requisitos de memoria, reduciendo así sus necesidades informáticas.

AI21 probó el modelo en un MacBook Pro estándar y descubrió que puede procesar 35 iconos distintos por segundo.

Joshin dijo que el modelo está funcionando mejor en tareas que incluyen pedir trabajos y herramientas basados ​​en políticas. Dijo que las solicitudes simples, como solicitar información sobre una reunión próxima y pedirle al formulario que cree una agenda para ello, se pueden hacer en dispositivos. Las tareas de pensamiento más complejas se pueden guardar para los grupos de GPU.

Pequeños modelos en instituciones

Las empresas se han encargado de utilizar una mezcla de modelos pequeños, algunos de los cuales están especialmente diseñados para su industria y otras son versiones extensas de LLM.

En septiembre Muerto Absoluto Mobilellm-R1, una familia de modelos de razonamiento Varía de 140 m a 950 m de parámetros femeninos. Estos modelos están diseñados para matemáticas, programación y pensamiento científico en lugar de aplicaciones de chat. Mobilellm-R1 se puede reproducir en dispositivos de computación restringidos.

Google‘s Gema Fue uno de los primeros pequeños modelos que aparecieron en el mercado, diseñado para operar en dispositivos móviles como computadoras portátiles y teléfonos móviles. Gemma desde entonces Expandido.

Compañías como Fico También comenzaron a construir sus propios modelos. FICO ha sido lanzado Su pequeño modelo del lenguaje concentrado FICO y la secuencia FICO concentrada que solo responderá las preguntas de financiamiento.

Joshen dijo que la gran diferencia que ofrece su modelo es que es más pequeño que la mayoría de los modelos, pero puede ejecutar tareas de pensamiento sin sacrificar la velocidad.

Prueba estándar

En la prueba de medición de rendimiento, el razonamiento Jamba 3B mostró un rendimiento fuerte en comparación con otros modelos pequeños, incluidos Reina 4 B, MuertoLlama 3.2B-3B y Phi-4-Mini de Microsoft.

Superó todos los modelos en la última prueba de examen de Ifbench y de la humanidad, aunque fue segundo después de Qwen 4 en MMLU-Pro.

Goshen dijo que la otra característica de modelos pequeños como el razonamiento 3B de Jamba es que es en gran medida una guía y proporciona mejores opciones de privacidad para las instituciones porque la inferencia no se envía a un servidor en otro lugar.

Él dijo: «Creo que hay un mundo en el que puede mejorar las necesidades de los clientes y probarlas, y los modelos que se mantendrán en dispositivos son una gran parte de él».

Enlace de origen

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba