La nueva tecnología Huawei de código abierto reduce las puntuaciones de LLM para que funcione en dispositivos menos potentes y de menor costo

Huawei Computing Laborat Un nuevo código abierto de cantidad Para modelos LLMS que tienen como objetivo reducir los requisitos de memoria sin sacrificar la calidad de la salida.
Se llama a la tecnología Sinq (tanque kigmat)Está diseñado para ser rápido, gratuito y fácil de integrar en el funcionamiento de los modelos actuales. El código para implementar esto fue proporcionado por el equipo de investigación de Huawei en Gyrroup y Abarcar Según la licencia Apache 2.0 y un amigo y amigo de las instituciones, permitiendo a las instituciones obtener, usarla, modificarla y publicarla comercialmente, todo esto de forma gratuita.
A través de modelos de diferentes tamaños, SINQ reduce el uso de la memoria 60-70%Dependiendo de la estructura y bit.
Esto lleva a modelos habilitadores que previamente se requerían que ejecutaran más de 60 GB de memoria ~ Configuración de 20 GB– Un factor de empoderamiento muy importante para operar modelos grandes en una sola unidad de procesamiento de gráficos desarrollados o incluso múltiples configuraciones de consumo.
Esto permite activar modelos que previamente necesitaban unidades de procesamiento de gráficos avanzados, como el A100 o H100 de NVIDIA, en dispositivos de costo mucho más bajo, como una unidad Nafidios guevors RTX 4090 (Alrededor de 1600 dólares), En lugar de los dispositivos de la institución, como A 100 80 GB ($ 19,000) O incluso H100 Unidades que Supera los 30,000 dólares.
Para los equipos que usan infraestructura en la nube, los ahorros son igualmente concretos. Las contrapartes basadas en A100 a menudo cuestan entre 3 y $ 4.50 por hora, mientras que las unidades de procesamiento de gráficos de 24 GB, como RTX 4090, están disponibles en muchos sistemas básicos por $ 1 a $ 1.50 por hora.
Con el tiempo, especialmente para cargas de razonamiento extendidas, esta diferencia puede alcanzar en gran medida Miles de dólares para reducir los costosCon la apertura de la publicación de LLM en grupos más pequeños, las estrellas de trabajo locales o la configuración de los consumidores estaban previamente unidos por la memoria.
Tratando el desafío de memoria en LLMS
Los modelos grandes a menudo requieren concesiones entre el rendimiento y el tamaño.
En la práctica, se utilizan redes nerviosas Los números de separador flotante Representar pesos y activaciones. El número de coma flotante puede expresar una amplia gama de valores (muy pequeño, muy grande, con piezas de rotura).
Esta flexibilidad es útil porque durante el entrenamiento e inferencia, los pesos y las activaciones pueden variar mucho. El uso del punto flotante para el modelo permite modificarse con precisión. (Por ejemplo, el peso puede ser 0.0023 o 123.45, y la coma flotante puede capturar ambos con precisión adecuada).
La finalización, un método que reduce la precisión del peso del peso, proporciona una ruta práctica para reducir el uso de la memoria, pero generalmente viene con modelos en la calidad del modelo, especialmente con una resolución de 4 bits o menos.
Cuando convierte estos valores de coma flotantes en formatos de precisión más bajos (como números correctos de 8 bits), los acerca.
Esto significa que está almacenando y calculando usando menos bits, que es más rápido y más eficiente en la memoria, pero corre el riesgo de perder la precisión (es decir, pequeños errores).
El truco radica cuidadosamente en el proceso de conversión para que el comportamiento del modelo permanezca casi como es, aunque funciona internamente con estimaciones más aproximadas de estos pesos y procesos de activación.
SINQ trata estas debilidades al proporcionar una solución de conexión y operación que proporciona un rendimiento fuerte incluso en entornos de baja resolución, sin la necesidad de calibración o dependencias entre las capas.
¿Cómo funciona Senk?
SINQ se acerca a las principales innovaciones:
Escala de doble eje: En lugar de usar un factor de escala para determinar la cantidad de matriz, SINQ utiliza un vector de medición separado para filas y columnas. Esto ayuda a aliviar los efectos de los valores extremistas y permite que la distribución del error de medición sea más flexible en toda la matriz.
Normalización similar a Sencorn-Knob: Se utiliza un algoritmo rápido inspirado en las repeticiones de Fregnhorn para normalizar las desviaciones normativas de las filas y columnas en la matriz. Esto ayuda a reducir lo que los autores llaman «el desequilibrio de la matriz», una nueva medida alternativa que ha demostrado ser más efectiva que las alternativas como la exclusividad para mejorar el rendimiento de la GAG.
La combinación de estas dos características de SINQ permite la superioridad a otras tecnologías libres de calibración, como la aproximación a la cantidad más cercana (RTN), HQQ, basada en Hadamard a través de múltiples estándares.
Rendimiento y compatibilidad
SINQ se evaluó a través de una amplia gama de estructuras y modelos, incluida la serie QWEN3, LLAMA y Deepseek.
En estándares como Wikitext2 y C4, SINQ reduce constantemente la confusión y la volatilidad en comparación con los métodos básicos, y a menudo se acerca o coincide con las soluciones de calibración.
También admite diagramas de GAG no uniformes como NF4 y se puede combinar con métodos de calibración como AWQ, lo que conduce a la alternativa A-SINQ. En la configuración de calibración, la tecnología A-SINQ funciona para reducir más la brecha a través de modelos exactos completos.
Con respecto a la eficiencia del tiempo de funcionamiento, SINQ mide los modelos a una velocidad de aproximadamente el doble de la velocidad de HQQ y más rápido más de 30 veces desde AWQ. Esto lo hace perfectamente adecuado para cada uno de los entornos de investigación y producción, ya que el tiempo para náuseas es un obstáculo práctico.
Código abierto y fácil de usar
Huawei Sinq como proyecto de código abierto bajo el empleo de Apache 2.0 y un amigo de las instituciones, con instrucciones de implementación y herramientas de repetición disponibles en GitHub:
El almacén incluye soporte para estimar los modelos de abrazaderas que utilizan solo unas pocas líneas de instrucciones de software, así como herramientas para ahorrar pesos cuantitativos y descargarlos. La configuración virtual proporciona un equilibrio entre la memoria y la precisión, y los usuarios pueden personalizar parámetros como el ancho de bits, una estrategia de agrupación y el tamaño del grupo en función de sus necesidades.
Los autores también proporcionan integración de evaluación a través de lm-eval
La biblioteca planea emitir modelos prefirentes para Huging Face Hub en el futuro cercano.
Esperar
Con la creciente demanda de modelos grandes que operan en dispositivos de consumo, las náuseas se han convertido en una herramienta esencial. SINQ tiene como objetivo reducir la barrera de entrada para implementar LLM, permitiendo a los desarrolladores e investigadores reducir los modelos de manera eficiente sin cuerpos significativos en calidad o compatibilidad.
Se planean más actualizaciones, incluida la integración con las transformaciones faciales para abrazos y las versiones anticipadas, lo que hace que valga la pena ver este proyecto en el campo de la GAG.