Únase a boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo para cubrir la inteligencia artificial líder en la industria. Obtenga más información


Una carrera de modelos de código abierto continúa siendo más interesante.

hoy , Instituto Internacional de Amnistía (AI2) Apareció por primera vez en la última entrada en la carrera con el lanzamiento del modelo de lenguaje de código abierto (LLM). El nuevo modelo no coincide con las capacidades Operai 4O, sino que el modelo V3 Deepseek excede los estándares críticos.

Esta no es la primera vez que AI2 hace reclamos audaces sobre un nuevo modelo. En noviembre de 2024, la compañía lanzó su primera versión de Tülu 3, que contiene 8-Lery. En ese momento, AI2 afirmó que el modelo estaba igualmente con el último GPT-4, Claude de Claud’s Anthrope y Gemini de Google. La gran diferencia es que Tülu 3 es de código abierto. AI2 también reclamó nuevamente en septiembre de 2024 que sus modelos Molmo lograron superar el GPT-4O y Claude en algunos criterios.

Aunque los datos de rendimiento estándar son interesantes, los más útiles son las innovaciones de capacitación que permiten el nuevo modelo AI2.

Pague Post Training para limitar

La gran penetración de Tülu 3 405b se basa en la primera vez en la innovación con la primera versión Tülu 3 en 2024. Esta versión utilizó un conjunto de tecnologías avanzadas posteriores a la capacitación para mejorar.

A través del modelo Tülu 3 405B, las técnicas posteriores al entrenamiento se impulsaron aún más, utilizando una metodología avanzada después del entrenamiento que combina control de supervisión, aprendizaje de preferencias y el nuevo enfoque de aprendizaje que ha demostrado ser excepcional en los estándares más grandes.

«Las recetas de Tülu 3 después del entrenamiento Tülu 3-405B, nuestro modelo más grande, completamente abierto después del entrenamiento y el estadio al proporcionar recetas abiertas, datos, símbolos y empoderamiento de desarrolladores e investigadores para lograr el rendimiento similar a los modelos cerrados de primera clase. .

El avance de la inteligencia artificial de código abierto después de entrenar con RLVR

El entrenamiento posterior es algo que hacen otros modelos, incluido Deepseek V3 también.

La principal innovación que ayuda a distinguir entre Tülu 3 es el «aprendizaje de refuerzo AI2 de las bonificaciones verificadas» (RLVR).

A diferencia de los planes de estudio de entrenamiento tradicionales, RLVR utiliza resultados de verificación y comprobación para resolver los problemas matemáticos adecuadamente para ajustar el rendimiento del modelo. Esta técnica, cuando se combina con la mejora de la preferencia directa (DPO) y los datos de capacitación coordinados cuidadosamente, permitió que el modelo lograra una mejor precisión en tareas de pensamiento complejo mientras mantenía fuertes propiedades de seguridad.

Las principales innovaciones artísticas incluyen la aplicación RLVR:

  • Tratamiento paralelo efectivo en 256 unidades de procesamiento de gráficos
  • Coincidencia de peso óptima
  • Distribución de una cuenta equilibrada a través de 32 contratos
  • Implementación de VLLM integrada con la dirección del tensor paralelo 16

El sistema RLVR mostró resultados mejorados en la escala del maestro 405B en comparación con los modelos más pequeños. El sistema también mostró resultados particularmente fuertes en las evaluaciones de seguridad, superando el rendimiento profundo V3, Llama 3.1 y Nous Hermes 3. En particular, el marco RLVR es la efectividad del modelo, lo que indica posibles beneficios de aplicaciones extensas.

Cómo comparar Tülu 3 405b con GPT-4O y Deepseek V3

El modelo competitivo se observa especialmente en la escena actual de Amnistía Internacional.

Tülu 3 405B no solo coincide con las capacidades GPT-4O, sino que también supera a Deepseek V3 en algunas áreas, especialmente con los estándares de seguridad.

A través de un grupo de 10 estándares internacionales de amnistía, incluidos los estándares de seguridad, AI2 informó que el Tülu 3 405B RLVR fue un puntaje promedio de 80.7, sin pasar por Deepseek V3 75.9. Sin embargo, Tülu no es bueno en GPT-4O, que registró 81.6. En general, los estándares indican que Tülu 3 es 405b, al menos muy competitivo con GPT-4O y Deepsek V3 a través de estándares.

¿Por qué es el código abierto de inteligencia artificial y cómo hacer AI2 de manera diferente?

Sin embargo, lo que hace que Tülu 3 405b sea diferente para los usuarios es cómo AI2 puso a disposición el modelo.

Hay mucho ruido en el mercado de inteligencia artificial en torno al código abierto. Deepseek dice que su modelo es de código abierto, así como el Llama 3.1 de Meta, que Tülu 3 es 405b es superior a él.

Con Deepseek y Llama, los formularios están disponibles para su uso; Y algunas instrucciones de software, pero no todas, están disponibles.

Por ejemplo, Deepseek-R1 ha lanzado el modelo de modelo y pesas previamente capacitados, pero no datos de entrenamiento. AI2 adopta un enfoque diferente en un intento de ser más abierto.

«No nos beneficiamos de ningún conjunto de datos cerrados». «Al igual que con nuestro primer lanzamiento Tülu 3 en noviembre de 2024, emitimos toda la ley de infraestructura».

Agregó que el enfoque completamente abierto para AI2, que incluye datos y código de capacitación y modelos, garantiza que los usuarios puedan personalizar fácilmente su canalización para todo, desde elegir datos hasta evaluación. Los usuarios pueden acceder a un conjunto completo de modelos Tülu 3, incluido Tülu 3-405B, en AI2’s Tülu 3 páginasO prueba de función Tülu 3-405B a través del estadio AI2 Espacio experimental.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí