¡Microsoft lanza Phi-4-Rase-Plus, un modelo pequeño, potente, abierto y abierto!

Únase a boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo para cubrir la inteligencia artificial líder en la industria. Obtenga más información
Investigación de Microsoft Anunció el lanzamiento de Phi-4-Rrasing-PlusUn modelo de lenguaje de peso abierto está diseñado para tareas que requieren un pensamiento profundo y organizado.
Dependiendo de la estructura PHI-4 previamente liberada, el nuevo modelo fusiona el aprendizaje sujeto a la supervisión y el refuerzo para proporcionar un rendimiento mejorado en los estándares en tareas de matemáticas, ciencias, codificación y lógica.
Phi-4-Rasning-Plus es un modelo de convertidor denso de 14 mil millones de codificación que solo confirma la calidad en la escala. Su capacitación incluyó 16 mil millones de símbolos de 8.3 mil millones de ellos grupos únicos de datos artificiales e ingenio en Internet.
La etapa de aprendizaje de refuerzo (RL), utilizando aproximadamente 6400 problemas para centrarse en las matemáticas, refinó las capacidades de pensamiento típicas.
El modelo se lanzó a continuación un Instituto de Tecnología de Massachusetts -Nable su uso de aplicaciones comerciales e instituciones amplias, control o destilación, sin restricción, que es compatible con los marcos de inferencia generalizados, incluidos los abogados de los transformadores faciales, VLM, Llama.CP y Ollama.
Microsoft proporciona recomendaciones detalladas sobre parámetros de inferencia y coordinación de la demanda del sistema para ayudar a los desarrolladores a obtener el máximo beneficio del modelo.
Supere los modelos más grandes
El desarrollo del modelo refleja la creciente concentración de Microsoft en el entrenamiento de modelos más pequeños capaces de competir con sistemas mucho más grandes en el rendimiento.
A pesar de su tamaño relativamente modesto, el Phi-4-Rasioning-Plus excede los modelos más grandes en peso abierto, como Deepseek-R1-Distill-70b en una serie de estándares difíciles.
En la prueba de matemáticas del AIME 2025, por ejemplo, se ofrece una precisión promedio más alta para aprobar las treinta preguntas en el primer intento (un logro conocido como «Pass@1») del modelo de destilación del conductor 70B, y aborda el rendimiento de Deepseek-R1 en sí, que es mucho más grande en los parámetros 671B.
Pensamiento organizado al establecer
Para lograr esto, Microsoft utilizó una estrategia de entrenamiento centrada en datos.
Durante la fase de control de la supervisión, el modelo fue entrenado utilizando una mezcla coordinada de increíble pensamiento sintético y demandas de alta calidad.
Hubo una de las principales innovaciones en el enfoque de capacitación es el uso de resultados de pensamiento organizado con una marca especial
y Símbolos.
Este es el modelo para separar los pasos de pensamiento medio de la respuesta final, lo que mejora tanto la transparencia como la cohesión para resolver problemas largos.
Refuerzo de aprendizaje por precisión y profundidad
Después del ajuste del rendimiento, Microsoft ha utilizado el aprendizaje basado en resultados específicamente, el algoritmo de mejora RPO (GRPO) para mejorar la precisión y la eficiencia de la salida del modelo.
La función de recompensa RL está diseñada para lograr un equilibrio entre el derecho con el realismo, castigar la repetición e imponer consistencia de coordinación. Esto condujo a respuestas más largas pero más pensantes, especialmente en las preguntas en las que el modelo inicialmente carece de confianza.
Mejoras restricciones de investigación e ingeniería
El objetivo de PHI-4-Rrasing-Plus tiene como objetivo usar en aplicaciones que se beneficien del pensamiento de alta calidad bajo las restricciones de memoria o comino. Admite el contexto del contexto de 32,000 por defecto y mostró un rendimiento estable en experiencias de 64,000 símbolos.
Es mejor usarlo en una preparación similar al chat y conduce de manera óptima con el sistema del sistema que lo guía explícitamente a la mente a través de los problemas paso a paso antes de proporcionar una solución.
Amplias pautas de prueba de seguridad y uso
Microsoft reproduce el formulario como buscador y componente del IQ Inseract en lugar de resolver la proyección de todas las tareas del estuario.
Se aconseja a los desarrolladores que evalúen cuidadosamente el rendimiento, la seguridad y la equidad antes de publicar el modelo en altos riesgos o entornos organizados.
Phi-4-Rase-Plus ha sufrido una evaluación de seguridad intensiva, incluida la victoria roja del equipo de Microsoft AI Red Team y estándares con herramientas como Toxigen para evaluar sus respuestas a través de categorías de contenido sensible.
Según Microsoft, esta versión muestra que a través de tecnologías de datos y tecnologías de capacitación cuidadosamente coordinadas, los modelos pequeños pueden proporcionar un rendimiento lógico fuerte: acceso democrático abierto al arranque.
A continuación se muestra una versión revisada del departamento de antigüedades de la Fundación en un tono más técnico similar a las noticias, en línea con la publicación de tecnología empresarial:
Los efectos de los tomadores de decisiones técnicas de las instituciones
La versión PHI-4-Plus puede proporcionar oportunidades significativas para los interesados técnicos para las instituciones que administran el desarrollo de modelos de inteligencia artificial, coincidencia o infraestructura de datos.
Para los ingenieros de inteligencia artificial y los modelos de gerentes de ciclo de vida, el tamaño del parámetro 14B del modelo ofrece un rendimiento estándar competitivo una opción aplicable para un pensamiento de alto rendimiento sin requisitos de infraestructura para modelos mucho más grandes. Proporciona su compatibilidad con marcos como abrazar los adaptadores faciales, VLM, llama.cpp y ollama a través de las chimeneas de varias instituciones, incluidos los entornos descalzos y de servidores.
Puede encontrar a los equipos responsables de publicar modelos de aprendizaje automatizados y ampliar su alcance de apoyo para el modelo de 32k-Aken-Can alcanzando 64,000 en la prueba en particular en casos de uso pesado, como análisis legal, garantía de calidad técnica o modelado financiero. La estructura integrada de la separación de la cadena de pensamiento de la respuesta final también puede simplificar la integración en fachadas donde se necesita una explicación o escrutinio.
Para los equipos de inteligencia inteligentes, el Phi-4-Eracting-Plus ofrece una estructura típica que puede quemarse más fácilmente en las tuberías con restricciones de recursos. Esto está relacionado con los escenarios en los que el pensamiento debe ocurrir en el tiempo real bajo las restricciones de comino o costo. Su capacidad para generalizar los problemas de dominio, incluido NP, como 3SAT y TSP, sugiere un beneficio en la planificación de algoritmos y el uso de soporte de decisiones de una manera que excede explícitamente a los dirigidos durante la capacitación.
Los hilos de ingeniería de datos también pueden considerar coordinar el pensamiento en el diseñador de modelos para reflejar los pasos para resolver problemas intermedios, un mecanismo para rastrear la consistencia lógica a través de secuencias largas de datos organizados. El formato de salida estructurado se puede combinar en capas de verificación de salud o sistemas de registro para respaldar la aclaración de datos ricos en datos.
Desde el punto de vista de la gobernanza y la seguridad, el Phi-4-Eracting-Plus incluye múltiples capas de seguridad después de capacitar y someterse a una prueba agresiva de Microsoft International Ai Red. Para las organizaciones sujetas a requisitos de cumplimiento o escrutinio, esto puede reducir los gastos generales para desarrollar el funcionamiento de la alineación asignada desde el punto cero.
En general, Phi-4-Plus explica cómo la locura de la lógica iniciada por la serie «O» de «OpenAI y Deepseek R1 continúa acelerando modelos y avanzando a los modelos más pequeños y más fáciles y los precios son asequibles y personalizados.
Para los técnicos a cargo de la gestión del desempeño, la expansión, el costo y los riesgos, proporciona una alternativa normativa e interpretable que puede evaluarse e integrarse de manera flexible, ya sea al final del razonamiento aislado, las herramientas compactas o los sistemas de IA de generación completa.
Enlace de origen