Más allá de los estándares: cómo se presentan Deepseek-R1 y O1 en las tareas del mundo real

Únase a boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo para cubrir la inteligencia artificial líder en la industria. Obtenga más información

Deepseek-R1 ciertamente ha creado mucha emoción y ansiedad, especialmente para el oponente Opnai O1. Por lo tanto, los ponemos en la prueba en comparación junto con algunas tareas menores de análisis de datos y tareas de investigación de mercado.

Para poner los modelos por igual, utilizamos la desconcertante búsqueda de profesionales, que ahora admite tanto O1 como R1. Nuestro objetivo era mirar más allá de los criterios y saber si los modelos podrían realizar las tareas designadas que requieren recopilar información de la web, elegir las partes correctas de los datos y realizar tareas simples que requieren un gran esfuerzo manual.

Ambos modelos son impresionantes, pero cometen errores cuando las afirmaciones carecen de privacidad. O1 es un poco mejor en las tareas de pensamiento, pero la transparencia R1 le da una ventaja en los casos (y habrá algunos) a medida que comete errores.

A continuación se muestra un colapso de un pequeño número de nuestras experiencias y enlaces a las páginas de confusión donde puede revisar los resultados usted mismo.

Calcule los rendimientos de las inversiones de la web

Nuestra primera prueba se midió si los modelos podrían calcular los rendimientos de inversión (ROI). Observamos un escenario en el que el usuario invirtió $ 140 en los maravillosos Seven (Alphabet, Amazon, Apple, Meta, Microsoft, Nvidia, Tesla) el primer día de cada mes de enero a diciembre de 2024. Le pedimos al formulario que calcule el valor de la cartera en la fecha actual.

Para lograr esta tarea, el modelo tendrá que retirar la información del precio de MAG 7 para el primer día de cada mes, y dividir la inversión mensual por igual a través de acciones ($ 20 por acción), y su belleza y calcular el valor de la cartera de acuerdo con al valor de las acciones en la fecha actual.

En esta tarea, ambos modelos fallaron. O1 devolvió la lista de precios de las acciones En enero de 2024 y enero de 2025 junto con una fórmula para calcular el valor de la cartera. Sin embargo, no pude calcular los valores correctos y dije principalmente que no habría retorno de la inversión. Por otro lado, R1 cometió un error de inversión solo en enero de 2024 y calculó los ingresos para enero de 2025.

*El seguimiento del pensamiento sobre O1 no proporciona suficiente información*

Sin embargo, lo interesante fue el proceso de pensar en modelos. Si bien O1 no ha proporcionado muchos detalles sobre cómo alcanzó sus resultados, R1 Logic ha sido rastreada Mostró que no tenía la información correcta porque el motor de recuperación en confusión no pudo obtener datos de acciones mensuales (muchas aplicaciones de generación que estaban equipadas no faltan debido a la falta de un modelo en capacidades sino por una mala recuperación). Esto ha demostrado ser una parte importante de los comentarios que nos llevaron a la próxima experiencia.

*La pista de pensamiento R1 revela que le falta información*

Piense en el contenido del archivo

Decidimos ejecutar la misma experiencia que antes, pero en lugar de exigir que el modelo recupere información de la web, decidimos proporcionarla en un archivo de texto. Para esto, copiamos los datos mensuales para cada parte de Yahoo! Financiación en un archivo de texto y se lo dio al modelo. El archivo contenía el nombre de cada acción además de la tabla HTML, que contiene el precio del primer día de cada mes de enero a diciembre de 2024 y el último precio registrado. Los datos no se han limpiado para reducir el voltaje manual y probar si el modelo puede elegir las partes correctas de los datos.

Una vez más, ambos modelos no pudieron proporcionar la respuesta correcta. Parece que O1 ha extraído datos Desde el archivo, pero sugiera que realice la cuenta manualmente en una herramienta como Excel. Pensar fue muy misterioso y no tenía ninguna información útil para explorar el modelo. R1 tampoco falló No proporcionó una respuesta, pero el seguimiento lógico contiene mucha información útil.

Por ejemplo, estaba claro que el modelo había analizado adecuadamente los datos HTML para cada stock y pudo extraer la información correcta. También logró realizar inversiones durante un mes por separado, y embellecerlas y calcular el valor final de acuerdo con el último precio de las acciones en la tabla. Sin embargo, este valor final permaneció en la cadena de pensamiento y no pudo alcanzar la respuesta final. El modelo también estaba confundido por una fila en la tabla de Nvidia, que distingue las acciones 10: 1 de la compañía el 10 de junio de 2024, y terminó con mi aprecio por el valor final de la billetera.

*R1 oculto los resultados en el seguimiento del pensamiento con información sobre el lugar donde ocurrió un error*

Nuevamente, el verdadero distintivo no fue el mismo resultado, sino la capacidad de investigar cómo el modelo alcanzó su respuesta. En este caso, R1 nos proporcionó una mejor experiencia, lo que nos permite comprender las restricciones del modelo y cómo podemos reformular nuestro reclamo y coordinar nuestros datos para obtener mejores resultados en el futuro.

Comparación de los datos web

Otra experiencia exigimos por el modelo para comparar las estadísticas de cuatro posiciones principales en la Liga Profesional Americana y determinar cuál tiene la mejor mejora en el gol de campo (FG %) desde 2022/2023 hasta las temporadas de 2023/2024. Esta tarea del modelo requería un pensamiento de varios pasos en diferentes puntos de datos. La pesca en el reclamo fue que incluía a Victor y Yumanama, quienes solo ingresaron a la liga como ascensor en 2023.

La recuperación de esta afirmación fue mucho más fácil, ya que las estadísticas del jugador se informan ampliamente en Internet y generalmente se incluyen en los perfiles de Wikipedia y NBA. Ambos modelos respondieron correctamente (es Giannis si tenías curiosidad), aunque se basaban en las fuentes que usaban, sus números eran algo diferentes. Sin embargo, no se dieron cuenta de que Wemby no estaba calificado para comparar y recopilar otras estadísticas de su tiempo en la Liga Europea.

En su respuesta, R1 Hizo un mejor colapso De los resultados con el cronograma de comparación junto con los enlaces a las fuentes que utilizó para responderlas. Habilitamos el contexto adicional para corregir el reclamo. Después de haber modificado la afirmación específica de que estábamos buscando FG % de las temporadas de la Liga Profesional Americana, la forma Wemby excluyó correctamente los resultados.

Haga una palabra simple para reclamar toda la diferencia en el resultado. Esto es algo que una persona conoce implícitamente. Sea específico tanto como pueda en sus demandas e intente incluir la información que una persona asume implícitamente.

El fallo final

Los modelos de pensamiento son herramientas fuertes, pero aún tienen formas de seguir antes de ser completamente confiables con las tareas, especialmente a medida que otros componentes de las aplicaciones de modelos de lenguaje grande (LLM) continúan desarrollándose. De nuestras experiencias, tanto O1 como R1 aún pueden cometer errores básicos. Aunque muestra resultados impresionantes, aún necesitan una pequeña mano para dar resultados precisos.

Idealmente, el modelo de pensamiento debería poder explicar al usuario cuando carece de información para la tarea. En cambio, el seguimiento del pensamiento en el modelo debería poder dirigir a los usuarios para comprender mejor los errores y corregir sus afirmaciones de aumentar la precisión y la estabilidad de las respuestas del modelo. En este sentido, R1 era la ventaja. Esperamos proporcionar modelos de pensamiento futuro, incluida la serie O33 de OpenAI, para los usuarios más visión y control.

Visiones diarias sobre casos de uso comercial con VB diario

Si desea persuadir a su jefe en el trabajo, ha cubierto VB a diario. Le damos la precedencia periodística interna sobre lo que las empresas hacen con la inteligencia artificial obstétrica, desde las transformaciones organizacionales hasta las operaciones de publicación práctica, para que pueda compartir visiones del máximo retorno de la inversión.

Lea nuestra Política de privacidad

Gracias por suscribirse. Consulte más boletines de VB aquí.

Ocurrió un error.

Más allá de los estándares: cómo se presentan Deepseek-R1 y O1 en las tareas del mundo real

Calcule los rendimientos de las inversiones de la web

Piense en el contenido del archivo

Comparación de los datos web

El fallo final

Curtis Renaud

Deja una respuesta Cancelar la respuesta

RI Govt dijo el memorando inicial de memorización para unirse a la OCDE en la etapa final

Seis heridos tras accidente de avión de United Airlines

Los 76ers superan a los Cavaliers y se quedan sin partidos en la Final Seven

Ottawa pide prestados 1.000 millones de dólares para utilizar Canada Post Canada

Trump quiere que los estados paguen más por desastres como los incendios forestales de Los Ángeles. Así funciona ahora FEMA

Nuestro SSD portátil favorito bajó a $70, además de otras mejores ofertas tecnológicas de la semana

Calcule los rendimientos de las inversiones de la web

Piense en el contenido del archivo

Comparación de los datos web

El fallo final

Curtis Renaud

Publicaciones relacionadas

LAPD lanza una investigación de «profundidad de buceo» sobre las respuestas de los oficiales después de los asesinatos del valle

Aprenda sobre King of Ai Coding: Detrones de edición Gemini 2.5 PRO de Google Claude 3.7 Sonnet

Un jugador de fútbol universitario acusado de muerte después de la batalla de Bar Florida

El accionista: los residentes de California deben negarse a abandonar a los inmigrantes entre nosotros

Deja una respuesta Cancelar la respuesta

RI Govt dijo el memorando inicial de memorización para unirse a la OCDE en la etapa final

Seis heridos tras accidente de avión de United Airlines

Los 76ers superan a los Cavaliers y se quedan sin partidos en la Final Seven

Ottawa pide prestados 1.000 millones de dólares para utilizar Canada Post Canada

Trump quiere que los estados paguen más por desastres como los incendios forestales de Los Ángeles. Así funciona ahora FEMA

Nuestro SSD portátil favorito bajó a $70, además de otras mejores ofertas tecnológicas de la semana