Únase a boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo para cubrir la inteligencia artificial líder en la industria. Obtenga más información


Deepseek-R1 ciertamente ha creado mucha emoción y ansiedad, especialmente para el oponente Opnai O1. Por lo tanto, los ponemos en la prueba en comparación junto con algunas tareas menores de análisis de datos y tareas de investigación de mercado.

Para poner los modelos por igual, utilizamos la desconcertante búsqueda de profesionales, que ahora admite tanto O1 como R1. Nuestro objetivo era mirar más allá de los criterios y saber si los modelos podrían realizar las tareas designadas que requieren recopilar información de la web, elegir las partes correctas de los datos y realizar tareas simples que requieren un gran esfuerzo manual.

Ambos modelos son impresionantes, pero cometen errores cuando las afirmaciones carecen de privacidad. O1 es un poco mejor en las tareas de pensamiento, pero la transparencia R1 le da una ventaja en los casos (y habrá algunos) a medida que comete errores.

A continuación se muestra un colapso de un pequeño número de nuestras experiencias y enlaces a las páginas de confusión donde puede revisar los resultados usted mismo.

Calcule los rendimientos de las inversiones de la web

Nuestra primera prueba se midió si los modelos podrían calcular los rendimientos de inversión (ROI). Observamos un escenario en el que el usuario invirtió $ 140 en los maravillosos Seven (Alphabet, Amazon, Apple, Meta, Microsoft, Nvidia, Tesla) el primer día de cada mes de enero a diciembre de 2024. Le pedimos al formulario que calcule el valor de la cartera en la fecha actual.

Para lograr esta tarea, el modelo tendrá que retirar la información del precio de MAG 7 para el primer día de cada mes, y dividir la inversión mensual por igual a través de acciones ($ 20 por acción), y su belleza y calcular el valor de la cartera de acuerdo con al valor de las acciones en la fecha actual.

En esta tarea, ambos modelos fallaron. O1 devolvió la lista de precios de las acciones En enero de 2024 y enero de 2025 junto con una fórmula para calcular el valor de la cartera. Sin embargo, no pude calcular los valores correctos y dije principalmente que no habría retorno de la inversión. Por otro lado, R1 cometió un error de inversión solo en enero de 2024 y calculó los ingresos para enero de 2025.

El seguimiento del pensamiento sobre O1 no proporciona suficiente información

Sin embargo, lo interesante fue el proceso de pensar en modelos. Si bien O1 no ha proporcionado muchos detalles sobre cómo alcanzó sus resultados, R1 Logic ha sido rastreada Mostró que no tenía la información correcta porque el motor de recuperación en confusión no pudo obtener datos de acciones mensuales (muchas aplicaciones de generación que estaban equipadas no faltan debido a la falta de un modelo en capacidades sino por una mala recuperación). Esto ha demostrado ser una parte importante de los comentarios que nos llevaron a la próxima experiencia.

La pista de pensamiento R1 revela que le falta información

Piense en el contenido del archivo

Decidimos ejecutar la misma experiencia que antes, pero en lugar de exigir que el modelo recupere información de la web, decidimos proporcionarla en un archivo de texto. Para esto, copiamos los datos mensuales para cada parte de Yahoo! Financiación en un archivo de texto y se lo dio al modelo. El archivo contenía el nombre de cada acción además de la tabla HTML, que contiene el precio del primer día de cada mes de enero a diciembre de 2024 y el último precio registrado. Los datos no se han limpiado para reducir el voltaje manual y probar si el modelo puede elegir las partes correctas de los datos.

Una vez más, ambos modelos no pudieron proporcionar la respuesta correcta. Parece que O1 ha extraído datos Desde el archivo, pero sugiera que realice la cuenta manualmente en una herramienta como Excel. Pensar fue muy misterioso y no tenía ninguna información útil para explorar el modelo. R1 tampoco falló No proporcionó una respuesta, pero el seguimiento lógico contiene mucha información útil.

Por ejemplo, estaba claro que el modelo había analizado adecuadamente los datos HTML para cada stock y pudo extraer la información correcta. También logró realizar inversiones durante un mes por separado, y embellecerlas y calcular el valor final de acuerdo con el último precio de las acciones en la tabla. Sin embargo, este valor final permaneció en la cadena de pensamiento y no pudo alcanzar la respuesta final. El modelo también estaba confundido por una fila en la tabla de Nvidia, que distingue las acciones 10: 1 de la compañía el 10 de junio de 2024, y terminó con mi aprecio por el valor final de la billetera.

R1 oculto los resultados en el seguimiento del pensamiento con información sobre el lugar donde ocurrió un error

Nuevamente, el verdadero distintivo no fue el mismo resultado, sino la capacidad de investigar cómo el modelo alcanzó su respuesta. En este caso, R1 nos proporcionó una mejor experiencia, lo que nos permite comprender las restricciones del modelo y cómo podemos reformular nuestro reclamo y coordinar nuestros datos para obtener mejores resultados en el futuro.

Comparación de los datos web

Otra experiencia exigimos por el modelo para comparar las estadísticas de cuatro posiciones principales en la Liga Profesional Americana y determinar cuál tiene la mejor mejora en el gol de campo (FG %) desde 2022/2023 hasta las temporadas de 2023/2024. Esta tarea del modelo requería un pensamiento de varios pasos en diferentes puntos de datos. La pesca en el reclamo fue que incluía a Victor y Yumanama, quienes solo ingresaron a la liga como ascensor en 2023.

La recuperación de esta afirmación fue mucho más fácil, ya que las estadísticas del jugador se informan ampliamente en Internet y generalmente se incluyen en los perfiles de Wikipedia y NBA. Ambos modelos respondieron correctamente (es Giannis si tenías curiosidad), aunque se basaban en las fuentes que usaban, sus números eran algo diferentes. Sin embargo, no se dieron cuenta de que Wemby no estaba calificado para comparar y recopilar otras estadísticas de su tiempo en la Liga Europea.

En su respuesta, R1 Hizo un mejor colapso De los resultados con el cronograma de comparación junto con los enlaces a las fuentes que utilizó para responderlas. Habilitamos el contexto adicional para corregir el reclamo. Después de haber modificado la afirmación específica de que estábamos buscando FG % de las temporadas de la Liga Profesional Americana, la forma Wemby excluyó correctamente los resultados.

Haga una palabra simple para reclamar toda la diferencia en el resultado. Esto es algo que una persona conoce implícitamente. Sea específico tanto como pueda en sus demandas e intente incluir la información que una persona asume implícitamente.

El fallo final

Los modelos de pensamiento son herramientas fuertes, pero aún tienen formas de seguir antes de ser completamente confiables con las tareas, especialmente a medida que otros componentes de las aplicaciones de modelos de lenguaje grande (LLM) continúan desarrollándose. De nuestras experiencias, tanto O1 como R1 aún pueden cometer errores básicos. Aunque muestra resultados impresionantes, aún necesitan una pequeña mano para dar resultados precisos.

Idealmente, el modelo de pensamiento debería poder explicar al usuario cuando carece de información para la tarea. En cambio, el seguimiento del pensamiento en el modelo debería poder dirigir a los usuarios para comprender mejor los errores y corregir sus afirmaciones de aumentar la precisión y la estabilidad de las respuestas del modelo. En este sentido, R1 era la ventaja. Esperamos proporcionar modelos de pensamiento futuro, incluida la serie O33 de OpenAI, para los usuarios más visión y control.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí