¿Esta startup sigilosa finalmente ha decodificado la confiabilidad de un agente de inteligencia artificial empresarial? Conozca el Apollo-1 de AUI

Durante más de una década, la IA conversacional ha prometido asistentes similares a los humanos que pueden hacer más que simplemente chatear. Sin embargo, incluso cuando los grandes modelos de lenguaje (LLM) como ChatGPT, Gemini y Claude aprenden a pensar, explicar y programar, una categoría importante de interacción sigue en gran medida sin resolver: las personas completando tareas de manera confiable. chat externo.

hasta Sólo los mejores modelos de IA puntúan percentil 30 en el banco del extremo duro, Es un punto de referencia de terceros diseñado para evaluar el rendimiento de los agentes de IA al completar una variedad de tareas basadas en navegador, y está muy por debajo de la confiabilidad requerida por la mayoría de las organizaciones y usuarios. y criterios de tarea específicos Como la aerolínea TAU-Bench, que medidas Fiabilidad de los agentes de IA a la hora de buscar y reservar vuelos En nombre del usuario, tampoco tienes tasas de éxito mucho más altas, con 56% solo para distribuidores y modelos de alto rendimiento (Claude 3.7 Sonnet): significa que el agente falla aproximadamente la mitad del tiempo.

Con sede en la ciudad de Nueva York Inteligencia aumentada (AUI) Inc.lo cofundó Ohad Al-Helou y uri cohencree que finalmente ha encontrado una solución para mejorar la confiabilidad de un agente de IA a un nivel en el que la mayoría de las empresas puedan confiar en que hará lo que se le pida, de manera confiable.

El nuevo modelo de fundación de la compañía se llama… Apolo-1 – que todavía está en versión preliminar con los primeros probadores pero está cerca de un lanzamiento general inminente – se basa en un principio que defiende Lógica neurosimbólica del Estado.

Es una arquitectura híbrida que incluso la soporta. Escépticos del LLM como Gary Marcusdiseñado para garantizar resultados consistentes y que cumplan con las políticas en cada interacción con el cliente.

«La IA conversacional consta básicamente de dos mitades», dijo Elhelo en una entrevista reciente con VentureBeat. «La primera mitad, el diálogo abierto, la manejan maravillosamente los LLM. Está diseñada para casos de uso creativos o exploratorios. La otra mitad es un diálogo orientado a tareas, donde siempre hay un objetivo específico detrás de la conversación. Esta mitad sigue sin resolverse porque requiere certeza».

Especifica la AUI ciertamente Como por ejemplo la diferencia entre un agente que “probablemente” realiza una tarea y un agente que “casi siempre” la realiza.

Por ejemplo, en TAU-Bench Airline, logra una impresionante tasa de éxito del 92,5%dejando muy atrás a todos los demás competidores existentes, según los estándares compartidos por VentureBeat y Publicado en el sitio web de la AUI.

Elhelo proporcionó ejemplos sencillos: un banco que debería exigir la verificación de identidad para reembolsos superiores a 200 dólares, o una aerolínea que siempre debería ofrecer un ascenso a clase ejecutiva antes que a clase económica.

«Estas no son preferencias», dijo. «Son requisitos. Ningún enfoque puramente generativo puede proporcionar este tipo de certeza conductual».

AUI y su trabajo para mejorar la confiabilidad fueron cubiertos anteriormente por el medio de noticias por suscripción. Informaciónpero aún no ha recibido una cobertura amplia en los medios de comunicación disponibles públicamente.

De la coincidencia de patrones a la acción predecible

El equipo sostiene que los modelos de transformadores, por diseño, no pueden cumplir con este requisito. Los modelos de lenguaje grandes generan texto plausible, no comportamiento garantizado. “Cuando le pides a un MBA que siempre proporcione un seguro antes de pagar, normalmente lo hace”, dijo Elhelo. “Configure el Apollo-1 con esta base y lo hará siempre”.

Esta distinción surge de la arquitectura misma, dijo. Los transformadores predicen el siguiente símbolo de la secuencia. Por el contrario, el Apolo 1 predice… Siguiente acción En una conversación, operas sobre lo que AUI llama un Estado simbólico escrito.

Cohen explicó la idea en términos más técnicos. «El neurosimbolismo significa que fusionamos los dos paradigmas dominantes», dijo. «La capa simbólica te da estructura: sabe qué es una intención, una entidad, un parámetro, mientras que la capa neurosimbólica te da fluidez en el lenguaje. El pensador neurosimbólico se sitúa en el medio. Es un tipo diferente de cerebro para el diálogo».

Mientras que los transformadores tratan cada salida como si generara texto, Apollo-1 ejecuta un ciclo de razonamiento cerrado: un codificador traduce el lenguaje natural a un estado simbólico, una máquina de estados mantiene ese estado, un motor de decisiones determina la siguiente acción, un planificador la ejecuta y un decodificador convierte el resultado nuevamente en lenguaje. «El proceso es iterativo», dijo Cohen. «Se repite hasta que se realiza la tarea. De esa manera se obtiene determinismo en lugar de probabilidad».

El modelo básico para ejecutar tareas.

A diferencia de los chatbots tradicionales o los sistemas de automatización personalizados, Apollo-1 pretende ser un modelo base Para un diálogo orientado a tareas: un sistema único sin dominio que se puede configurar para banca, viajes, comercio minorista o seguros a través de lo que se llama AUI. Administrador del sistema.

«El mensaje del sistema no es un archivo de configuración», dijo Elhelo. «Es un contrato de comportamiento. Usted especifica exactamente cómo debe comportarse su agente en situaciones de interés, y Apollo-1 garantiza que esos comportamientos se lleven a cabo».

Las organizaciones pueden utilizar el enrutador para codificar ranuras simbólicas (propósitos, parámetros y políticas), así como límites de herramientas y reglas basadas en estados.

Por ejemplo, una aplicación de entrega de comida podría dictar «Si se mencionan alergias, informe siempre al restaurante», mientras que un proveedor de telecomunicaciones podría especificar «Después de tres intentos fallidos de pago, suspenda el servicio». En ambos casos, el comportamiento se realiza de forma determinista, no estadística.

Ocho años en proceso

El camino de AUI hacia el Apollo-1 comenzó en 2017, cuando el equipo comenzó a cifrar millones de conversaciones reales orientadas a la misión manejadas por una fuerza laboral humana de 60.000 personas.

Este trabajo dio lugar a un lenguaje simbólico capaz de separar Conocimiento procesal – Pasos, restricciones y flujos – desde Conocimiento descriptivo Como entidades y atributos.

«La idea era que el diálogo orientado a tareas tiene patrones de procedimiento universales», dijo Al-Helou. «La entrega de alimentos, el procesamiento de reclamos y la gestión de pedidos comparten estructuras similares. Una vez que lo diseñas explícitamente, puedes calcular de manera determinista».

A partir de ahí, la empresa construyó el razonador neurosimbólico, un sistema que utiliza el estado simbólico para determinar qué sucederá a continuación en lugar de adivinar mediante predicciones simbólicas.

Los estándares indican que la arquitectura marca una diferencia tangible.

En las evaluaciones de AUI, el Apollo-1 logró más que eso. 90 por ciento Complete la tarea de acuerdo con el estándar τ-Bench-Airline, en comparación con 60 por ciento Para Claude-4.

Terminado 83 por ciento De conversaciones de reserva directa en Google Vuelos vs. 22 por ciento Para Géminis 2,5-flash 91 por ciento Escenarios minoristas en Amazon vs. 17 por ciento Rufo.

«Estas no son mejoras incrementales», dijo Cohen. «Son diferencias de confiabilidad de órdenes de magnitud».

Un complemento, no un competidor

AUI promueve Apollo-1 no como un reemplazo de modelos lingüísticos más grandes, sino como una contraparte necesaria de ellos. En palabras de Elhelo: «Los transformadores mejoran las posibilidades creativas. Apollo-1 mejora la certeza del comportamiento. Juntos forman una suite completa de IA conversacional».

El modelo ya se está ejecutando en pruebas piloto limitadas con empresas no reveladas de Fortune 500 en sectores que incluyen finanzas, viajes y comercio minorista.

AUI también ha confirmado una Asociación estratégica con Google Y planea Disponibilidad general en noviembre de 2025cuando abre interfaces de programación de aplicaciones (API), exporta documentación completa y agrega capacidades de audio y video. Los clientes y socios potenciales interesados pueden registrarse para obtener más información a continuación. Está disponible en el formulario del sitio web de AUI.

Hasta entonces, la empresa mantendrá los detalles en secreto. Cuando se le preguntó qué viene después, Al-Helou sonrió. «Digamos que nos estamos preparando para un anuncio», dijo. «casi.»

Hacia conversaciones que funcionan

A pesar de toda su sofisticación técnica, el discurso del Apollo-1 es simple: crear inteligencia artificial en la que las empresas puedan confiar para actuar, no sólo hablar. «Tenemos la misión de democratizar el acceso a una IA exitosa», dijo Cohen hacia el final de la entrevista.

Queda por ver si el Apolo 1 se convertirá en el nuevo estándar para el diálogo orientado a misiones. Pero si la arquitectura AUI funciona según lo prometido, la brecha de larga data entre los chatbots que parecen humanos y los agentes que realizan trabajo humano de manera confiable finalmente puede comenzar a desaparecer.

Enlace de origen

¿Esta startup sigilosa finalmente ha decodificado la confiabilidad de un agente de inteligencia artificial empresarial? Conozca el Apollo-1 de AUI