¿La actualización de sus agentes de IA ayudará o dificultará su desempeño? La nueva herramienta de experimentación Raindrop te lo dice

Parece que casi todas las semanas en los últimos dos años desde el lanzamiento de ChatGPT, se han lanzado nuevos modelos de lenguajes grandes (LLM) de laboratorios de la competencia o del propio OpenAI. Las empresas están bajo una intensa presión para mantenerse al día con el ritmo exponencial del cambio, y mucho menos entender cómo adaptarse a él: ¿cuál de estos nuevos modelos, si alguno, deberían adoptar para potenciar sus flujos de trabajo y los agentes de IA personalizados que crean para implementarlos?

Llegó la ayuda: Lanzar la observabilidad de las aplicaciones de IA. gota de agua Experimentos lanzadosuna nueva característica de análisis que la compañía describe como el primer conjunto de pruebas A/B diseñado específicamente para agentes de IA empresariales, lo que permite a las empresas ver y comparar cómo la actualización de los agentes a nuevos modelos subyacentes, o el cambio de sus instrucciones y acceso a las herramientas, impacta su desempeño con los usuarios finales reales.

Esta versión amplía las herramientas de monitoreo existentes de Raindrop, brindando a los desarrolladores y equipos una manera de ver cómo se comportan y se desarrollan sus agentes en condiciones del mundo real.

Mediante experimentos, los equipos pueden realizar un seguimiento de cómo los cambios (como una nueva herramienta o mensaje, la actualización de un formulario o la reconstrucción de todo el proceso) afectan el rendimiento de la IA en millones de interacciones de los usuarios. La nueva función ahora está disponible para los usuarios del plan de suscripción Pro de Raindrop ($350 por mes) en Gota de lluvia.ai.

Una lente basada en datos sobre el desarrollo de agentes

Cofundador y director de tecnología de Raindrop Bin Hallaq En el video del anuncio del producto (arriba) se observa que los experimentos ayudan a los equipos a descubrir «cómo cambiar literalmente cualquier cosa», incluido el uso de herramientas, la intención del usuario, las tasas de lanzamiento y la exploración de diferencias según datos demográficos, como el idioma. El objetivo es hacer que la iteración del modelo sea más transparente y mensurable.

La interfaz de Experimentos muestra los resultados visualmente, mostrando cuándo un experimento está funcionando mejor o peor que su punto de referencia. Los aumentos en las señales negativas pueden indicar una mayor falla en la tarea o una salida parcial del código, mientras que las mejoras en las señales positivas pueden reflejar respuestas más completas o mejores experiencias de usuario.

Al hacer que estos datos sean más fáciles de interpretar, Raindrop alienta a los equipos de IA a abordar la iteración del agente con el mismo rigor que una implementación de software moderna: rastrear resultados, compartir conocimientos y abordar las regresiones antes de que empeoren.

Antecedentes: de la observabilidad de la inteligencia artificial a la experimentación

El lanzamiento de prueba de Raindrop se basa en la base de la empresa como una de las primeras Plataformas nativas de observabilidad de IAdiseñado para ayudar a las organizaciones a monitorear y comprender cómo se comportan sus sistemas de IA generativa en producción.

Como informó VentureBeat a principios de este año, la compañía, originalmente conocida como Dawn AI, surgió para abordar los problemas, Ex diseñador de interfaces humanas en Apple, lo llama el “problema de la caja negra” del rendimiento de la IA, ayudando a los equipos a detectar fallas “a medida que ocurren” y explicando a las organizaciones qué salió mal y por qué."

En ese momento, Hylac describió cómo “los productos de IA fallan constantemente, de maneras que son a la vez divertidas y aterradoras”, y señaló que, a diferencia del software tradicional, que hace excepciones explícitas, “los productos de IA fallan silenciosamente”. La plataforma Raindrop original se centró en detectar estas fallas silenciosas mediante el análisis de señales como comentarios de usuarios, fallas en tareas, rechazos y otras anomalías conversacionales en millones de eventos diarios.

Cofundadores de la empresa: Hilak, Alexis Jubay Zubin Singh Kotecha Raindrop se creó después de enfrentar la dificultad de depurar sistemas de IA en producción.

«Comenzamos construyendo productos de inteligencia artificial, no infraestructura», dijo Hilak. venturebeat. «Pero muy rápidamente nos dimos cuenta de que, para desarrollar algo serio, necesitábamos herramientas para comprender el comportamiento de la IA, y esas herramientas no existían».

Usando experimentos, Raindrop extiende la misma tarea desde Detección de fallas a Medir mejoras. La nueva herramienta convierte los datos de observabilidad en comparaciones procesables, lo que permite a las organizaciones probar si los cambios en los modelos, las afirmaciones o los procesos hacen que sus agentes de IA sean mejores o simplemente diferentes.

Resuelva el problema de «Las calificaciones pasan, los agentes fallan».

Aunque los marcos de evaluación tradicionales son útiles para medir el desempeño, rara vez capturan el comportamiento impredecible de los agentes de IA que operan en entornos dinámicos.

Como cofundador de Raindrop Alexis Juba el lo explico Anuncio de LinkedIn«Las evaluaciones tradicionales realmente no responden a esta pregunta. Son excelentes pruebas unitarias, pero no se pueden predecir las acciones de su usuario y su agente trabaja durante horas, llamando a cientos de herramientas».

Juba dijo que la empresa escuchaba constantemente una frustración común entre los equipos: «Las evaluaciones funcionan, los agentes fallan».

Los experimentos tienen como objetivo llenar este vacío a través de la oferta. Lo que realmente cambia Cuando los desarrolladores envían actualizaciones a sus sistemas.

La herramienta permite comparaciones lado a lado entre modelos, herramientas, intenciones o propiedades, lo que demuestra diferencias mensurables en comportamiento y rendimiento.

Diseñado para el comportamiento de la IA en el mundo real

En el vídeo del anuncio, Raindrop describió los experimentos como una forma de «comparar cualquier cosa y medir cómo el comportamiento de su agente cambia realmente en producción a través de millones de interacciones reales».

La plataforma ayuda a los usuarios a detectar problemas como picos de fallas en las tareas, olvidos o nuevas herramientas que provocan errores inesperados.

También se puede utilizar a la inversa: comenzando con un problema conocido, como «agente atascado en un bucle», y rastreando el patrón, herramienta o etiqueta que conduce a él.

A partir de ahí, los desarrolladores pueden profundizar en las implicaciones detalladas para encontrar la causa raíz y ofrecer una solución rápidamente.

Cada experimento proporciona un análisis visual de métricas como la frecuencia de uso de herramientas, las tasas de error, la duración de la conversación y la duración de la respuesta.

Los usuarios pueden hacer clic en cualquier comparación para acceder a los datos del evento subyacente, lo que les brinda una visión clara de cómo el comportamiento de los agentes ha cambiado con el tiempo. Los enlaces compartidos facilitan la colaboración con compañeros de equipo o informes de resultados.

Integración, escalabilidad y precisión

Según Hylak, Experiments se integra directamente con “plataformas premium que las empresas conocen y aman (¡como Statsig!)” y está diseñado para funcionar a la perfección con los canales de medición y análisis existentes.

Para las empresas que no tienen estas integraciones, aún pueden comparar el rendimiento a lo largo del tiempo (por ejemplo, ayer versus hoy) sin configuración adicional.

Los equipos normalmente necesitan alrededor de 2000 usuarios por día para producir resultados estadísticamente significativos, dijo Hilak.

Para garantizar la precisión de las comparaciones, Experiments monitorea la idoneidad del tamaño de la muestra y alerta a los usuarios si una prueba carece de datos suficientes para sacar conclusiones válidas.

«Estamos obsesionados con asegurarnos de que métricas como el fracaso de la misión y la frustración del usuario sean métricas sobre las que se pueda alertar a un ingeniero de guardia», explicó Hilak. Los equipos pueden profundizar en las conversaciones o eventos específicos que impulsan esas métricas, asegurando la transparencia detrás de cada número general, añadió.

Seguridad y protección de datos

Raindrop opera como una plataforma alojada en la nube, pero también ofrece redacción de información de identificación personal (PII) para organizaciones que necesitan control adicional.

Hylak dijo que la empresa cumple con SOC 2 y ha lanzado guardián de la PII Una función que utiliza inteligencia artificial para eliminar automáticamente información confidencial de los datos almacenados. «Nos tomamos muy en serio la protección de los datos de los clientes», subrayó.

Precios y planes

Parte de las experiencias de Raindrop. plan profesionalque cuesta $350 por mes o $0,0007 por interacción. El nivel Profesional también incluye herramientas de búsqueda profunda, agrupación de temas, seguimiento personalizado de problemas y capacidades de búsqueda semántica.

gotas de lluvia Plan inicial – $65 por mes o $0,001 por interacción – Proporciona análisis básicos que incluyen detección de problemas, indicadores de comentarios de los usuarios, alertas de Slack y seguimiento de usuarios. Ambos planes vienen con una prueba gratuita de 14 días.

Las organizaciones más grandes pueden elegir plan empresarial Con precios personalizados y funciones avanzadas como inicio de sesión único (SSO), alertas personalizadas, integraciones, redacción de PII y soporte prioritario.

Mejora continua de los sistemas de inteligencia artificial

A través de experimentos, Raindrop se posiciona en la intersección del análisis de IA y la observabilidad del software. Su enfoque en “medir la verdad”, como se indica en el video del producto, refleja un impulso más amplio dentro de la industria hacia la responsabilidad y la transparencia en las operaciones de IA.

En lugar de depender únicamente de puntos de referencia fuera de línea, el enfoque de Raindrop se centra en datos reales del usuario y en la comprensión del contexto. La compañía espera que esto permita a los desarrolladores de IA avanzar más rápido, identificar las causas fundamentales más rápidamente y ofrecer modelos de mejor rendimiento con confianza.

Enlace de origen

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba