La IA de Google ahora puede navegar por la web, hacer clic en botones y completar formularios con Gemini 2.5 Computer Use

Algunos de los mayores proveedores de modelos de lenguajes grandes (LLM) han tratado de ir más allá de los chatbots multimedia y ampliar sus modelos a "Agentes" Que en realidad puede tomar más acciones en nombre del usuario en todos los sitios web. Recuerde el proxy ChatGPT de OpenAI (anteriormente conocido como "Operador") y Computer Use de Anthropic, ambos lanzados en los últimos dos años.

Ahora Google también se está metiendo en el mismo juego. Hoy, el gigante de las búsquedas Su DeepMind AI Lab ha presentado una versión nueva, mejorada y especialmente entrenada de su potente software Gemini 2.5 Pro LLM. conocido como "Uso del ordenador Gemini 2.5 Pro," cual puede Utilice un navegador virtual para navegar por la web, recuperar información, completar formularios e incluso realizar acciones en sitios web. – Todo a través de un mensaje de texto al usuario.

"Estos son los primeros días, pero la capacidad del formulario para interactuar con la web (como desplazarse, completar formularios y navegar por menús desplegables) es un desafío. Un próximo paso importante en la creación de agentes de uso general," el dijo Sundar Pichai, director ejecutivo de Google, Como parte de un Declaración más larga en la red social, X.

El formulario no está disponible para los consumidores directamente desde Google.

en lugar de, Google es un socio Con otra empresa, base del navegadorel lo fundo Paul Klein, ex ingeniero de Twilio, a principios de 2024que ofrece virtual "Sin cabeza" Un navegador web destinado a ser utilizado por agentes y aplicaciones de inteligencia artificial. (A "Sin cabeza" Un navegador es aquel que no requiere una interfaz gráfica de usuario, o interfaz gráfica de usuario, para navegar por la web, aunque en este caso y otros, Browserbase muestra una representación gráfica del usuario).

Los usuarios pueden ver el nuevo modelo de uso de computadora Gemini 2.5 directamente en Browserbase aquí E incluso compárelo lado a lado con ofertas heredadas de la competencia de OpenAI y Anthropic de una manera nueva. "Plaza del navegador" Fue lanzado por la startup (aunque solo se puede elegir un modelo adicional junto al Gemini a la vez).

Para los creadores y desarrolladores de IA, se prepara como materia prima, aunque es propiedad de LLM. a través de API de Géminis en Google AI Studio a creación rápida de prototiposY la nube de Google Inteligencia artificial vértice Selector de modelos y plataforma de creación de aplicaciones.

La nueva oferta depende de las capacidades. Géminis 2.5 Prose lanzó en marzo de 2025, pero se ha actualizado significativamente varias veces desde entonces, con un enfoque particular en permitir que los agentes de IA tengan interacciones directas con las interfaces de usuario, incluidos navegadores y aplicaciones móviles.

En conjunto parece Gemini 2.5 Computer Use está diseñado para permitir a los desarrolladores crear agentes que puedan completar de forma independiente tareas basadas en interfaz, como hacer clic, escribir, desplazarse, completar formularios y navegar detrás de las pantallas de inicio de sesión.

En lugar de depender únicamente de API o entradas estructuradas, este modelo permite que los sistemas de IA interactúen con el software de forma visual y funcional, tal como lo haría un humano.

Breves pruebas prácticas de usuario.

En mis breves y poco científicas pruebas prácticas iniciales en Browserbase, Gemini 2.5 Computer Use navegó con éxito al sitio web oficial de Taylor Swift según las instrucciones y me dio un resumen de lo que se estaba vendiendo o promocionando en la parte superior: una edición especial de su último álbum. "La vida de una corista."

En otra prueba, hice que Gemini 2.5 Computer Use buscara en Amazon luces solares altamente calificadas y bien revisadas que pudiera colocar en mi patio trasero, y me complació verlo completar con éxito una búsqueda de Google Captcha diseñada para eliminar usuarios no humanos ("Marque todas las casillas con una motocicleta.") Lo hice en segundos.

Sin embargo, una vez que llegó allí, se detuvo y no pudo completar la tarea, a pesar de su sumisión. "La misión compitió" mensaje.

También debo señalar aquí que, si bien OpenAI y el agente ChatGPT de Claude de Anthropic pueden crear y editar archivos locales, como presentaciones de PowerPoint, hojas de cálculo o documentos de texto, en nombre del usuario, Gemini 2.5 Computer Use actualmente no proporciona acceso directo al sistema de archivos ni capacidades de creación de archivos nativos.

En cambio, está diseñado para controlar y navegar por las interfaces de usuario web y móviles mediante acciones como hacer clic, escribir y desplazarse. Su resultado se limita a acciones de interfaz de usuario sugeridas o respuestas de texto estilo chatbot; Cualquier resultado estructurado, como un documento o archivo, debe ser manejado por separado por un desarrollador, a menudo a través de código personalizado o integraciones de terceros.

Estándares de desempeño

Google dice que Gemini 2.5 Computer Use ha demostrado resultados líderes en múltiples pruebas comparativas de control de interfaz, especialmente en comparación con otros sistemas de inteligencia artificial importantes, incluidos Claude Sonnet y los modelos basados ​​​​en agentes de OpenAI.

Las evaluaciones se realizaron a través de Browserbase y las propias pruebas de Google.

Algunos aspectos destacados incluyen:

  • Online-Mind2Web (base del navegador): 65,7% para Gemini 2.5 frente a 61,0% (Claude Sonnet 4) y 44,3% (OpenAI Agent)

  • WebVoyager (base del navegador): 79,9% para Gemini 2.5 frente a 69,4% (Claude Sonnet 4) y 61,0% (OpenAI Agent)

  • Mundo Android (mente profunda): 69,7% para Géminis 2,5 frente a 62,1% (Claude Sonnet 4); El modelo OpenAI no se puede escalar debido a su inaccesibilidad

  • Mundo operativo: Actualmente no es compatible con Gemini 2.5; La puntuación del principal competidor fue del 61,4%.

Además de una gran precisión, Google informa que el modelo se ejecuta con menor latencia que otras soluciones de control de navegador, un factor clave en casos de uso de producción como la automatización y las pruebas de la interfaz de usuario.

como funciona

Los agentes impulsados ​​por el modelo de uso de la computadora operan dentro de un bucle de interacción. Reciben:

  • Mensaje de tarea del usuario

  • Captura de pantalla de la interfaz

  • Historia de acciones pasadas

El formulario analiza esta entrada y produce una acción de interfaz de usuario recomendada, como hacer clic en un botón o escribir en un campo.

Si es necesario, puede solicitar confirmación al usuario final para tareas más riesgosas, como realizar una compra.

Una vez realizada la acción, el estado de la interfaz se actualiza y se envía una nueva captura de pantalla al formulario. El ciclo continúa hasta que la tarea se completa o se detiene debido a un error o una decisión de seguridad.

El modelo utiliza una herramienta especializada llamada computer_useSe pueden integrar en entornos personalizados utilizando herramientas como dramaturgo O vía base del navegador Caja de arena de demostración.

Casos de uso y adopción

Según Google, los equipos internos y externos ya han comenzado a utilizar el modelo en varias áreas:

  • Equipo de pagos de Google Los informes indican que Gemini 2.5 Computer Use recuperó con éxito más del 60% de las ejecuciones de pruebas fallidas, reduciendo una fuente importante de ineficiencia de ingeniería.

  • a él le importaLa plataforma de agentes de IA de terceros dijo que el modelo superó a otros en tareas complejas de análisis de datos, aumentando el rendimiento hasta en un 18% en las evaluaciones más difíciles.

  • poke.comun proveedor proactivo de asistentes de inteligencia artificial, dice que el modelo Gemini a menudo funciona 50% más rápido de soluciones competitivas durante las interacciones de la interfaz.

El modelo también se utiliza en los esfuerzos de desarrollo de productos de Google, incluido… Proyecto marineroel Agente de prueba de Firebasey Poner la inteligencia artificial en la investigación.

Medidas de seguridad

Debido a que este modelo controla directamente las interfaces de software, Google enfatiza un enfoque de seguridad en capas:

  • A Servicio de seguridad en cada paso. Inspecciona cada acción propuesta antes de su implementación.

  • Los desarrolladores pueden especificar Instrucciones a nivel del sistema Para prevenir o solicitar confirmación de acciones específicas.

  • El modelo tiene salvaguardas integradas para evitar acciones que puedan comprometer la seguridad o violar las políticas de uso prohibido de Google.

Por ejemplo, si un formulario encuentra un CAPTCHA, generará una acción para hacer clic en la casilla de verificación y marcarla como que requiere confirmación del usuario, asegurando que el sistema no continúe sin supervisión humana.

Capacidades técnicas

El formulario admite una amplia gama de acciones de interfaz de usuario integradas, como:

  • click_at, type_text_at, scroll_document, drag_and_dropy mas

  • Se puede agregar funcionalidad definida por el usuario para ampliar el acceso a entornos móviles o personalizados.

  • Las coordenadas de la pantalla (escala 0-1000) se normalizan y se traducen nuevamente a dimensiones en píxeles durante la ejecución.

el acepta Imagen y texto Entradas y salidas Respuestas de texto o Llamadas a funciones Para realizar tareas. La resolución de pantalla recomendada para obtener mejores resultados es 1440×900Aunque puede funcionar con otros tamaños.

El precio de la API sigue siendo casi idéntico al del Gemini 2.5 Pro

Precios para Géminis 2.5 Usa la computadora Se alinea estrechamente con el modelo estándar Gemini 2.5 Pro. Ambos siguen la misma estructura de facturación por token: los tokens se cotizan según la entrada. 1,25 dólares por millón de tokens Para reclamaciones de menos de 200.000 tokens, y 2,50 dólares por millón de tokens Para reclamos más largos que eso.

Los símbolos de salida siguen un desglose de precios similar $10.00 por millón Para respuestas más pequeñas y $15.00 Para los más grandes.

Los modelos varían en disponibilidad y características adicionales.

Gemini 2.5 Pro incluye un nivel gratuito Los desarrolladores pueden utilizar el modelo sin costo alguno, sin que se publique ningún límite de token, aunque el uso puede estar sujeto a límites de tarifas o de cuota según la plataforma (por ejemplo, Google AI Studio).

Este acceso gratuito incluye códigos de entrada y salida. Una vez que los desarrolladores superan su cuota o cambian al nivel pago, se aplica el precio estándar por token.

en contraste, Gemini 2.5 Computer Use está disponible exclusivamente a través del nivel pago. allá Sin acceso gratuito Actualmente disponible para este modelo, todos los usos están sujetos a tarifas basadas en tokens desde el principio.

En términos de características, Gemini 2.5 Pro admite capacidades opcionales como el almacenamiento en caché de contexto (desde $ 0,31 por millón de tokens) y conexión a tierra con la Búsqueda de Google (gratis para hasta 1500 solicitudes por día, luego $ 35 por cada 1000 solicitudes adicionales). Estos no están disponibles para uso en computadora en este momento.

Otra distinción es el procesamiento de datos: los resultados del modelo de uso de la computadora no se utilizan para mejorar los productos de Google en el nivel pago, mientras que el uso del nivel gratuito para Gemini 2.5 Pro contribuye a mejorar el modelo a menos que se opte explícitamente por no participar.

En general, los desarrolladores pueden esperar costos similares basados ​​en tokens en ambos modelos, pero deben considerar el acceso por niveles, las capacidades integradas y las políticas de uso de datos al determinar qué modelo se adapta mejor a sus necesidades.

Enlace de origen

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba