VAKRA: El banco de pruebas que expone las limitaciones reales de los agentes de IA

VAKRA: El banco de pruebas que expone las limitaciones reales de los agentes de IA

Investigadores de IBM presentan VAKRA, un benchmark que evalúa la capacidad de los agentes de IA para razonar y usar herramientas en entornos complejos. Los resultados revelan fallas críticas en tareas aparentemente simples, como seguir instrucciones paso a paso o manejar múltiples herramientas simultáneamente.

Cloudflare integra modelos de OpenAI en su plataforma de agentes IA para empresas

Cloudflare integra modelos de OpenAI en su plataforma de agentes IA para empresas

La alianza entre Cloudflare y OpenAI lleva los modelos GPT-5.4 y Codex a Agent Cloud, permitiendo a las empresas desarrollar agentes de inteligencia artificial para automatizar flujos de trabajo complejos. La integración combina la potencia de los modelos de lenguaje con la infraestructura de seguridad y escalabilidad de Cloudflare.

Translate »