VAKRA: El banco de pruebas que expone las limitaciones reales de los agentes de IA
Investigadores de IBM presentan VAKRA, un benchmark que evalúa la capacidad de los agentes de IA para razonar y usar herramientas en entornos complejos. Los resultados revelan fallas críticas en tareas aparentemente simples, como seguir instrucciones paso a paso o manejar múltiples herramientas simultáneamente.