razonamiento artificial Archivos

VAKRA: El banco de pruebas que expone las limitaciones reales de los agentes de IA

abril 23, 2026 por Forge Press

Investigadores de IBM presentan VAKRA, un benchmark que evalúa la capacidad de los agentes de IA para razonar y usar herramientas en entornos complejos. Los resultados revelan fallas críticas en tareas aparentemente simples, como seguir instrucciones paso a paso o manejar múltiples herramientas simultáneamente.