VAKRA: El banco de pruebas que expone las limitaciones reales de los agentes de IA

VAKRA: El banco de pruebas que expone las limitaciones reales de los agentes de IA

Investigadores de IBM presentan VAKRA, un benchmark que evalúa la capacidad de los agentes de IA para razonar y usar herramientas en entornos complejos. Los resultados revelan fallas críticas en tareas aparentemente simples, como seguir instrucciones paso a paso o manejar múltiples herramientas simultáneamente.

Hugging Face lanza Community Evals: una revolución en la evaluación de modelos de IA liderada por la comunidad

Hugging Face lanza Community Evals: una revolución en la evaluación de modelos de IA liderada por la comunidad

Hugging Face ha presentado Community Evals, una plataforma abierta que permite a cualquier persona evaluar y comparar modelos de lenguaje. Este movimiento busca democratizar la evaluación de IA, desafiando los rankings cerrados y opacos que dominan el sector. La herramienta ya incluye más de 100 benchmarks y permite evaluar modelos como Llama 3, Claude 3 y GPT-4.

Translate »