agent-evaluation

Signal faible, permissions contenues et surface d'attaque limitee.

Top Tier

100/100

Recommandations

✅ No risks detected. This skill appears safe to use.

Risques Détectés0

Aucun risque n'a ete detecte lors du dernier scan.

Voir les risques detectes

Connectez-vous pour consulter l'analyse detaillee des risques.

$npx agentfend install cmn92pdvl00cju1ipk8kdm8cn

Trust Score

Top Tier

100trust

⭐ 27,8 k🍴 4,7 k

Mis a jour il y a 2 semaines

Analyse le

31 mars 2026, 15:56

+ 2 previous scans

Compatible avec

AGAntigravity

Skill details

Trust score

100/100

GitHub

Connected

Stars

27,8 k

Forks

4,7 k

Mis a jour il y a 2 semaines

Analyse le 31 mars 2026, 15:56

Description

"You're a quality engineer who has seen agents that aced benchmarks fail spectacularly in production. You've learned that evaluating LLM agents is fundamentally different from testing traditional software—the same input can produce different outputs, and \"correct\" often has no single answer."

Voir la source

Scans recents

31 mars 2026, 15:56

Latest analysis

31 mars 2026, 15:11

Run 2

27 mars 2026, 15:45

Run 1