Evals — tests comportementaux
Wiki runtime · Manuel agent
Vérifier qu'un agent respecte un contrat comportemental pour un jeu d'entrées (agents[].evals[] — sur l'agent, jamais à la racine du projet).
| Couche | Rôle |
|---|---|
| agent-maker | Édition UI, validation statique (scenarios[].input ↔ placeholders instruction) |
Builder (../agent-builder) | Export compile → config/evals.json, make eval, helm test |
| Runtime agent | Résolution instruction + invoke LLM (spec runner-pipeline) |
Fiches
| Fiche | Sujet |
|---|---|
| input-contract.md | Alignement scenarios[].input ↔ instruction |
| runner-pipeline.md | Pipeline runner (spec + exécution bundle builder) |
Modèle YAML (aperçu)
agents:
- name: root
instruction: |-
Bonjour {user_alias}, analyse {topic} en {response_language}.
# … modele, capacity …
evals:
- id: core
acceptance:
score: 1.0
scenarios:
- id: brief-complet
input:
user_alias: "Marie"
topic: "EU AI Act"
response_language: "fr"
criteria:
text:
contains: ["## TL;DR", "http"]
Exemples
project-reference/10-deal-room.yaml, 04-multi-agent-writer.yaml
Code agent-maker
packages/shared/src/evals/ — deriveEvalInputFields(), evaluateCriteria()