Aller au contenu principal

Evals — tests comportementaux

Wiki runtime · Manuel agent

Vérifier qu'un agent respecte un contrat comportemental pour un jeu d'entrées (agents[].evals[]sur l'agent, jamais à la racine du projet).

CoucheRôle
agent-makerÉdition UI, validation statique (scenarios[].input ↔ placeholders instruction)
Builder (../agent-builder)Export compile → config/evals.json, make eval, helm test
Runtime agentRésolution instruction + invoke LLM (spec runner-pipeline)

Fiches

FicheSujet
input-contract.mdAlignement scenarios[].input ↔ instruction
runner-pipeline.mdPipeline runner (spec + exécution bundle builder)

Modèle YAML (aperçu)

agents:
- name: root
instruction: |-
Bonjour {user_alias}, analyse {topic} en {response_language}.
# … modele, capacity …
evals:
- id: core
acceptance:
score: 1.0
scenarios:
- id: brief-complet
input:
user_alias: "Marie"
topic: "EU AI Act"
response_language: "fr"
criteria:
text:
contains: ["## TL;DR", "http"]

Exemples

project-reference/10-deal-room.yaml, 04-multi-agent-writer.yaml

Code agent-maker

packages/shared/src/evals/deriveEvalInputFields(), evaluateCriteria()