Evals — tests comportementaux

Wiki runtime · Manuel agent

Vérifier qu'un agent respecte un contrat comportemental pour un jeu d'entrées (agents[].evals[] — sur l'agent, jamais à la racine du projet).

Couche	Rôle
agent-maker	Édition UI, validation statique (`scenarios[].input` ↔ placeholders instruction)
Builder (`../agent-builder`)	Export compile → `config/evals.json`, `make eval`, `helm test`
Runtime agent	Résolution instruction + invoke LLM (spec runner-pipeline)

Fiches

Fiche	Sujet
input-contract.md	Alignement `scenarios[].input` ↔ instruction
runner-pipeline.md	Pipeline runner (spec + exécution bundle builder)

Modèle YAML (aperçu)

agents:
  - name: root
    instruction: |-
      Bonjour {user_alias}, analyse {topic} en {response_language}.
    # … modele, capacity …
    evals:
      - id: core
        acceptance:
          score: 1.0
        scenarios:
          - id: brief-complet
            input:
              user_alias: "Marie"
              topic: "EU AI Act"
              response_language: "fr"
            criteria:
              text:
                contains: ["## TL;DR", "http"]

Exemples

project-reference/10-deal-room.yaml, 04-multi-agent-writer.yaml

Code agent-maker

packages/shared/src/evals/ — deriveEvalInputFields(), evaluateCriteria()

Fiches​

Modèle YAML (aperçu)​

Exemples​

Code agent-maker​

Fiches

Modèle YAML (aperçu)

Exemples

Code agent-maker