L’Anthropie — Protocole d’évaluation empirique

Comment évaluer un prototype Anthropie à 90 jours et à 6/12/24 mois — sans glisser vers le management ni vers le marketing. Réponse au deep-research audit signalant l’absence de protocole empirique formalisé.

CC0 1.0 Universal. Document opérationnel. Modifiable par PR avec discussion publique 7 jours minimum.

Pourquoi ce document ? L’édifice publie EVIDENCE_MAP.md qui classe les claims par robustesse mais reconnaît qu’aucune cohorte n’a traversé les inventions propres (niveau D). Sans protocole d’évaluation publié, les premiers porteurs prototypent à l’aveugle, et l’édifice ne capitalise pas sur leurs apprentissages. Ce document propose un cadre minimal — pas un protocole académique RCT, mais un dispositif d’observation honnête à deux horizons.


1. Deux horizons d’évaluation

Piste courte — 90 jours (faisabilité)

Objectif : valider qu’un prototype peut tenir opérationnellement.

Questions que cette piste doit trancher :

Métriques obligatoires :

Critères d’arrêt (à définir AVANT de démarrer) :

Livrable : rapport public anonymisé sous format PROTOTYPES.md §gabarit Issue. Publier dans Issues GitHub avec tag prototype.

Piste longue — 6 / 12 / 24 mois (cohorte sentinelle)

Objectif : observer les effets différés d’une couche ou d’une combinaison de couches.

Questions que cette piste doit trancher :

Métriques :

Critères de réfutation à 24 mois :

Livrable : étude qualitative ou pré-print académique. Si vous publiez en revue à comité, citer l’édifice via le BibTeX de README.md. Cf. NAMING.md §3 pour les métadonnées canoniques.


2. Cadre éthique commun aux deux pistes

Toute évaluation doit respecter :


3. Pour qui propose un pilote

Si vous porteriez un pilote, suivre cette séquence :

  1. Lire SAFETY.md, PROTOTYPES.md, EVIDENCE_MAP.md, REFUTATION.md.
  2. Choisir une couche ou un mécanisme spécifique (idéalement un claim niveau D dans EVIDENCE_MAP.md §6 dette empirique prioritaire).
  3. Définir votre protocole : objectifs précis, métriques, critères d’arrêt, échéance d’évaluation.
  4. Documenter publiquement votre protocole AVANT de démarrer (Issue GitHub, blog, ou fork avec FORK_NOTES.md).
  5. Constituer votre comité de relecture éthique (3 référents extérieurs minimum).
  6. Démarrer uniquement si tous les pré-requis sont remplis.
  7. Mesurer selon votre protocole sans le modifier en cours de route (modification → suspendre + rééditer publiquement).
  8. Publier votre rapport à 90 jours et/ou à 24 mois, même si les résultats sont négatifs ou nuls.

4. Pour qui veut financer un pilote

Si vous êtes fondation, État-pilote, université, ONG :

Toute mention de financement doit respecter NAMING.md §6 lettre type non-affiliation.


5. Pour qui audite un pilote (extérieur)

Si vous êtes chercheur·euse, journaliste, comité d’éthique extérieur, et que vous voulez auditer un pilote en cours :

  1. Utiliser le kit de HOSTILE_DRILL.md Partie B audit adverse gelé — 5 questions imposées, délai 4 semaines, règle de publication intégrale.
  2. Demander accès aux données brutes anonymisées au porteur (Issue GitHub publique).
  3. Si refus du porteur : signaler dans OPEN_GRIEVANCES.md avec format gabarit.
  4. Publier votre note même défavorable. L’édifice s’engage à la citer publiquement, à ne pas la censurer, et à répondre point-par-point sous 60 jours.

6. Liste des pilotes en cours / publiés

(Mai 2026 — vide. Sera mise à jour à mesure que des prototypes émergent.)

ID piloteCouche(s)PorteurPhase (90j / 6m / 12m / 24m)StatutLien rapport
(aucun pour l’instant)

Pour ajouter un pilote : Pull Request sur ce fichier avec ligne nouvelle. Discussion publique 7 jours.


7. Limites de ce protocole


8. À implémenter dans une itération ultérieure

Backlog interne (cf. memory/anthropy_improvements_backlog.md si exposé) :

Ces éléments restent à construire quand le premier pilote sera réellement engagé.


« Évaluer ne veut pas dire mesurer pour rassurer. C’est mesurer pour réfuter si nécessaire. »