The Specialized AI Hub: Why the Management Plane Is Leaving the LLM

Avril 2026

Ce qui existe aujourd'hui

OpenClaw a 250 000 etoiles GitHub et 9 CVE en deux mois. 512 vulnerabilites identifiees lors d'un audit en janvier 2026, dont un WebSocket hijacking a distance (CVSS 8.8). 40 000 instances exposees sur internet, 63% vulnerables. Un skill communautaire ClawHub effectuait de l'exfiltration de donnees par prompt injection sans que l'utilisateur le sache (Cisco, 2026). NVIDIA a du construire un runtime securise (NemoClaw) par-dessus, avec 17 partenaires enterprise, pour rendre le produit deployable.

C'est le projet open source a la croissance la plus rapide de l'histoire. C'est aussi la demonstration empirique qu'un agent monolithique local — un process unique avec acces fichiers, shell, navigateur, messageries, et 700 skills communautaires non audites — est une surface d'attaque, pas un produit.

En parallele, les verticaux sont finances :

Harvey (juridique) : 806 millions de dollars leves, 11 milliards de valorisation, 25 000 agents customs. Le moat est la conformite juridique, pas le modele.
Hippocratic AI (sante) : 126 millions, 115 millions d'interactions cliniques, HIPAA natif. Le moat est la certification medicale, pas le modele.
Edgerunner WarClaw (defense) : on-premises, sans internet. Les LLMs grand public refusent 98% des commandes militaires. Le moat est l'accreditation, pas le modele.

Le pattern est identique : la valeur est dans la couche de conformite sectorielle et les donnees accumulees. Le modele est interchangeable.

Les pieces du puzzle

Six composants sont necessaires pour qu'un agent LLM soit operationnel en production. Chacun est identifie separement dans l'industrie. Personne ne les assemble.

Piece	Qui la voit	Ce qui manque
Le modele est un commodity	Glean, Karpathy, les gateways (LiteLLM, OpenRouter)	Tout le monde le dit, personne n'en tire la consequence architecturale
Le management plane est le vrai moat	Microsoft (Foundry), les providers (Claude Code, Codex)	Ils le vendent comme produit proprietaire, pas comme standard
Les hubs sectoriels sont le differenciant	Harvey, Hippocratic, WarClaw	Vu comme "vertical SaaS", pas comme architecture de bus
Un pont standard entre hubs et modeles	MCP (outils), A2A Google (decouverte), ACP IBM (messaging)	Chaque protocole couvre un fragment. Aucun ne couvre memoire + conventions + orchestration + auth
L'auth externalisee	Cerbos (Go, PDP stateless), Microsoft Agent Governance Toolkit, Permit.io	Les briques existent. Aucune n'est integree dans un CLI agentique
Un registre de capabilities dynamique	—	Personne. Les CLI listent les outils dans un JSON statique ou les decouvrent au runtime

Une etude ETH Zurich (mars 2026) a mesure l'effet des fichiers de conventions (CLAUDE.md, .cursorrules, AGENTS.md) : +4% de performance au mieux, +20% de cout d'inference. Un fichier markdown ne remplace pas un catalogue structure. Le gain est marginal parce que le format est libre — le LLM interprete, il n'execute pas.

Factory.ai documente le "context rot" : la fenetre de contexte se degrade empiriquement au fil d'une session longue. Plus l'agent accumule de contexte brut, plus la qualite de ses decisions baisse. La fenetre de contexte n'est pas une memoire — c'est un buffer qui deborde.

Simon Willison, apres des mois de tests, conclut qu'aucun modele local ne gere les tool calls de facon assez fiable pour un agent de production. L'ecart entre modeles n'est pas le raisonnement — c'est la consistance operationnelle.

Ce que haiub fait

haiub est un bus organisationnel pour agents LLM. Il n'est pas theorique — il tourne, avec 11 zones, 73 capabilities declarees, et des LLMs de differents providers branches dessus (Claude Opus, Qwen 3.6).

Les decisions de design :

Un catalogue SQLite (brain.db), pas un fichier markdown. brain.db contient 50 tables : dimensions, etats, transitions, capabilities, brainpatterns, profils, ACL, questions de qualification, formats de distillation. Chaque decision metier est un INSERT, pas un case dans du code. Ajouter un etat = un INSERT. Ajouter une capability = un INSERT. Le runtime ne decide rien — il lit le catalogue.

C'est ce que les fichiers SOUL.md, CLAUDE.md, AGENTS.md essaient de faire avec du texte libre. La difference : un SELECT est deterministe, un prompt est stochastique. Le catalogue est auditable, requetable, versionne. Le fichier markdown est interprete differemment par chaque modele, chaque session, chaque temperature.

Des agents a temperature variable, pas des agents generiques. Un agent qui conoit une architecture et un agent qui ecrit 60 tests de conformite ne sont pas le meme agent. Le premier a besoin de jugement, de contradiction, de vision. Le second a besoin de consistance, de repetabilite, de vitesse. Le premier est "chaud" (Opus, inference couteuse, creatif). Le second est "froid" (Qwen, inference bon marche, mecanique). Le bus alloue le bon modele au bon desk, selon le step du workflow.

En une session, un agent froid (Qwen 3.6) a produit 140 fichiers, 60 tests de conformite, et migre 27 handlers — a 28% de sa capacite de contexte. Un agent chaud (Opus) a concu l'architecture, redige les plans, et arbitre les decisions. Le cout total d'inference du froid est negligeable (cache a 90%, 1000 requetes/jour). Le chaud intervient sur les points de decision — 5% du volume, 95% de la valeur architecturale.

La distillation comme reponse au context rot. Un resultat brut ne va jamais au LLM. Il passe par trois zones : production (resultat brut), correlation (croisement avec les hints du catalogue), distillation (compression en document dense adapte au destinataire). Le format de sortie est declare dans le catalogue (distill_formats + distill_criteria). Le LLM de distillation est un modele bon marche (Llama 70B) qui applique les criteres sans latitude. Il compresse, il ne decide pas.

Factory.ai documente le probleme (context rot). La distillation est la reponse architecturale : au lieu de gonfler la fenetre de contexte avec du brut, on la nourrit avec du distille. Le ratio est 10:1 — 500 tokens distilles remplacent 5000 tokens bruts.

L'auth par ACL declaratives, pas par Y/N dans le terminal. Chaque desk a un profil. Chaque profil a des ACL (profile_entity_access) qui declarent quels types d'entites il peut lire, ecrire, transiter. Un agent godev-1 ne peut pas modifier une mission — il peut la lire. Un agent moa-1 peut transiter une mission de "proposed" a "dispatched". C'est declare dans le catalogue, pas demande dans le terminal.

OpenClaw demande Y/N pour chaque action dans le terminal. Ca ne scale pas a 200 actions par session, ca ne scale pas a 3 agents en parallele, ca ne scale pas a un workflow medical avec des regles HIPAA. L'auth externalisee est la seule architecture viable pour l'agentification en production.

OpenClaw vs haiub : deux modeles

	OpenClaw	haiub
Architecture	Monolithe local, un process	Bus inter-zones, N processes
Conventions	SOUL.md (texte libre)	brain.db (catalogue SQL, 50 tables)
Capabilities	700+ skills communautaires, non audites	73 capabilities declarees en archtime, auditees
Auth	Y/N dans le terminal	ACL declaratives par profil
Modeles	Un seul par session	N modeles, alloues par temperature
Memoire	Fenetre de contexte	Distillation (10:1) + rollog + vault
Securite	512 vulnerabilites, 9 CVE en 2 mois	Catalogue closed-world, tracing natif
Cible	Personnel (tout pour moi)	Sectoriel (chaque desk fait une chose)

Les deux modeles repondent a des besoins differents. OpenClaw est un assistant personnel — il fait tout, partout, pour un utilisateur. haiub est un bus organisationnel — il coordonne des agents specialises dans un perimetre metier. L'un est un couteau suisse. L'autre est une chaine de montage.

Le couteau suisse est seduisant. Mais les entreprises qui ont besoin de compliance, de tracabilite, et d'audit ne deploient pas des couteaux suisses — elles deploient des chaines de montage.

L'espace ouvert

Plusieurs concepts n'existent pas encore dans la litterature ou l'industrie.

Operability-in-inference. Le terme n'existe pas. AIOS (paper COLM 2025) propose que le LLM devienne l'OS — c'est la position inverse. L'operabilite n'est pas une couche au-dessus du modele ni un mode du modele. C'est une propriete emergente du couple modele + catalogue. Le meme Qwen 3.6, branche seul sur un terminal, produit du code verbeux et ne capitalise rien. Le meme Qwen, branche sur haiub avec brain.db, un profil, des ACL, et un brainpattern, produit du code conforme et capitalise chaque session.

OpenCLI. Aucun standard ouvert ne definit l'interface entre un modele et un hub. MCP couvre les outils. A2A couvre la decouverte inter-agents. ACP couvre le messaging asynchrone. Aucun ne couvre memoire + conventions + orchestration + auth en un seul protocole. Le pont entre providers et hubs n'existe pas.

SQLite comme registre de capabilities hot-reloadable. Les CLI actuelles listent les outils dans un JSON statique ou les decouvrent au runtime par introspection. Un registre SQLite local, versionnable, requetable, modifiable a chaud sans redemarrage de session, n'est implemente nulle part en standard.

Le challenging chaud/froid. Un workflow de verification ou un agent conservateur (froid) verifie la conformite et les bonnes pratiques, puis un agent divergent (chaud) challenge la pertinence et cherche les zones d'ombre. Le froid repond par oui/non avec une preuve. Le chaud repond par une question qui remet en cause la premisse. Les deux produisent des findings qui enrichissent le catalogue pour la session suivante.

Ce que cela implique

Le marche est a un point d'inflexion. Les gateways (OpenRouter, LiteLLM) ont banalise l'acces aux modeles — le modele n'est plus un differenciant. Les providers migrent vers la gouvernance et la memoire pour maintenir le lock-in. Les verticaux (Harvey, Hippocratic) captent la valeur par la conformite sectorielle.

Ce qui manque, c'est le schema d'ensemble : un bus organisationnel ouvert, avec un catalogue structure, une auth declarative, une distillation systematique, et un pont standard vers n'importe quel modele. Les pieces existent. Le schema non.

Sauf ici.

Sources datees : OpenClaw GitHub (2025-2026), Kaspersky audit janvier 2026, CVE-2026-25253/24763/26322/26329/30741, Cisco blog 2026, NVIDIA NemoClaw mars 2026, Harvey Series D 2025, Hippocratic AI Series C 2025, ETH Zurich mars 2026, Factory.ai 2026, Karpathy fin 2025, Simon Willison 2025-2026, AIOS COLM 2025, Microsoft Agent Governance Toolkit avril 2026, Cerbos, A2A Google, ACP IBM.