hazylab / security

Sécurité des systèmes LLM

Moteur de détection d'injections de prompts en 10 stades, scoring local sans appel réseau, obfuscation des prompts système.

Détection multi-couches

Le moteur analyse chaque entrée utilisateur à travers 10 stades indépendants : patterns regex, correspondance exacte, distance fuzzy, normalisation NFKC, détection Unicode homoglyphes, analyse sémantique, scoring par catégorie (exfiltration, override, role-play).

Chaque stade produit un score partiel. L'agrégation pondérée détermine le niveau de risque final (safe, flag, block).

Obfuscation

Les prompts système sont nettoyés avant envoi au LLM. Tokens sensibles, chemins fichiers, adresses IP, traces de stack sont remplacés par des marqueurs génériques.

Financement NLnet

Ce travail est partiellement financé par NLnet (NGI Zero Core). Les composants produits : pkg/injection (scanner stateless), pkg/injguard (gardien stateful multi-tours), pkg/redact (sanitisation).