Workflows HOROS
Pipeline de traitement documentaire HORAG. Chaque workflow est une séquence de workers supervisés. Chaque worker est un binaire indépendant.
Pipeline complet
Le flux principal transforme un document brut en claims vérifiables et en vecteurs interrogeables. Les cinq workflows couvrent l'acquisition, le pré-traitement, l'extraction, l'embedding et l'indexation.
source → fetch → triage (lang, classify) → pré-traitement (meta, entités, resolve, augment) → extraction (NER, claims, vérification) → embedding → indexation shard
Annuaire des workflows
| Workflow | Description | Étapes |
|---|---|---|
| premachage_web | Pré-traitement documents web | langdetect → meta_extract → regex_entities → classify → resolve → augment |
| premachage_document | Pré-traitement documents PDF/DOCX | parse → sanitize → langdetect → classify → resolve → augment |
| claims_extraction | Extraction de claims et d'entités nommées | ner_detect → claim_decompose → claim_verify |
| injection | Embedding vectoriel et indexation dans les shards | embed → vec_insert → shard_sync |
| acquisition | Collecte depuis les sources configurées | source_registry → scheduler → fetch → triage |