Files

Jules Neny 21c44d8193 feat(aep): carte AEP — push Gitea 2026-04-28

2026-04-28 14:00:05 +02:00

13 KiB

Raw Permalink Blame History

type, project, created, status, session

type	project	created	status	session
documentation	NAV V2	2026-04-14	validé	S3

PIPE-IA-DOC — Pipeline enrichissement IA NAV V2

Documentation précise du pipeline IA d'enrichissement des fiches NAV. Base pour le futur skill /mistral-nemo-vps.

1. Vue d'ensemble

Fiche soumise (moderation_status=pending, ai_processed=false)
        ↓
[WORKER] toutes les 5 min via systemd timer
        ↓
SCRAPING — crawl4ai AsyncHTTPCrawlerStrategy (mode statique, sans Playwright)
        ↓
TRUNCATURE — 16 000 chars max (~4 000 tokens)
        ↓
MISTRAL NEMO — open-mistral-nemo, temp=0.2, max_tokens=800, json_object
        ↓
NORMALISATION TAGS — mapping taxonomie interne
        ↓
UPDATE NocoDB — description_enrichie, points_cles, tags_fonction, moderation_status=ai_processed
        ↓
LOG stats_usage — tokens_in, tokens_out, cout_eur, orga_id

2. Input — Schéma fiche entrant

Champs lus depuis NocoDB (table `organisations`, `m08t7g5v4wch6wb`)

Champ	Type	Rôle dans la pipe
`Id`	int	Identifiant unique, passé à stats_usage comme orga_id
`nom`	text	Passé dans le user prompt
`url`	text	URL à scraper (si présente et scrape_status=pending)
`description` / `description_user`	longtext	Fallback si scrape échoué ou URL absente
`echelle`	select	Passé au prompt pour contexte
`scrape_status`	select	Détermine si on scrape (pending) ou non
`ai_processed`	checkbox	false = à traiter
`moderation_status`	select	pending = à traiter

Filtre NocoDB

GET /api/v1/db/data/noco/{BASE}/{TABLE}?
  where=(moderation_status,eq,pending)~and(ai_processed,eq,false)
  &limit=5
  &sort=submitted_at

3. Scraping — crawl4ai mode HTTP statique

Configuration

from crawl4ai import AsyncWebCrawler, CrawlerRunConfig
from crawl4ai.async_crawler_strategy import AsyncHTTPCrawlerStrategy

strategy = AsyncHTTPCrawlerStrategy()
run_cfg = CrawlerRunConfig(
    word_count_threshold=20,
    excluded_tags=['nav', 'footer', 'script', 'style', 'head'],
    remove_overlay_elements=True
)

Points clés

Mode statique uniquement — pas de Playwright, pas de Chrome (Playwright non installé sur le VPS Hetzner CAX11)
Timeout : 3 minutes (spawnSync avec timeout=180 000 ms)
Troncature : 16 000 chars max après récupération (~4 000 tokens Nemo)
Fallback : si échec, flag scrape_status=failed et appel Mistral avec description_user seule
Script Python exécuté via spawnSync('python3', [scriptPath]) depuis Node.js

Limitations connues

Les SPAs (Angular, React sans SSR) peuvent retourner du HTML vide → scrape_status=failed
Les sites avec RGPD wall (consent redirect) → scrape_status=failed
Crawl4ai 0.8.6 sur VPS : mode statique uniquement. Si besoin de JS-rendering → installer Playwright (playwright install chromium) et basculer sur AsyncWebCrawler standard.

4. Appel Mistral Nemo — Prompt exact

Paramètres API

{
  "model": "open-mistral-nemo",
  "temperature": 0.2,
  "max_tokens": 800,
  "response_format": { "type": "json_object" }
}

System prompt (copie exacte, source F §3)

Tu es un assistant spécialisé dans l'écosystème professionnel de l'architecture en France. Tu reçois des informations sur une organisation ou ressource liée au secteur de l'architecture, et tu dois les enrichir pour alimenter une cartographie collaborative.

RÈGLES ABSOLUES :
1. Tu ne dois JAMAIS inventer d'informations non présentes dans les sources fournies.
2. Si une information est absente ou incertaine, retourne `null` pour ce champ.
3. Tu dois retourner UNIQUEMENT un objet JSON valide, sans texte avant ou après.
4. La description_enrichie doit être neutre, factuelle, en français, sans jugement de valeur.
5. Les points_cles sont des phrases courtes (max 12 mots chacune), actionnables pour un architecte.
6. Pour les tags_fonction, ne propose que des valeurs parmi la liste autorisée.

TAXONOMIE AUTORISÉE :
- Échelle (une seule valeur) : "National" | "Régional" | "Départemental" | "Local"
- Territoire (une seule valeur) : "Métropole" | "Guadeloupe" | "Martinique" | "Guyane" | "Réunion" | "Mayotte" | null
- Tags fonction (1 à 5 valeurs) : "Juridique" | "Technique" | "Économique" | "Administratif" | "Chantier" | "Comptabilité" | "Développement" | "Formation" | "Gestion d'agence" | "Santé mentale"

FORMAT DE SORTIE JSON :
{
  "description_enrichie": "string (max 300 chars, français, neutre, factuel)",
  "points_cles": ["string", "string", "string"],
  "tags_fonction": ["Valeur1", "Valeur2"],
  "echelle": "National" | "Régional" | "Départemental" | "Local" | null,
  "territoire": "Métropole" | ... | null,
  "localisation_ville": "string" | null,
  "confiance": "haute" | "moyenne" | "faible"
}

Le champ "confiance" reflète ta certitude globale sur l'enrichissement :
- "haute" : URL scrapée avec contenu riche, informations claires
- "moyenne" : URL scrapée mais contenu partiel, ou description_user seule suffisante
- "faible" : URL non disponible et description_user vague, inférences importantes

User prompt (template)

ORGANISATION À ENRICHIR :

Nom : {{nom}}
URL : {{url_ou_"non fournie"}}
Description soumise par l'utilisateur : {{description_user_ou_"non fournie"}}

CONTENU DU SITE WEB (extrait par scraping) :
{{scrape_content_ou_"Site non accessible ou URL non fournie."}}

---

Enrichis cette fiche selon les règles du system prompt. Retourne uniquement le JSON.

5. Output — Champs mis à jour dans NocoDB

Champ NocoDB	Source	Exemple
`description_enrichie`	JSON IA `.description_enrichie`	"Le CNOA est un organisme réglementaire..."
`points_cles`	JSON.stringify(IA `.points_cles`)	`["Représenter les architectes","..."]`
`tags_fonction`	Tags normalisés, joint par virgule	`"Juridique,Administratif"`
`echelle`	IA `.echelle` (si non renseignée)	`"National"`
`territoire`	IA `.territoire` (si non renseignée)	`"Métropole"`
`localisation_ville`	IA `.localisation_ville` (si vide)	`"Paris"`
`moderation_status`	Fixé à `"ai_processed"`	—
`ai_processed`	Fixé à `true`	—
`ai_raw_output`	JSON.stringify complet du retour IA	Debug
`scrape_status`	`"scraped"` / `"failed"` / `"no_link"`	—
`scrape_content`	Markdown brut crawl4ai	Stocké pour debug

Normalisation tags

Les tags retournés par l'IA sont normalisés via un mapping interne avant insertion. L'apostrophe ' (U+0027) est convertie en ' (U+2019) pour compatibilité NocoDB. Tags non reconnus → ignorés silencieusement.

6. Circuit breaker budget

Calcul coût Mistral Nemo

cout_eur = ((tokens_in × 0.02 + tokens_out × 0.04) / 1_000_000) × 0.93

(Prix USD/1M tokens × taux USD→EUR fixé à 0.93)

Paliers

Seuil	Action
≥ €20	Hard stop, email Jules, worker en pause
Budget OK	Vérification avant chaque fiche

Limitation connue

Le filtre NocoDB par date (gte,YYYY-MM-DD) n'est pas supporté en v0.301.5. Contournement : récupération de tous les records stats_usage (limit=1000) et filtre JavaScript par mois/année.

7. Infrastructure

Fichiers

Fichier	Chemin VPS	Description
Worker	`/opt/nav-carte/worker/enrich.js`	Script Node.js principal
Config	`/opt/nav-carte/.env`	Variables (chmod 600)
Lock	`/tmp/nav-worker.lock`	Anti-overlap
Timer	`/etc/systemd/system/nav-worker.timer`	Cron 5 min
Service	`/etc/systemd/system/nav-worker.service`	Oneshot systemd

Variables .env utilisées

MISTRAL_API_KEY=...
NOCODB_URL=http://localhost:8070
NOCODB_TOKEN=...
NOCODB_BASE=pipilvsi7dibo80
NOCODB_TABLE_ORGAS=m08t7g5v4wch6wb
NOCODB_TABLE_STATS=mbbq7n47ixy19mc
RESEND_API_KEY=...
RESEND_FROM=contact@trans-former.fr
EMAIL_JULES=jules@trans-former.fr
BUDGET_MAX_EUR=20
WORKER_LIMIT=5

Commandes utiles

# Voir les logs du worker
journalctl -u nav-worker.service -n 50 --no-pager

# Voir le timer
systemctl status nav-worker.timer

# Lancer manuellement
cd /opt/nav-carte/worker && node --env-file=/opt/nav-carte/.env enrich.js

# Lancer avec limite custom
WORKER_LIMIT=1 node --env-file=/opt/nav-carte/.env enrich.js

8. Résultats des 3 fiches test (Session 3 — 2026-04-14)

Métriques

Fiche	NocoDB Id	Scrape	tokens_in	tokens_out	cout_eur	Temps	Confiance
CNOA	106	1 506 chars	1 248	167	€0.000029	3.0s	haute
Archireport	107	13 414 chars	4 376	261	€0.000091	3.9s	haute
Collectif Fil	108	6 521 chars	2 628	221	€0.000057	4.3s	haute
Total	—	—	8 252	649	€0.000177	11.2s	—

Extrapolation 96 fiches : €0.000177 × (96/3) = €0.0057 total (très loin du seuil €1)

Qualité des enrichissements

CNOA (qualité : 4/5)

description_enrichie : neutre, factuelle, 200 chars. Correct.
points_cles : 4 items. Pertinents mais génériques (niveau d'abstraction élevé).
tags_fonction : Juridique, Administratif. L'IA a conservé uniquement les tags justifiés par le contenu scraped (règle "ne pas inventer" respectée). Manque "Gestion d'agence" qui était dans la fiche Jules mais pas dans le contenu scraped.
Observation : le site architectes.org retourne peu de contenu (navigation + accroche = 1 506 chars). Performance correcte compte tenu du contexte limité.

Archireport (qualité : 5/5)

description_enrichie : précise, factuelle, 302 chars. Très bonne.
points_cles : 7 items très actionnables pour un architecte (gestion réserves, rapports, lots).
tags_fonction : Technique, Administratif, Chantier. Pertinent. L'IA a ajouté "Administratif" non présent dans la fiche Jules → justifié (diffusion rapports de chantier = dimension administrative).
Scrape : 13 414 chars = contenu riche. Nemo a bien distillé.

Collectif Fil (qualité : 4/5)

description_enrichie : riche, capture l'esprit du collectif (architecture, urbanisme, participatif). 310 chars (légèrement au-dessus de 300, acceptable).
points_cles : 3 items très qualitatifs (urbanisme participatif, méthodologies, co-construction).
tags_fonction : Juridique, Technique, Économique, Administratif, Formation. 5 tags — un peu large. "Juridique" et "Économique" sont discutables pour un collectif de recherche-action. À revoir lors de la modération.
Observation : l'IA semble sur-tagger quand le contenu est riche et varié. Acceptable — Jules valide en modération.

Analyse comparative fonctions Jules vs IA

Fiche	Fonctions Jules (seed)	Fonctions IA	Delta
CNOA	Juridique, Administratif, Gestion d'agence	Juridique, Administratif	IA perd Gestion d'agence (non dans scrape)
Archireport	Chantier, Technique	Technique, Administratif, Chantier	IA ajoute Administratif (justifié)
Collectif Fil	Technique, Développement	Juridique, Technique, Économique, Administratif, Formation	IA sur-tague (5/5)

Observation générale : l'IA est conservatrice sur les fiches avec peu de contenu (bon comportement) et peut sur-tagger avec du contenu riche. Le workflow Jules valide en modération NocoDB UI est adapté.

9. Problèmes rencontrés et solutions

Problème	Solution appliquée
Playwright absent sur VPS → crawl4ai crash	Utilisation de `AsyncHTTPCrawlerStrategy` (mode statique)
NocoDB rejette filtres datetime ISO	Récupération de tous les records + filtre JavaScript par mois
NocoDB rejette apostrophe U+0027 dans tags	Utilisation apostrophe typographique U+2019 partout
`import('child_process')` dynamique en ESM	Remplacement par `spawnSync` importé statiquement en haut
Budget check fonctionne mais log "Erreur"	Corrigé dans version finale

10. Base skill `/mistral-nemo-vps` (future)

Ce pipeline est documenté pour servir de base au skill /mistral-nemo-vps :

Entrée : fichier texte ou URL → scraping crawl4ai → prompt enrichissement
Sortie : JSON structuré (description, points clés, tags, confiance)
Paramètres configurables : model, temperature, max_tokens, taxonomie, seuil confiance
Réutilisable pour : audit fiche archi, résumé document, tagging automatique

Pattern à généraliser :

1. Scrape(url) → markdown tronqué
2. Prompt(system_prompt, user_prompt_template, fiche_data, scrape_content)
3. Parse(json_response) → champs structurés
4. Normalize(tags) → taxonomie contrôlée
5. Log(usage) → stats_usage

13 KiB Raw Permalink Blame History Unescape Escape