feat(aep): carte AEP — push Gitea 2026-04-28

2026-04-28 14:00:05 +02:00
commit 21c44d8193
86 changed files with 31855 additions and 0 deletions
--- a/V2-cadrage/B-provider-ia-souverain.md
+++ b/V2-cadrage/B-provider-ia-souverain.md
@@ -0,0 +1,244 @@
+# NAV — Choix provider IA souverain
+
+Date : 2026-04-14
+
+---
+
+## TL;DR
+
+Recommandation : **C. Mistral direct** (mistral-small ou mistral-nemo) pour ces raisons : prix imbattable pour les volumes NAV (< 1 €/mois), souveraineté FR/EU native, zero data retention disponible sur API, OpenAI-compatible, zero setup.
+
+Plan B : **A. Scaleway Generative APIs** si besoin d'un fournisseur FR 100% indépendant de Mistral (pas de relation directe), ou si les modèles Scaleway (Qwen, Llama, Mistral hébergés en FR) conviennent mieux pour un usage multi-modèle.
+
+---
+
+## Tableau comparatif
+
+| Critère | Scaleway Gen. APIs | Synthetic.new | Mistral direct | Ollama self-host | Scaleway GPU |
+|---|---|---|---|---|---|
+| Souveraineté | FR (Scaleway SAS) | EU (localisation à confirmer) | FR (Paris) | 100% VPS Hetzner DE | FR (Scaleway SAS) |
+| RGPD / rétention | Zéro rétention par défaut (2 sem. si incident) | Non documenté publiquement | 30 j par défaut, ZDR activable sur API | Zéro (local) | Zéro rétention (même politique que Gen. APIs) |
+| Kimi 2.5 dispo | Non | Oui (hf:moonshotai/Kimi-K2.5 et K2-Thinking) | Non | Oui (quantisé, mais VPS trop petit) | Oui (déployable) |
+| Meilleur modèle dispo | Qwen 3.5-397B, Mistral Small 3.2, Llama 3.3 70B | Kimi K2.5, Kimi K2-Thinking, 19+ modèles | Mistral Small 3.1, Mistral Medium 3, Mistral Large | Gemma3:4B, Phi-4 Mini, Qwen 3 4B (CPU-only) | Tout modèle open-weight |
+| Prix/1M input | €0,15 | Forfait ~$30/mois tout compris | $0,02 (Nemo) / $0,20 (Small) | ~0 + infra | ~0 + GPU |
+| Prix/1M output | €0,35 | inclus dans forfait | $0,04 (Nemo) / $0,60 (Small) | ~0 + infra | ~0 + GPU |
+| Coût estimé/mois (usage NAV) | ~€0,30–€1,20 | $30 (forfait fixe) | ~$0,05–$0,50 | €7,99–€15,99 (upgrade VPS) | €50–€100+ si à la demande |
+| Latence | Bonne (datacenters FR) | Bonne (EU) | Bonne (datacenters FR) | Très lente (CPU-only, 2–6 tok/s) | Excellente (GPU dédié) |
+| Setup | OpenAI-compat, drop-in | OpenAI-compat | OpenAI-compat | Docker + model pull | VM + déploiement modèle |
+| Plafonnement budget | Quota API configurable | Budget fixe par nature | Quota API + alertes | Infra-bound | Infra-bound + alertes billing |
+
+---
+
+## Analyse par option
+
+### A. Scaleway Generative APIs
+
+**Forces :**
+- Hébergement 100% France, filiale Iliad (groupe Xavier Niel)
+- Zéro data retention par défaut — politique claire et documentée
+- Drop-in OpenAI-compatible
+- Batch API disponible : -50% sur le prix, sans rate limit (idéal pour le worker post-processing fiches)
+- Modèles solides : Mistral Small 3.2, Qwen 3.5, Llama 3.3 70B
+- Free tier 1M tokens/mois inclus
+
+**Faiblesses :**
+- Pas de Kimi 2.5 (si c'est un critère modèle)
+- Pricing output (€0,35/1M) légèrement plus élevé que Mistral direct
+- Dépend des modèles disponibles sur leur catalogue (moins de choix que Mistral direct)
+
+**Coût estimé pour les 3 usages NAV :**
+
+```
+Usage 1 — Worker post-processing fiches
+  80 fiches/mois × (500 in + 500 out) = 80 000 tokens
+  Input  : 0,08M × €0,15 = €0,01
+  Output : 0,08M × €0,35 = €0,03
+  Sous-total : ~€0,04/mois (ou gratuit dans le free tier)
+
+Usage 2 — Chatbot recherche
+  150 req/mois × (2 000 in + 300 out) = 345 000 tokens
+  Input  : 0,30M × €0,15 = €0,045
+  Output : 0,045M × €0,35 = €0,016
+  Sous-total : ~€0,06/mois
+
+Usage 3 — Filtre éthique commentaires
+  150 req/mois × (200 in + 20 out) = 33 000 tokens
+  Sous-total : négligeable
+
+Total Scaleway : ~€0,10–€0,20/mois (hors free tier)
+Avec Batch API (-50%) sur Usage 1 : encore moins cher
+```
+
+---
+
+### B. Synthetic.new
+
+**Forces :**
+- Forfait fixe $30/mois : budgétairement prévisible
+- Kimi K2.5 et K2-Thinking disponibles via API
+- OpenAI-compatible (endpoint `api.synthetic.new`)
+- Modèle "privacy-first" selon leur positionnement
+
+**Faiblesses :**
+- $30/mois est sur-dimensionné pour les volumes NAV actuels (on paierait 60–300× trop cher)
+- Politique RGPD / data retention non documentée publiquement — point bloquant pour usage professionnel
+- Localisation exacte des serveurs non confirmée (EU oui, mais pays ?)
+- Dépendance à un petit acteur sans DPA public → risque de disparition ou changement tarifaire
+- Le forfait usage-based existe mais les tarifs par token ne sont pas clairement publiés
+
+**Coût estimé pour les 3 usages NAV :**
+- $30/mois fixe quelle que soit la consommation
+- Cohérent uniquement si usage intensif personnel/prod (> 500 req/jour)
+- Pour NAV au stade actuel : sur-coût 60× vs Mistral
+
+---
+
+### C. Mistral direct
+
+**Forces :**
+- Mistral = société française, siège à Paris, supervisée par CNIL
+- ZDR (Zero Data Retention) activable directement sur l'API — le seul fournisseur à l'offrir explicitement avec documentation officielle
+- OpenAI-compatible, drop-in, aucun setup
+- Mistral Nemo : $0,02/$0,04 par 1M tokens → le moins cher du marché parmi les modèles sérieux
+- Mistral Small 3.1 : $0,20/$0,60 — bon rapport qualité/prix pour le chatbot et le filtre éthique
+- Data Processing Addendum disponible pour toutes les entreprises
+
+**Faiblesses :**
+- Pas de Kimi 2.5 (si besoin d'un modèle agentic spécifique)
+- Mistral Large ($2/$6) ou Medium ($0,40/$2) deviennent chers si on monte en gamme
+- Dépendance à un seul fournisseur pour tous les usages
+
+**Coût estimé pour les 3 usages NAV :**
+
+```
+Stratégie recommandée :
+  Usage 1 (worker fiches) → mistral-nemo ($0,02/$0,04)
+  Usage 2 (chatbot)       → mistral-small-3.1 ($0,20/$0,60)
+  Usage 3 (filtre)        → mistral-nemo ($0,02/$0,04)
+
+Usage 1 — 80 fiches/mois × 1 000 tokens = 80 000 tokens
+  Input  : 0,04M × $0,02 = $0,001 | Output : 0,04M × $0,04 = $0,002
+  Sous-total : ~$0,003
+
+Usage 2 — 150 req/mois × 2 300 tokens = 345 000 tokens
+  Input  : 0,30M × $0,20 = $0,060 | Output : 0,045M × $0,60 = $0,027
+  Sous-total : ~$0,09
+
+Usage 3 — 150 req/mois × 220 tokens = 33 000 tokens
+  Sous-total : ~$0,001
+
+Total Mistral : ~$0,10–$0,15/mois (<< €1)
+```
+
+---
+
+### D. Ollama self-hosted (VPS actuel)
+
+**VPS actuel : 4 GB RAM, 2 vCPU (Hetzner CAX11 ou équivalent)**
+- Insuffisant pour tout modèle 7B+ (minimum 8 GB RAM requis)
+- Gemma3:4B ou Phi-4 Mini peuvent tourner en Q4_K_M (~3,5 GB), mais en CPU-only
+- Performance CPU : 2–6 tokens/s → **inacceptable pour le chatbot** (temps de réponse 30–60s pour 300 tokens out)
+- Pour le filtre éthique (20 tokens out) : marginalement utilisable, mais toujours lent
+
+**Upgrade nécessaire :**
+
+```
+CAX21 (Hetzner ARM, 4 vCPU / 8 GB RAM) → €7,99/mois
+  Modèles possibles : Gemma3:4B Q8, Phi-4 Mini, Qwen3:4B
+  Performance CPU : ~8–15 tok/s (ARM Ampere)
+  Qualité : correcte pour le filtre éthique, limite pour le chatbot
+
+CAX31 (Hetzner ARM, 8 vCPU / 16 GB RAM) → €15,99/mois
+  Modèles possibles : Gemma3:12B Q4, Mistral 7B Q8, Qwen3:8B
+  Performance CPU : ~5–10 tok/s sur 7–12B
+  Qualité : acceptable pour tous les usages NAV
+  Charge maintenance : Docker, model pull, mises à jour, monitoring
+```
+
+**Réalisme CPU-only :**
+- Pas de GPU sur les VPS Hetzner standard → inférence CPU uniquement
+- Mistral 7B ou Qwen 7B sur CPU = 3–6 tok/s = **non viable pour chatbot temps réel**
+- Gemma3:4B sur CAX21 = seul compromis réaliste, mais qualité inférieure à Mistral Small
+
+**Coût total :**
+- CAX21 : €7,99/mois + temps de maintenance ~1h/mois
+- CAX31 : €15,99/mois + temps de maintenance
+- Dans les deux cas, prix 10–50× plus élevé que Mistral direct pour une qualité inférieure
+
+**Conclusion Ollama :** pertinent uniquement si la contrainte de souveraineté est absolue (zéro tiers, données confidentielles très sensibles) ET si on accepte la latence. Pas recommandé pour le chatbot NAV.
+
+---
+
+### E. Scaleway GPU
+
+**Contexte :**
+- GPU instances Scaleway (L4, L40S, H100 SXM) en datacenter France
+- H100 SXM : ~€3,50/h | A100 : ~€2,50/h | L4 : ~€0,50/h (estimation)
+- Usage facturable à l'heure → adapté aux bursts, pas au serving continu
+
+**Forces :**
+- Souveraineté FR + RGPD = même niveau que Scaleway Generative APIs
+- Liberté totale sur les modèles (déployer Kimi 2.5 quantisé, Mistral, Qwen...)
+- Latence excellente (GPU dédié)
+- Zéro dépendance à un provider d'inférence
+
+**Faiblesses :**
+- Coût fixe prohibitif : L4 à €0,50/h = €360/mois en continu → hors budget
+- Pour usage sporadique (50–200 req/mois), il faut un orchestrateur qui allume/éteint le GPU
+- Complexité d'orchestration (Kubernetes, Triton, ou script custom)
+- Overkill pour les volumes NAV actuels
+
+**Coût estimé :**
+- En continu : €360–€2 500/mois selon GPU → hors budget 20€
+- En spot/burst (5h/mois d'inférence L4) : ~€2,50/mois d'infra, mais complexité setup = 2–3j de travail
+
+**Conclusion GPU Scaleway :** à considérer uniquement à très grande échelle (10 000+ req/mois) ou pour le déploiement d'un modèle custom non disponible ailleurs.
+
+---
+
+## Reco finale
+
+**Mistral direct (option C)** est la reco sans hésitation pour NAV dans sa phase actuelle.
+
+Le coût réel sera inférieur à $0,15/mois pour les 3 usages combinés — soit 100× sous le budget de 20€. La souveraineté est native (France, CNIL), le ZDR est activable en un paramètre API, et l'intégration est un copier-coller de clé API. La stratégie à deux modèles (Nemo pour le worker + filtre éthique, Small pour le chatbot) optimise le rapport qualité/prix.
+
+Si dans 12–18 mois les volumes explosent (> 5 000 req/mois chatbot) ou si un modèle spécifique non disponible chez Mistral devient critique, Scaleway Generative APIs est le plan B naturel — même souveraineté, catalogue élargi, Batch API intégré.
+
+Synthetic.new et Ollama self-hosted ne sont pas recommandés pour ce cas d'usage à ce stade.
+
+---
+
+## Plafonnement budget
+
+### Circuit breaker à 20€/mois
+
+**Mistral direct** (recommandé) :
+
+L'API Mistral expose des `usage` metrics dans chaque réponse. Options :
+1. **Alerte billing Mistral** : configurer une notification à 10€ et un hard limit à 20€ dans le dashboard `console.mistral.ai` → Settings → Billing → Budget alerts
+2. **Middleware applicatif** : compteur Redis cumulant les tokens, coupure si seuil atteint (patterns standard LangChain/LiteLLM)
+3. **LiteLLM proxy** : mode budget_manager intégré, peut limiter par utilisateur et par total mensuel
+
+**Scaleway Generative APIs** (plan B) :
+- Interface billing avec quotas configurables par organisation
+- Batch API comme soupape : si quota temps réel atteint, basculer en batch (-50% coût)
+
+**Confort :** à $0,15/mois de consommation prévue, le budget de 20€ représente 133× la consommation estimée — le circuit breaker est une précaution, pas une urgence en phase de lancement.
+
+---
+
+## Sources consultées
+
+- [Scaleway Model-as-a-service pricing](https://www.scaleway.com/en/pricing/model-as-a-service/)
+- [Scaleway Generative APIs data privacy](https://www.scaleway.com/en/docs/generative-apis/reference-content/data-privacy/)
+- [Scaleway supported models](https://www.scaleway.com/en/docs/generative-apis/reference-content/supported-models/)
+- [Mistral AI pricing docs](https://docs.mistral.ai/deployment/ai-studio/pricing)
+- [Mistral ZDR documentation](https://help.mistral.ai/en/articles/347612-can-i-activate-zero-data-retention-zdr)
+- [Mistral data storage EU](https://help.mistral.ai/en/articles/347629-where-do-you-store-my-data-or-my-organization-s-data)
+- [Synthetic.new pricing](https://synthetic.new/pricing)
+- [Synthetic.new blog subscriptions](https://synthetic.new/blog/subscriptions)
+- [Kimi K2.5 via Synthetic (TypingMind guide)](https://www.typingmind.com/guide/synthetic/hf-moonshotai-Kimi-K2-Thinking)
+- [Hetzner CAX pricing](https://www.hetzner.com/cloud/cost-optimized)
+- [Ollama VPS requirements](https://localllm.in/blog/ollama-vram-requirements-for-local-llms)
+- [Best Ollama models 8GB RAM](https://localaimaster.com/blog/best-local-ai-models-8gb-ram)
+- [EU LLM API comparison JuiceFactory 2026](https://juicefactory.ai/en/guides/eu-llm-api-comparison)