feat(aep): carte AEP — push Gitea 2026-04-28

This commit is contained in:
Jules Neny
2026-04-28 14:00:05 +02:00
commit 21c44d8193
86 changed files with 31855 additions and 0 deletions

View File

@@ -0,0 +1,244 @@
# NAV — Choix provider IA souverain
Date : 2026-04-14
---
## TL;DR
Recommandation : **C. Mistral direct** (mistral-small ou mistral-nemo) pour ces raisons : prix imbattable pour les volumes NAV (< 1 €/mois), souveraineté FR/EU native, zero data retention disponible sur API, OpenAI-compatible, zero setup.
Plan B : **A. Scaleway Generative APIs** si besoin d'un fournisseur FR 100% indépendant de Mistral (pas de relation directe), ou si les modèles Scaleway (Qwen, Llama, Mistral hébergés en FR) conviennent mieux pour un usage multi-modèle.
---
## Tableau comparatif
| Critère | Scaleway Gen. APIs | Synthetic.new | Mistral direct | Ollama self-host | Scaleway GPU |
|---|---|---|---|---|---|
| Souveraineté | FR (Scaleway SAS) | EU (localisation à confirmer) | FR (Paris) | 100% VPS Hetzner DE | FR (Scaleway SAS) |
| RGPD / rétention | Zéro rétention par défaut (2 sem. si incident) | Non documenté publiquement | 30 j par défaut, ZDR activable sur API | Zéro (local) | Zéro rétention (même politique que Gen. APIs) |
| Kimi 2.5 dispo | Non | Oui (hf:moonshotai/Kimi-K2.5 et K2-Thinking) | Non | Oui (quantisé, mais VPS trop petit) | Oui (déployable) |
| Meilleur modèle dispo | Qwen 3.5-397B, Mistral Small 3.2, Llama 3.3 70B | Kimi K2.5, Kimi K2-Thinking, 19+ modèles | Mistral Small 3.1, Mistral Medium 3, Mistral Large | Gemma3:4B, Phi-4 Mini, Qwen 3 4B (CPU-only) | Tout modèle open-weight |
| Prix/1M input | €0,15 | Forfait ~$30/mois tout compris | $0,02 (Nemo) / $0,20 (Small) | ~0 + infra | ~0 + GPU |
| Prix/1M output | €0,35 | inclus dans forfait | $0,04 (Nemo) / $0,60 (Small) | ~0 + infra | ~0 + GPU |
| Coût estimé/mois (usage NAV) | ~€0,30€1,20 | $30 (forfait fixe) | ~$0,05$0,50 | €7,99€15,99 (upgrade VPS) | €50€100+ si à la demande |
| Latence | Bonne (datacenters FR) | Bonne (EU) | Bonne (datacenters FR) | Très lente (CPU-only, 26 tok/s) | Excellente (GPU dédié) |
| Setup | OpenAI-compat, drop-in | OpenAI-compat | OpenAI-compat | Docker + model pull | VM + déploiement modèle |
| Plafonnement budget | Quota API configurable | Budget fixe par nature | Quota API + alertes | Infra-bound | Infra-bound + alertes billing |
---
## Analyse par option
### A. Scaleway Generative APIs
**Forces :**
- Hébergement 100% France, filiale Iliad (groupe Xavier Niel)
- Zéro data retention par défaut — politique claire et documentée
- Drop-in OpenAI-compatible
- Batch API disponible : -50% sur le prix, sans rate limit (idéal pour le worker post-processing fiches)
- Modèles solides : Mistral Small 3.2, Qwen 3.5, Llama 3.3 70B
- Free tier 1M tokens/mois inclus
**Faiblesses :**
- Pas de Kimi 2.5 (si c'est un critère modèle)
- Pricing output (€0,35/1M) légèrement plus élevé que Mistral direct
- Dépend des modèles disponibles sur leur catalogue (moins de choix que Mistral direct)
**Coût estimé pour les 3 usages NAV :**
```
Usage 1 — Worker post-processing fiches
80 fiches/mois × (500 in + 500 out) = 80 000 tokens
Input : 0,08M × €0,15 = €0,01
Output : 0,08M × €0,35 = €0,03
Sous-total : ~€0,04/mois (ou gratuit dans le free tier)
Usage 2 — Chatbot recherche
150 req/mois × (2 000 in + 300 out) = 345 000 tokens
Input : 0,30M × €0,15 = €0,045
Output : 0,045M × €0,35 = €0,016
Sous-total : ~€0,06/mois
Usage 3 — Filtre éthique commentaires
150 req/mois × (200 in + 20 out) = 33 000 tokens
Sous-total : négligeable
Total Scaleway : ~€0,10€0,20/mois (hors free tier)
Avec Batch API (-50%) sur Usage 1 : encore moins cher
```
---
### B. Synthetic.new
**Forces :**
- Forfait fixe $30/mois : budgétairement prévisible
- Kimi K2.5 et K2-Thinking disponibles via API
- OpenAI-compatible (endpoint `api.synthetic.new`)
- Modèle "privacy-first" selon leur positionnement
**Faiblesses :**
- $30/mois est sur-dimensionné pour les volumes NAV actuels (on paierait 60300× trop cher)
- Politique RGPD / data retention non documentée publiquement — point bloquant pour usage professionnel
- Localisation exacte des serveurs non confirmée (EU oui, mais pays ?)
- Dépendance à un petit acteur sans DPA public → risque de disparition ou changement tarifaire
- Le forfait usage-based existe mais les tarifs par token ne sont pas clairement publiés
**Coût estimé pour les 3 usages NAV :**
- $30/mois fixe quelle que soit la consommation
- Cohérent uniquement si usage intensif personnel/prod (> 500 req/jour)
- Pour NAV au stade actuel : sur-coût 60× vs Mistral
---
### C. Mistral direct
**Forces :**
- Mistral = société française, siège à Paris, supervisée par CNIL
- ZDR (Zero Data Retention) activable directement sur l'API — le seul fournisseur à l'offrir explicitement avec documentation officielle
- OpenAI-compatible, drop-in, aucun setup
- Mistral Nemo : $0,02/$0,04 par 1M tokens → le moins cher du marché parmi les modèles sérieux
- Mistral Small 3.1 : $0,20/$0,60 — bon rapport qualité/prix pour le chatbot et le filtre éthique
- Data Processing Addendum disponible pour toutes les entreprises
**Faiblesses :**
- Pas de Kimi 2.5 (si besoin d'un modèle agentic spécifique)
- Mistral Large ($2/$6) ou Medium ($0,40/$2) deviennent chers si on monte en gamme
- Dépendance à un seul fournisseur pour tous les usages
**Coût estimé pour les 3 usages NAV :**
```
Stratégie recommandée :
Usage 1 (worker fiches) → mistral-nemo ($0,02/$0,04)
Usage 2 (chatbot) → mistral-small-3.1 ($0,20/$0,60)
Usage 3 (filtre) → mistral-nemo ($0,02/$0,04)
Usage 1 — 80 fiches/mois × 1 000 tokens = 80 000 tokens
Input : 0,04M × $0,02 = $0,001 | Output : 0,04M × $0,04 = $0,002
Sous-total : ~$0,003
Usage 2 — 150 req/mois × 2 300 tokens = 345 000 tokens
Input : 0,30M × $0,20 = $0,060 | Output : 0,045M × $0,60 = $0,027
Sous-total : ~$0,09
Usage 3 — 150 req/mois × 220 tokens = 33 000 tokens
Sous-total : ~$0,001
Total Mistral : ~$0,10$0,15/mois (<< €1)
```
---
### D. Ollama self-hosted (VPS actuel)
**VPS actuel : 4 GB RAM, 2 vCPU (Hetzner CAX11 ou équivalent)**
- Insuffisant pour tout modèle 7B+ (minimum 8 GB RAM requis)
- Gemma3:4B ou Phi-4 Mini peuvent tourner en Q4_K_M (~3,5 GB), mais en CPU-only
- Performance CPU : 26 tokens/s → **inacceptable pour le chatbot** (temps de réponse 3060s pour 300 tokens out)
- Pour le filtre éthique (20 tokens out) : marginalement utilisable, mais toujours lent
**Upgrade nécessaire :**
```
CAX21 (Hetzner ARM, 4 vCPU / 8 GB RAM) → €7,99/mois
Modèles possibles : Gemma3:4B Q8, Phi-4 Mini, Qwen3:4B
Performance CPU : ~815 tok/s (ARM Ampere)
Qualité : correcte pour le filtre éthique, limite pour le chatbot
CAX31 (Hetzner ARM, 8 vCPU / 16 GB RAM) → €15,99/mois
Modèles possibles : Gemma3:12B Q4, Mistral 7B Q8, Qwen3:8B
Performance CPU : ~510 tok/s sur 712B
Qualité : acceptable pour tous les usages NAV
Charge maintenance : Docker, model pull, mises à jour, monitoring
```
**Réalisme CPU-only :**
- Pas de GPU sur les VPS Hetzner standard → inférence CPU uniquement
- Mistral 7B ou Qwen 7B sur CPU = 36 tok/s = **non viable pour chatbot temps réel**
- Gemma3:4B sur CAX21 = seul compromis réaliste, mais qualité inférieure à Mistral Small
**Coût total :**
- CAX21 : €7,99/mois + temps de maintenance ~1h/mois
- CAX31 : €15,99/mois + temps de maintenance
- Dans les deux cas, prix 1050× plus élevé que Mistral direct pour une qualité inférieure
**Conclusion Ollama :** pertinent uniquement si la contrainte de souveraineté est absolue (zéro tiers, données confidentielles très sensibles) ET si on accepte la latence. Pas recommandé pour le chatbot NAV.
---
### E. Scaleway GPU
**Contexte :**
- GPU instances Scaleway (L4, L40S, H100 SXM) en datacenter France
- H100 SXM : ~€3,50/h | A100 : ~€2,50/h | L4 : ~€0,50/h (estimation)
- Usage facturable à l'heure → adapté aux bursts, pas au serving continu
**Forces :**
- Souveraineté FR + RGPD = même niveau que Scaleway Generative APIs
- Liberté totale sur les modèles (déployer Kimi 2.5 quantisé, Mistral, Qwen...)
- Latence excellente (GPU dédié)
- Zéro dépendance à un provider d'inférence
**Faiblesses :**
- Coût fixe prohibitif : L4 à €0,50/h = €360/mois en continu → hors budget
- Pour usage sporadique (50200 req/mois), il faut un orchestrateur qui allume/éteint le GPU
- Complexité d'orchestration (Kubernetes, Triton, ou script custom)
- Overkill pour les volumes NAV actuels
**Coût estimé :**
- En continu : €360€2 500/mois selon GPU → hors budget 20€
- En spot/burst (5h/mois d'inférence L4) : ~€2,50/mois d'infra, mais complexité setup = 23j de travail
**Conclusion GPU Scaleway :** à considérer uniquement à très grande échelle (10 000+ req/mois) ou pour le déploiement d'un modèle custom non disponible ailleurs.
---
## Reco finale
**Mistral direct (option C)** est la reco sans hésitation pour NAV dans sa phase actuelle.
Le coût réel sera inférieur à $0,15/mois pour les 3 usages combinés — soit 100× sous le budget de 20€. La souveraineté est native (France, CNIL), le ZDR est activable en un paramètre API, et l'intégration est un copier-coller de clé API. La stratégie à deux modèles (Nemo pour le worker + filtre éthique, Small pour le chatbot) optimise le rapport qualité/prix.
Si dans 1218 mois les volumes explosent (> 5 000 req/mois chatbot) ou si un modèle spécifique non disponible chez Mistral devient critique, Scaleway Generative APIs est le plan B naturel — même souveraineté, catalogue élargi, Batch API intégré.
Synthetic.new et Ollama self-hosted ne sont pas recommandés pour ce cas d'usage à ce stade.
---
## Plafonnement budget
### Circuit breaker à 20€/mois
**Mistral direct** (recommandé) :
L'API Mistral expose des `usage` metrics dans chaque réponse. Options :
1. **Alerte billing Mistral** : configurer une notification à 10€ et un hard limit à 20€ dans le dashboard `console.mistral.ai` → Settings → Billing → Budget alerts
2. **Middleware applicatif** : compteur Redis cumulant les tokens, coupure si seuil atteint (patterns standard LangChain/LiteLLM)
3. **LiteLLM proxy** : mode budget_manager intégré, peut limiter par utilisateur et par total mensuel
**Scaleway Generative APIs** (plan B) :
- Interface billing avec quotas configurables par organisation
- Batch API comme soupape : si quota temps réel atteint, basculer en batch (-50% coût)
**Confort :** à $0,15/mois de consommation prévue, le budget de 20€ représente 133× la consommation estimée — le circuit breaker est une précaution, pas une urgence en phase de lancement.
---
## Sources consultées
- [Scaleway Model-as-a-service pricing](https://www.scaleway.com/en/pricing/model-as-a-service/)
- [Scaleway Generative APIs data privacy](https://www.scaleway.com/en/docs/generative-apis/reference-content/data-privacy/)
- [Scaleway supported models](https://www.scaleway.com/en/docs/generative-apis/reference-content/supported-models/)
- [Mistral AI pricing docs](https://docs.mistral.ai/deployment/ai-studio/pricing)
- [Mistral ZDR documentation](https://help.mistral.ai/en/articles/347612-can-i-activate-zero-data-retention-zdr)
- [Mistral data storage EU](https://help.mistral.ai/en/articles/347629-where-do-you-store-my-data-or-my-organization-s-data)
- [Synthetic.new pricing](https://synthetic.new/pricing)
- [Synthetic.new blog subscriptions](https://synthetic.new/blog/subscriptions)
- [Kimi K2.5 via Synthetic (TypingMind guide)](https://www.typingmind.com/guide/synthetic/hf-moonshotai-Kimi-K2-Thinking)
- [Hetzner CAX pricing](https://www.hetzner.com/cloud/cost-optimized)
- [Ollama VPS requirements](https://localllm.in/blog/ollama-vram-requirements-for-local-llms)
- [Best Ollama models 8GB RAM](https://localaimaster.com/blog/best-local-ai-models-8gb-ram)
- [EU LLM API comparison JuiceFactory 2026](https://juicefactory.ai/en/guides/eu-llm-api-comparison)