Files
nav-carte/V2-cadrage/B-provider-ia-souverain.md
2026-04-28 14:00:05 +02:00

245 lines
12 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# NAV — Choix provider IA souverain
Date : 2026-04-14
---
## TL;DR
Recommandation : **C. Mistral direct** (mistral-small ou mistral-nemo) pour ces raisons : prix imbattable pour les volumes NAV (< 1 €/mois), souveraineté FR/EU native, zero data retention disponible sur API, OpenAI-compatible, zero setup.
Plan B : **A. Scaleway Generative APIs** si besoin d'un fournisseur FR 100% indépendant de Mistral (pas de relation directe), ou si les modèles Scaleway (Qwen, Llama, Mistral hébergés en FR) conviennent mieux pour un usage multi-modèle.
---
## Tableau comparatif
| Critère | Scaleway Gen. APIs | Synthetic.new | Mistral direct | Ollama self-host | Scaleway GPU |
|---|---|---|---|---|---|
| Souveraineté | FR (Scaleway SAS) | EU (localisation à confirmer) | FR (Paris) | 100% VPS Hetzner DE | FR (Scaleway SAS) |
| RGPD / rétention | Zéro rétention par défaut (2 sem. si incident) | Non documenté publiquement | 30 j par défaut, ZDR activable sur API | Zéro (local) | Zéro rétention (même politique que Gen. APIs) |
| Kimi 2.5 dispo | Non | Oui (hf:moonshotai/Kimi-K2.5 et K2-Thinking) | Non | Oui (quantisé, mais VPS trop petit) | Oui (déployable) |
| Meilleur modèle dispo | Qwen 3.5-397B, Mistral Small 3.2, Llama 3.3 70B | Kimi K2.5, Kimi K2-Thinking, 19+ modèles | Mistral Small 3.1, Mistral Medium 3, Mistral Large | Gemma3:4B, Phi-4 Mini, Qwen 3 4B (CPU-only) | Tout modèle open-weight |
| Prix/1M input | €0,15 | Forfait ~$30/mois tout compris | $0,02 (Nemo) / $0,20 (Small) | ~0 + infra | ~0 + GPU |
| Prix/1M output | €0,35 | inclus dans forfait | $0,04 (Nemo) / $0,60 (Small) | ~0 + infra | ~0 + GPU |
| Coût estimé/mois (usage NAV) | ~€0,30€1,20 | $30 (forfait fixe) | ~$0,05$0,50 | €7,99€15,99 (upgrade VPS) | €50€100+ si à la demande |
| Latence | Bonne (datacenters FR) | Bonne (EU) | Bonne (datacenters FR) | Très lente (CPU-only, 26 tok/s) | Excellente (GPU dédié) |
| Setup | OpenAI-compat, drop-in | OpenAI-compat | OpenAI-compat | Docker + model pull | VM + déploiement modèle |
| Plafonnement budget | Quota API configurable | Budget fixe par nature | Quota API + alertes | Infra-bound | Infra-bound + alertes billing |
---
## Analyse par option
### A. Scaleway Generative APIs
**Forces :**
- Hébergement 100% France, filiale Iliad (groupe Xavier Niel)
- Zéro data retention par défaut — politique claire et documentée
- Drop-in OpenAI-compatible
- Batch API disponible : -50% sur le prix, sans rate limit (idéal pour le worker post-processing fiches)
- Modèles solides : Mistral Small 3.2, Qwen 3.5, Llama 3.3 70B
- Free tier 1M tokens/mois inclus
**Faiblesses :**
- Pas de Kimi 2.5 (si c'est un critère modèle)
- Pricing output (€0,35/1M) légèrement plus élevé que Mistral direct
- Dépend des modèles disponibles sur leur catalogue (moins de choix que Mistral direct)
**Coût estimé pour les 3 usages NAV :**
```
Usage 1 — Worker post-processing fiches
80 fiches/mois × (500 in + 500 out) = 80 000 tokens
Input : 0,08M × €0,15 = €0,01
Output : 0,08M × €0,35 = €0,03
Sous-total : ~€0,04/mois (ou gratuit dans le free tier)
Usage 2 — Chatbot recherche
150 req/mois × (2 000 in + 300 out) = 345 000 tokens
Input : 0,30M × €0,15 = €0,045
Output : 0,045M × €0,35 = €0,016
Sous-total : ~€0,06/mois
Usage 3 — Filtre éthique commentaires
150 req/mois × (200 in + 20 out) = 33 000 tokens
Sous-total : négligeable
Total Scaleway : ~€0,10€0,20/mois (hors free tier)
Avec Batch API (-50%) sur Usage 1 : encore moins cher
```
---
### B. Synthetic.new
**Forces :**
- Forfait fixe $30/mois : budgétairement prévisible
- Kimi K2.5 et K2-Thinking disponibles via API
- OpenAI-compatible (endpoint `api.synthetic.new`)
- Modèle "privacy-first" selon leur positionnement
**Faiblesses :**
- $30/mois est sur-dimensionné pour les volumes NAV actuels (on paierait 60300× trop cher)
- Politique RGPD / data retention non documentée publiquement — point bloquant pour usage professionnel
- Localisation exacte des serveurs non confirmée (EU oui, mais pays ?)
- Dépendance à un petit acteur sans DPA public → risque de disparition ou changement tarifaire
- Le forfait usage-based existe mais les tarifs par token ne sont pas clairement publiés
**Coût estimé pour les 3 usages NAV :**
- $30/mois fixe quelle que soit la consommation
- Cohérent uniquement si usage intensif personnel/prod (> 500 req/jour)
- Pour NAV au stade actuel : sur-coût 60× vs Mistral
---
### C. Mistral direct
**Forces :**
- Mistral = société française, siège à Paris, supervisée par CNIL
- ZDR (Zero Data Retention) activable directement sur l'API — le seul fournisseur à l'offrir explicitement avec documentation officielle
- OpenAI-compatible, drop-in, aucun setup
- Mistral Nemo : $0,02/$0,04 par 1M tokens → le moins cher du marché parmi les modèles sérieux
- Mistral Small 3.1 : $0,20/$0,60 — bon rapport qualité/prix pour le chatbot et le filtre éthique
- Data Processing Addendum disponible pour toutes les entreprises
**Faiblesses :**
- Pas de Kimi 2.5 (si besoin d'un modèle agentic spécifique)
- Mistral Large ($2/$6) ou Medium ($0,40/$2) deviennent chers si on monte en gamme
- Dépendance à un seul fournisseur pour tous les usages
**Coût estimé pour les 3 usages NAV :**
```
Stratégie recommandée :
Usage 1 (worker fiches) → mistral-nemo ($0,02/$0,04)
Usage 2 (chatbot) → mistral-small-3.1 ($0,20/$0,60)
Usage 3 (filtre) → mistral-nemo ($0,02/$0,04)
Usage 1 — 80 fiches/mois × 1 000 tokens = 80 000 tokens
Input : 0,04M × $0,02 = $0,001 | Output : 0,04M × $0,04 = $0,002
Sous-total : ~$0,003
Usage 2 — 150 req/mois × 2 300 tokens = 345 000 tokens
Input : 0,30M × $0,20 = $0,060 | Output : 0,045M × $0,60 = $0,027
Sous-total : ~$0,09
Usage 3 — 150 req/mois × 220 tokens = 33 000 tokens
Sous-total : ~$0,001
Total Mistral : ~$0,10$0,15/mois (<< €1)
```
---
### D. Ollama self-hosted (VPS actuel)
**VPS actuel : 4 GB RAM, 2 vCPU (Hetzner CAX11 ou équivalent)**
- Insuffisant pour tout modèle 7B+ (minimum 8 GB RAM requis)
- Gemma3:4B ou Phi-4 Mini peuvent tourner en Q4_K_M (~3,5 GB), mais en CPU-only
- Performance CPU : 26 tokens/s → **inacceptable pour le chatbot** (temps de réponse 3060s pour 300 tokens out)
- Pour le filtre éthique (20 tokens out) : marginalement utilisable, mais toujours lent
**Upgrade nécessaire :**
```
CAX21 (Hetzner ARM, 4 vCPU / 8 GB RAM) → €7,99/mois
Modèles possibles : Gemma3:4B Q8, Phi-4 Mini, Qwen3:4B
Performance CPU : ~815 tok/s (ARM Ampere)
Qualité : correcte pour le filtre éthique, limite pour le chatbot
CAX31 (Hetzner ARM, 8 vCPU / 16 GB RAM) → €15,99/mois
Modèles possibles : Gemma3:12B Q4, Mistral 7B Q8, Qwen3:8B
Performance CPU : ~510 tok/s sur 712B
Qualité : acceptable pour tous les usages NAV
Charge maintenance : Docker, model pull, mises à jour, monitoring
```
**Réalisme CPU-only :**
- Pas de GPU sur les VPS Hetzner standard → inférence CPU uniquement
- Mistral 7B ou Qwen 7B sur CPU = 36 tok/s = **non viable pour chatbot temps réel**
- Gemma3:4B sur CAX21 = seul compromis réaliste, mais qualité inférieure à Mistral Small
**Coût total :**
- CAX21 : €7,99/mois + temps de maintenance ~1h/mois
- CAX31 : €15,99/mois + temps de maintenance
- Dans les deux cas, prix 1050× plus élevé que Mistral direct pour une qualité inférieure
**Conclusion Ollama :** pertinent uniquement si la contrainte de souveraineté est absolue (zéro tiers, données confidentielles très sensibles) ET si on accepte la latence. Pas recommandé pour le chatbot NAV.
---
### E. Scaleway GPU
**Contexte :**
- GPU instances Scaleway (L4, L40S, H100 SXM) en datacenter France
- H100 SXM : ~€3,50/h | A100 : ~€2,50/h | L4 : ~€0,50/h (estimation)
- Usage facturable à l'heure → adapté aux bursts, pas au serving continu
**Forces :**
- Souveraineté FR + RGPD = même niveau que Scaleway Generative APIs
- Liberté totale sur les modèles (déployer Kimi 2.5 quantisé, Mistral, Qwen...)
- Latence excellente (GPU dédié)
- Zéro dépendance à un provider d'inférence
**Faiblesses :**
- Coût fixe prohibitif : L4 à €0,50/h = €360/mois en continu → hors budget
- Pour usage sporadique (50200 req/mois), il faut un orchestrateur qui allume/éteint le GPU
- Complexité d'orchestration (Kubernetes, Triton, ou script custom)
- Overkill pour les volumes NAV actuels
**Coût estimé :**
- En continu : €360€2 500/mois selon GPU → hors budget 20€
- En spot/burst (5h/mois d'inférence L4) : ~€2,50/mois d'infra, mais complexité setup = 23j de travail
**Conclusion GPU Scaleway :** à considérer uniquement à très grande échelle (10 000+ req/mois) ou pour le déploiement d'un modèle custom non disponible ailleurs.
---
## Reco finale
**Mistral direct (option C)** est la reco sans hésitation pour NAV dans sa phase actuelle.
Le coût réel sera inférieur à $0,15/mois pour les 3 usages combinés — soit 100× sous le budget de 20€. La souveraineté est native (France, CNIL), le ZDR est activable en un paramètre API, et l'intégration est un copier-coller de clé API. La stratégie à deux modèles (Nemo pour le worker + filtre éthique, Small pour le chatbot) optimise le rapport qualité/prix.
Si dans 1218 mois les volumes explosent (> 5 000 req/mois chatbot) ou si un modèle spécifique non disponible chez Mistral devient critique, Scaleway Generative APIs est le plan B naturel — même souveraineté, catalogue élargi, Batch API intégré.
Synthetic.new et Ollama self-hosted ne sont pas recommandés pour ce cas d'usage à ce stade.
---
## Plafonnement budget
### Circuit breaker à 20€/mois
**Mistral direct** (recommandé) :
L'API Mistral expose des `usage` metrics dans chaque réponse. Options :
1. **Alerte billing Mistral** : configurer une notification à 10€ et un hard limit à 20€ dans le dashboard `console.mistral.ai` → Settings → Billing → Budget alerts
2. **Middleware applicatif** : compteur Redis cumulant les tokens, coupure si seuil atteint (patterns standard LangChain/LiteLLM)
3. **LiteLLM proxy** : mode budget_manager intégré, peut limiter par utilisateur et par total mensuel
**Scaleway Generative APIs** (plan B) :
- Interface billing avec quotas configurables par organisation
- Batch API comme soupape : si quota temps réel atteint, basculer en batch (-50% coût)
**Confort :** à $0,15/mois de consommation prévue, le budget de 20€ représente 133× la consommation estimée — le circuit breaker est une précaution, pas une urgence en phase de lancement.
---
## Sources consultées
- [Scaleway Model-as-a-service pricing](https://www.scaleway.com/en/pricing/model-as-a-service/)
- [Scaleway Generative APIs data privacy](https://www.scaleway.com/en/docs/generative-apis/reference-content/data-privacy/)
- [Scaleway supported models](https://www.scaleway.com/en/docs/generative-apis/reference-content/supported-models/)
- [Mistral AI pricing docs](https://docs.mistral.ai/deployment/ai-studio/pricing)
- [Mistral ZDR documentation](https://help.mistral.ai/en/articles/347612-can-i-activate-zero-data-retention-zdr)
- [Mistral data storage EU](https://help.mistral.ai/en/articles/347629-where-do-you-store-my-data-or-my-organization-s-data)
- [Synthetic.new pricing](https://synthetic.new/pricing)
- [Synthetic.new blog subscriptions](https://synthetic.new/blog/subscriptions)
- [Kimi K2.5 via Synthetic (TypingMind guide)](https://www.typingmind.com/guide/synthetic/hf-moonshotai-Kimi-K2-Thinking)
- [Hetzner CAX pricing](https://www.hetzner.com/cloud/cost-optimized)
- [Ollama VPS requirements](https://localllm.in/blog/ollama-vram-requirements-for-local-llms)
- [Best Ollama models 8GB RAM](https://localaimaster.com/blog/best-local-ai-models-8gb-ram)
- [EU LLM API comparison JuiceFactory 2026](https://juicefactory.ai/en/guides/eu-llm-api-comparison)