nav-carte/V2-cadrage/B-provider-ia-souverain.md

# NAV — Choix provider IA souverain

Date : 2026-04-14

---

## TL;DR

Recommandation : **C. Mistral direct** (mistral-small ou mistral-nemo) pour ces raisons : prix imbattable pour les volumes NAV (< 1 €/mois), souveraineté FR/EU native, zero data retention disponible sur API, OpenAI-compatible, zero setup.

Plan B : **A. Scaleway Generative APIs** si besoin d'un fournisseur FR 100% indépendant de Mistral (pas de relation directe), ou si les modèles Scaleway (Qwen, Llama, Mistral hébergés en FR) conviennent mieux pour un usage multi-modèle.

---

## Tableau comparatif

| Critère | Scaleway Gen. APIs | Synthetic.new | Mistral direct | Ollama self-host | Scaleway GPU |
|---|---|---|---|---|---|
| Souveraineté | FR (Scaleway SAS) | EU (localisation à confirmer) | FR (Paris) | 100% VPS Hetzner DE | FR (Scaleway SAS) |
| RGPD / rétention | Zéro rétention par défaut (2 sem. si incident) | Non documenté publiquement | 30 j par défaut, ZDR activable sur API | Zéro (local) | Zéro rétention (même politique que Gen. APIs) |
| Kimi 2.5 dispo | Non | Oui (hf:moonshotai/Kimi-K2.5 et K2-Thinking) | Non | Oui (quantisé, mais VPS trop petit) | Oui (déployable) |
| Meilleur modèle dispo | Qwen 3.5-397B, Mistral Small 3.2, Llama 3.3 70B | Kimi K2.5, Kimi K2-Thinking, 19+ modèles | Mistral Small 3.1, Mistral Medium 3, Mistral Large | Gemma3:4B, Phi-4 Mini, Qwen 3 4B (CPU-only) | Tout modèle open-weight |
| Prix/1M input | €0,15 | Forfait ~$30/mois tout compris | $0,02 (Nemo) / $0,20 (Small) | ~0 + infra | ~0 + GPU |
| Prix/1M output | €0,35 | inclus dans forfait | $0,04 (Nemo) / $0,60 (Small) | ~0 + infra | ~0 + GPU |
| Coût estimé/mois (usage NAV) | ~€0,30–€1,20 | $30 (forfait fixe) | ~$0,05–$0,50 | €7,99–€15,99 (upgrade VPS) | €50–€100+ si à la demande |
| Latence | Bonne (datacenters FR) | Bonne (EU) | Bonne (datacenters FR) | Très lente (CPU-only, 2–6 tok/s) | Excellente (GPU dédié) |
| Setup | OpenAI-compat, drop-in | OpenAI-compat | OpenAI-compat | Docker + model pull | VM + déploiement modèle |
| Plafonnement budget | Quota API configurable | Budget fixe par nature | Quota API + alertes | Infra-bound | Infra-bound + alertes billing |

---

## Analyse par option

### A. Scaleway Generative APIs

**Forces :**
- Hébergement 100% France, filiale Iliad (groupe Xavier Niel)
- Zéro data retention par défaut — politique claire et documentée
- Drop-in OpenAI-compatible
- Batch API disponible : -50% sur le prix, sans rate limit (idéal pour le worker post-processing fiches)
- Modèles solides : Mistral Small 3.2, Qwen 3.5, Llama 3.3 70B
- Free tier 1M tokens/mois inclus

**Faiblesses :**
- Pas de Kimi 2.5 (si c'est un critère modèle)
- Pricing output (€0,35/1M) légèrement plus élevé que Mistral direct
- Dépend des modèles disponibles sur leur catalogue (moins de choix que Mistral direct)

**Coût estimé pour les 3 usages NAV :**

```
Usage 1 — Worker post-processing fiches
  80 fiches/mois × (500 in + 500 out) = 80 000 tokens
  Input  : 0,08M × €0,15 = €0,01
  Output : 0,08M × €0,35 = €0,03
  Sous-total : ~€0,04/mois (ou gratuit dans le free tier)

Usage 2 — Chatbot recherche
  150 req/mois × (2 000 in + 300 out) = 345 000 tokens
  Input  : 0,30M × €0,15 = €0,045
  Output : 0,045M × €0,35 = €0,016
  Sous-total : ~€0,06/mois

Usage 3 — Filtre éthique commentaires
  150 req/mois × (200 in + 20 out) = 33 000 tokens
  Sous-total : négligeable

Total Scaleway : ~€0,10–€0,20/mois (hors free tier)
Avec Batch API (-50%) sur Usage 1 : encore moins cher
```

---

### B. Synthetic.new

**Forces :**
- Forfait fixe $30/mois : budgétairement prévisible
- Kimi K2.5 et K2-Thinking disponibles via API
- OpenAI-compatible (endpoint `api.synthetic.new`)
- Modèle "privacy-first" selon leur positionnement

**Faiblesses :**
- $30/mois est sur-dimensionné pour les volumes NAV actuels (on paierait 60–300× trop cher)
- Politique RGPD / data retention non documentée publiquement — point bloquant pour usage professionnel
- Localisation exacte des serveurs non confirmée (EU oui, mais pays ?)
- Dépendance à un petit acteur sans DPA public → risque de disparition ou changement tarifaire
- Le forfait usage-based existe mais les tarifs par token ne sont pas clairement publiés

**Coût estimé pour les 3 usages NAV :**
- $30/mois fixe quelle que soit la consommation
- Cohérent uniquement si usage intensif personnel/prod (> 500 req/jour)
- Pour NAV au stade actuel : sur-coût 60× vs Mistral

---

### C. Mistral direct

**Forces :**
- Mistral = société française, siège à Paris, supervisée par CNIL
- ZDR (Zero Data Retention) activable directement sur l'API — le seul fournisseur à l'offrir explicitement avec documentation officielle
- OpenAI-compatible, drop-in, aucun setup
- Mistral Nemo : $0,02/$0,04 par 1M tokens → le moins cher du marché parmi les modèles sérieux
- Mistral Small 3.1 : $0,20/$0,60 — bon rapport qualité/prix pour le chatbot et le filtre éthique
- Data Processing Addendum disponible pour toutes les entreprises

**Faiblesses :**
- Pas de Kimi 2.5 (si besoin d'un modèle agentic spécifique)
- Mistral Large ($2/$6) ou Medium ($0,40/$2) deviennent chers si on monte en gamme
- Dépendance à un seul fournisseur pour tous les usages

**Coût estimé pour les 3 usages NAV :**

```
Stratégie recommandée :
  Usage 1 (worker fiches) → mistral-nemo ($0,02/$0,04)
  Usage 2 (chatbot)       → mistral-small-3.1 ($0,20/$0,60)
  Usage 3 (filtre)        → mistral-nemo ($0,02/$0,04)

Usage 1 — 80 fiches/mois × 1 000 tokens = 80 000 tokens
  Input  : 0,04M × $0,02 = $0,001 | Output : 0,04M × $0,04 = $0,002
  Sous-total : ~$0,003

Usage 2 — 150 req/mois × 2 300 tokens = 345 000 tokens
  Input  : 0,30M × $0,20 = $0,060 | Output : 0,045M × $0,60 = $0,027
  Sous-total : ~$0,09

Usage 3 — 150 req/mois × 220 tokens = 33 000 tokens
  Sous-total : ~$0,001

Total Mistral : ~$0,10–$0,15/mois (<< €1)
```

---

### D. Ollama self-hosted (VPS actuel)

**VPS actuel : 4 GB RAM, 2 vCPU (Hetzner CAX11 ou équivalent)**
- Insuffisant pour tout modèle 7B+ (minimum 8 GB RAM requis)
- Gemma3:4B ou Phi-4 Mini peuvent tourner en Q4_K_M (~3,5 GB), mais en CPU-only
- Performance CPU : 2–6 tokens/s → **inacceptable pour le chatbot** (temps de réponse 30–60s pour 300 tokens out)
- Pour le filtre éthique (20 tokens out) : marginalement utilisable, mais toujours lent

**Upgrade nécessaire :**

```
CAX21 (Hetzner ARM, 4 vCPU / 8 GB RAM) → €7,99/mois
  Modèles possibles : Gemma3:4B Q8, Phi-4 Mini, Qwen3:4B
  Performance CPU : ~8–15 tok/s (ARM Ampere)
  Qualité : correcte pour le filtre éthique, limite pour le chatbot

CAX31 (Hetzner ARM, 8 vCPU / 16 GB RAM) → €15,99/mois
  Modèles possibles : Gemma3:12B Q4, Mistral 7B Q8, Qwen3:8B
  Performance CPU : ~5–10 tok/s sur 7–12B
  Qualité : acceptable pour tous les usages NAV
  Charge maintenance : Docker, model pull, mises à jour, monitoring
```

**Réalisme CPU-only :**
- Pas de GPU sur les VPS Hetzner standard → inférence CPU uniquement
- Mistral 7B ou Qwen 7B sur CPU = 3–6 tok/s = **non viable pour chatbot temps réel**
- Gemma3:4B sur CAX21 = seul compromis réaliste, mais qualité inférieure à Mistral Small

**Coût total :**
- CAX21 : €7,99/mois + temps de maintenance ~1h/mois
- CAX31 : €15,99/mois + temps de maintenance
- Dans les deux cas, prix 10–50× plus élevé que Mistral direct pour une qualité inférieure

**Conclusion Ollama :** pertinent uniquement si la contrainte de souveraineté est absolue (zéro tiers, données confidentielles très sensibles) ET si on accepte la latence. Pas recommandé pour le chatbot NAV.

---

### E. Scaleway GPU

**Contexte :**
- GPU instances Scaleway (L4, L40S, H100 SXM) en datacenter France
- H100 SXM : ~€3,50/h | A100 : ~€2,50/h | L4 : ~€0,50/h (estimation)
- Usage facturable à l'heure → adapté aux bursts, pas au serving continu

**Forces :**
- Souveraineté FR + RGPD = même niveau que Scaleway Generative APIs
- Liberté totale sur les modèles (déployer Kimi 2.5 quantisé, Mistral, Qwen...)
- Latence excellente (GPU dédié)
- Zéro dépendance à un provider d'inférence

**Faiblesses :**
- Coût fixe prohibitif : L4 à €0,50/h = €360/mois en continu → hors budget
- Pour usage sporadique (50–200 req/mois), il faut un orchestrateur qui allume/éteint le GPU
- Complexité d'orchestration (Kubernetes, Triton, ou script custom)
- Overkill pour les volumes NAV actuels

**Coût estimé :**
- En continu : €360–€2 500/mois selon GPU → hors budget 20€
- En spot/burst (5h/mois d'inférence L4) : ~€2,50/mois d'infra, mais complexité setup = 2–3j de travail

**Conclusion GPU Scaleway :** à considérer uniquement à très grande échelle (10 000+ req/mois) ou pour le déploiement d'un modèle custom non disponible ailleurs.

---

## Reco finale

**Mistral direct (option C)** est la reco sans hésitation pour NAV dans sa phase actuelle.

Le coût réel sera inférieur à $0,15/mois pour les 3 usages combinés — soit 100× sous le budget de 20€. La souveraineté est native (France, CNIL), le ZDR est activable en un paramètre API, et l'intégration est un copier-coller de clé API. La stratégie à deux modèles (Nemo pour le worker + filtre éthique, Small pour le chatbot) optimise le rapport qualité/prix.

Si dans 12–18 mois les volumes explosent (> 5 000 req/mois chatbot) ou si un modèle spécifique non disponible chez Mistral devient critique, Scaleway Generative APIs est le plan B naturel — même souveraineté, catalogue élargi, Batch API intégré.

Synthetic.new et Ollama self-hosted ne sont pas recommandés pour ce cas d'usage à ce stade.

---

## Plafonnement budget

### Circuit breaker à 20€/mois

**Mistral direct** (recommandé) :

L'API Mistral expose des `usage` metrics dans chaque réponse. Options :
1. **Alerte billing Mistral** : configurer une notification à 10€ et un hard limit à 20€ dans le dashboard `console.mistral.ai` → Settings → Billing → Budget alerts
2. **Middleware applicatif** : compteur Redis cumulant les tokens, coupure si seuil atteint (patterns standard LangChain/LiteLLM)
3. **LiteLLM proxy** : mode budget_manager intégré, peut limiter par utilisateur et par total mensuel

**Scaleway Generative APIs** (plan B) :
- Interface billing avec quotas configurables par organisation
- Batch API comme soupape : si quota temps réel atteint, basculer en batch (-50% coût)

**Confort :** à $0,15/mois de consommation prévue, le budget de 20€ représente 133× la consommation estimée — le circuit breaker est une précaution, pas une urgence en phase de lancement.

---

## Sources consultées

- [Scaleway Model-as-a-service pricing](https://www.scaleway.com/en/pricing/model-as-a-service/)
- [Scaleway Generative APIs data privacy](https://www.scaleway.com/en/docs/generative-apis/reference-content/data-privacy/)
- [Scaleway supported models](https://www.scaleway.com/en/docs/generative-apis/reference-content/supported-models/)
- [Mistral AI pricing docs](https://docs.mistral.ai/deployment/ai-studio/pricing)
- [Mistral ZDR documentation](https://help.mistral.ai/en/articles/347612-can-i-activate-zero-data-retention-zdr)
- [Mistral data storage EU](https://help.mistral.ai/en/articles/347629-where-do-you-store-my-data-or-my-organization-s-data)
- [Synthetic.new pricing](https://synthetic.new/pricing)
- [Synthetic.new blog subscriptions](https://synthetic.new/blog/subscriptions)
- [Kimi K2.5 via Synthetic (TypingMind guide)](https://www.typingmind.com/guide/synthetic/hf-moonshotai-Kimi-K2-Thinking)
- [Hetzner CAX pricing](https://www.hetzner.com/cloud/cost-optimized)
- [Ollama VPS requirements](https://localllm.in/blog/ollama-vram-requirements-for-local-llms)
- [Best Ollama models 8GB RAM](https://localaimaster.com/blog/best-local-ai-models-8gb-ram)
- [EU LLM API comparison JuiceFactory 2026](https://juicefactory.ai/en/guides/eu-llm-api-comparison)