Files
nav-carte/V2-cadrage/B-provider-ia-souverain.md
2026-04-28 14:00:05 +02:00

12 KiB
Raw Permalink Blame History

NAV — Choix provider IA souverain

Date : 2026-04-14


TL;DR

Recommandation : C. Mistral direct (mistral-small ou mistral-nemo) pour ces raisons : prix imbattable pour les volumes NAV (< 1 €/mois), souveraineté FR/EU native, zero data retention disponible sur API, OpenAI-compatible, zero setup.

Plan B : A. Scaleway Generative APIs si besoin d'un fournisseur FR 100% indépendant de Mistral (pas de relation directe), ou si les modèles Scaleway (Qwen, Llama, Mistral hébergés en FR) conviennent mieux pour un usage multi-modèle.


Tableau comparatif

Critère Scaleway Gen. APIs Synthetic.new Mistral direct Ollama self-host Scaleway GPU
Souveraineté FR (Scaleway SAS) EU (localisation à confirmer) FR (Paris) 100% VPS Hetzner DE FR (Scaleway SAS)
RGPD / rétention Zéro rétention par défaut (2 sem. si incident) Non documenté publiquement 30 j par défaut, ZDR activable sur API Zéro (local) Zéro rétention (même politique que Gen. APIs)
Kimi 2.5 dispo Non Oui (hf:moonshotai/Kimi-K2.5 et K2-Thinking) Non Oui (quantisé, mais VPS trop petit) Oui (déployable)
Meilleur modèle dispo Qwen 3.5-397B, Mistral Small 3.2, Llama 3.3 70B Kimi K2.5, Kimi K2-Thinking, 19+ modèles Mistral Small 3.1, Mistral Medium 3, Mistral Large Gemma3:4B, Phi-4 Mini, Qwen 3 4B (CPU-only) Tout modèle open-weight
Prix/1M input €0,15 Forfait ~$30/mois tout compris $0,02 (Nemo) / $0,20 (Small) ~0 + infra ~0 + GPU
Prix/1M output €0,35 inclus dans forfait $0,04 (Nemo) / $0,60 (Small) ~0 + infra ~0 + GPU
Coût estimé/mois (usage NAV) ~€0,30€1,20 $30 (forfait fixe) ~$0,05$0,50 €7,99€15,99 (upgrade VPS) €50€100+ si à la demande
Latence Bonne (datacenters FR) Bonne (EU) Bonne (datacenters FR) Très lente (CPU-only, 26 tok/s) Excellente (GPU dédié)
Setup OpenAI-compat, drop-in OpenAI-compat OpenAI-compat Docker + model pull VM + déploiement modèle
Plafonnement budget Quota API configurable Budget fixe par nature Quota API + alertes Infra-bound Infra-bound + alertes billing

Analyse par option

A. Scaleway Generative APIs

Forces :

  • Hébergement 100% France, filiale Iliad (groupe Xavier Niel)
  • Zéro data retention par défaut — politique claire et documentée
  • Drop-in OpenAI-compatible
  • Batch API disponible : -50% sur le prix, sans rate limit (idéal pour le worker post-processing fiches)
  • Modèles solides : Mistral Small 3.2, Qwen 3.5, Llama 3.3 70B
  • Free tier 1M tokens/mois inclus

Faiblesses :

  • Pas de Kimi 2.5 (si c'est un critère modèle)
  • Pricing output (€0,35/1M) légèrement plus élevé que Mistral direct
  • Dépend des modèles disponibles sur leur catalogue (moins de choix que Mistral direct)

Coût estimé pour les 3 usages NAV :

Usage 1 — Worker post-processing fiches
  80 fiches/mois × (500 in + 500 out) = 80 000 tokens
  Input  : 0,08M × €0,15 = €0,01
  Output : 0,08M × €0,35 = €0,03
  Sous-total : ~€0,04/mois (ou gratuit dans le free tier)

Usage 2 — Chatbot recherche
  150 req/mois × (2 000 in + 300 out) = 345 000 tokens
  Input  : 0,30M × €0,15 = €0,045
  Output : 0,045M × €0,35 = €0,016
  Sous-total : ~€0,06/mois

Usage 3 — Filtre éthique commentaires
  150 req/mois × (200 in + 20 out) = 33 000 tokens
  Sous-total : négligeable

Total Scaleway : ~€0,10€0,20/mois (hors free tier)
Avec Batch API (-50%) sur Usage 1 : encore moins cher

B. Synthetic.new

Forces :

  • Forfait fixe $30/mois : budgétairement prévisible
  • Kimi K2.5 et K2-Thinking disponibles via API
  • OpenAI-compatible (endpoint api.synthetic.new)
  • Modèle "privacy-first" selon leur positionnement

Faiblesses :

  • $30/mois est sur-dimensionné pour les volumes NAV actuels (on paierait 60300× trop cher)
  • Politique RGPD / data retention non documentée publiquement — point bloquant pour usage professionnel
  • Localisation exacte des serveurs non confirmée (EU oui, mais pays ?)
  • Dépendance à un petit acteur sans DPA public → risque de disparition ou changement tarifaire
  • Le forfait usage-based existe mais les tarifs par token ne sont pas clairement publiés

Coût estimé pour les 3 usages NAV :

  • $30/mois fixe quelle que soit la consommation
  • Cohérent uniquement si usage intensif personnel/prod (> 500 req/jour)
  • Pour NAV au stade actuel : sur-coût 60× vs Mistral

C. Mistral direct

Forces :

  • Mistral = société française, siège à Paris, supervisée par CNIL
  • ZDR (Zero Data Retention) activable directement sur l'API — le seul fournisseur à l'offrir explicitement avec documentation officielle
  • OpenAI-compatible, drop-in, aucun setup
  • Mistral Nemo : $0,02/$0,04 par 1M tokens → le moins cher du marché parmi les modèles sérieux
  • Mistral Small 3.1 : $0,20/$0,60 — bon rapport qualité/prix pour le chatbot et le filtre éthique
  • Data Processing Addendum disponible pour toutes les entreprises

Faiblesses :

  • Pas de Kimi 2.5 (si besoin d'un modèle agentic spécifique)
  • Mistral Large ($2/$6) ou Medium ($0,40/$2) deviennent chers si on monte en gamme
  • Dépendance à un seul fournisseur pour tous les usages

Coût estimé pour les 3 usages NAV :

Stratégie recommandée :
  Usage 1 (worker fiches) → mistral-nemo ($0,02/$0,04)
  Usage 2 (chatbot)       → mistral-small-3.1 ($0,20/$0,60)
  Usage 3 (filtre)        → mistral-nemo ($0,02/$0,04)

Usage 1 — 80 fiches/mois × 1 000 tokens = 80 000 tokens
  Input  : 0,04M × $0,02 = $0,001 | Output : 0,04M × $0,04 = $0,002
  Sous-total : ~$0,003

Usage 2 — 150 req/mois × 2 300 tokens = 345 000 tokens
  Input  : 0,30M × $0,20 = $0,060 | Output : 0,045M × $0,60 = $0,027
  Sous-total : ~$0,09

Usage 3 — 150 req/mois × 220 tokens = 33 000 tokens
  Sous-total : ~$0,001

Total Mistral : ~$0,10$0,15/mois (<< €1)

D. Ollama self-hosted (VPS actuel)

VPS actuel : 4 GB RAM, 2 vCPU (Hetzner CAX11 ou équivalent)

  • Insuffisant pour tout modèle 7B+ (minimum 8 GB RAM requis)
  • Gemma3:4B ou Phi-4 Mini peuvent tourner en Q4_K_M (~3,5 GB), mais en CPU-only
  • Performance CPU : 26 tokens/s → inacceptable pour le chatbot (temps de réponse 3060s pour 300 tokens out)
  • Pour le filtre éthique (20 tokens out) : marginalement utilisable, mais toujours lent

Upgrade nécessaire :

CAX21 (Hetzner ARM, 4 vCPU / 8 GB RAM) → €7,99/mois
  Modèles possibles : Gemma3:4B Q8, Phi-4 Mini, Qwen3:4B
  Performance CPU : ~815 tok/s (ARM Ampere)
  Qualité : correcte pour le filtre éthique, limite pour le chatbot

CAX31 (Hetzner ARM, 8 vCPU / 16 GB RAM) → €15,99/mois
  Modèles possibles : Gemma3:12B Q4, Mistral 7B Q8, Qwen3:8B
  Performance CPU : ~510 tok/s sur 712B
  Qualité : acceptable pour tous les usages NAV
  Charge maintenance : Docker, model pull, mises à jour, monitoring

Réalisme CPU-only :

  • Pas de GPU sur les VPS Hetzner standard → inférence CPU uniquement
  • Mistral 7B ou Qwen 7B sur CPU = 36 tok/s = non viable pour chatbot temps réel
  • Gemma3:4B sur CAX21 = seul compromis réaliste, mais qualité inférieure à Mistral Small

Coût total :

  • CAX21 : €7,99/mois + temps de maintenance ~1h/mois
  • CAX31 : €15,99/mois + temps de maintenance
  • Dans les deux cas, prix 1050× plus élevé que Mistral direct pour une qualité inférieure

Conclusion Ollama : pertinent uniquement si la contrainte de souveraineté est absolue (zéro tiers, données confidentielles très sensibles) ET si on accepte la latence. Pas recommandé pour le chatbot NAV.


E. Scaleway GPU

Contexte :

  • GPU instances Scaleway (L4, L40S, H100 SXM) en datacenter France
  • H100 SXM : ~€3,50/h | A100 : ~€2,50/h | L4 : ~€0,50/h (estimation)
  • Usage facturable à l'heure → adapté aux bursts, pas au serving continu

Forces :

  • Souveraineté FR + RGPD = même niveau que Scaleway Generative APIs
  • Liberté totale sur les modèles (déployer Kimi 2.5 quantisé, Mistral, Qwen...)
  • Latence excellente (GPU dédié)
  • Zéro dépendance à un provider d'inférence

Faiblesses :

  • Coût fixe prohibitif : L4 à €0,50/h = €360/mois en continu → hors budget
  • Pour usage sporadique (50200 req/mois), il faut un orchestrateur qui allume/éteint le GPU
  • Complexité d'orchestration (Kubernetes, Triton, ou script custom)
  • Overkill pour les volumes NAV actuels

Coût estimé :

  • En continu : €360€2 500/mois selon GPU → hors budget 20€
  • En spot/burst (5h/mois d'inférence L4) : ~€2,50/mois d'infra, mais complexité setup = 23j de travail

Conclusion GPU Scaleway : à considérer uniquement à très grande échelle (10 000+ req/mois) ou pour le déploiement d'un modèle custom non disponible ailleurs.


Reco finale

Mistral direct (option C) est la reco sans hésitation pour NAV dans sa phase actuelle.

Le coût réel sera inférieur à $0,15/mois pour les 3 usages combinés — soit 100× sous le budget de 20€. La souveraineté est native (France, CNIL), le ZDR est activable en un paramètre API, et l'intégration est un copier-coller de clé API. La stratégie à deux modèles (Nemo pour le worker + filtre éthique, Small pour le chatbot) optimise le rapport qualité/prix.

Si dans 1218 mois les volumes explosent (> 5 000 req/mois chatbot) ou si un modèle spécifique non disponible chez Mistral devient critique, Scaleway Generative APIs est le plan B naturel — même souveraineté, catalogue élargi, Batch API intégré.

Synthetic.new et Ollama self-hosted ne sont pas recommandés pour ce cas d'usage à ce stade.


Plafonnement budget

Circuit breaker à 20€/mois

Mistral direct (recommandé) :

L'API Mistral expose des usage metrics dans chaque réponse. Options :

  1. Alerte billing Mistral : configurer une notification à 10€ et un hard limit à 20€ dans le dashboard console.mistral.ai → Settings → Billing → Budget alerts
  2. Middleware applicatif : compteur Redis cumulant les tokens, coupure si seuil atteint (patterns standard LangChain/LiteLLM)
  3. LiteLLM proxy : mode budget_manager intégré, peut limiter par utilisateur et par total mensuel

Scaleway Generative APIs (plan B) :

  • Interface billing avec quotas configurables par organisation
  • Batch API comme soupape : si quota temps réel atteint, basculer en batch (-50% coût)

Confort : à $0,15/mois de consommation prévue, le budget de 20€ représente 133× la consommation estimée — le circuit breaker est une précaution, pas une urgence en phase de lancement.


Sources consultées