# NAV — Choix provider IA souverain Date : 2026-04-14 --- ## TL;DR Recommandation : **C. Mistral direct** (mistral-small ou mistral-nemo) pour ces raisons : prix imbattable pour les volumes NAV (< 1 €/mois), souveraineté FR/EU native, zero data retention disponible sur API, OpenAI-compatible, zero setup. Plan B : **A. Scaleway Generative APIs** si besoin d'un fournisseur FR 100% indépendant de Mistral (pas de relation directe), ou si les modèles Scaleway (Qwen, Llama, Mistral hébergés en FR) conviennent mieux pour un usage multi-modèle. --- ## Tableau comparatif | Critère | Scaleway Gen. APIs | Synthetic.new | Mistral direct | Ollama self-host | Scaleway GPU | |---|---|---|---|---|---| | Souveraineté | FR (Scaleway SAS) | EU (localisation à confirmer) | FR (Paris) | 100% VPS Hetzner DE | FR (Scaleway SAS) | | RGPD / rétention | Zéro rétention par défaut (2 sem. si incident) | Non documenté publiquement | 30 j par défaut, ZDR activable sur API | Zéro (local) | Zéro rétention (même politique que Gen. APIs) | | Kimi 2.5 dispo | Non | Oui (hf:moonshotai/Kimi-K2.5 et K2-Thinking) | Non | Oui (quantisé, mais VPS trop petit) | Oui (déployable) | | Meilleur modèle dispo | Qwen 3.5-397B, Mistral Small 3.2, Llama 3.3 70B | Kimi K2.5, Kimi K2-Thinking, 19+ modèles | Mistral Small 3.1, Mistral Medium 3, Mistral Large | Gemma3:4B, Phi-4 Mini, Qwen 3 4B (CPU-only) | Tout modèle open-weight | | Prix/1M input | €0,15 | Forfait ~$30/mois tout compris | $0,02 (Nemo) / $0,20 (Small) | ~0 + infra | ~0 + GPU | | Prix/1M output | €0,35 | inclus dans forfait | $0,04 (Nemo) / $0,60 (Small) | ~0 + infra | ~0 + GPU | | Coût estimé/mois (usage NAV) | ~€0,30–€1,20 | $30 (forfait fixe) | ~$0,05–$0,50 | €7,99–€15,99 (upgrade VPS) | €50–€100+ si à la demande | | Latence | Bonne (datacenters FR) | Bonne (EU) | Bonne (datacenters FR) | Très lente (CPU-only, 2–6 tok/s) | Excellente (GPU dédié) | | Setup | OpenAI-compat, drop-in | OpenAI-compat | OpenAI-compat | Docker + model pull | VM + déploiement modèle | | Plafonnement budget | Quota API configurable | Budget fixe par nature | Quota API + alertes | Infra-bound | Infra-bound + alertes billing | --- ## Analyse par option ### A. Scaleway Generative APIs **Forces :** - Hébergement 100% France, filiale Iliad (groupe Xavier Niel) - Zéro data retention par défaut — politique claire et documentée - Drop-in OpenAI-compatible - Batch API disponible : -50% sur le prix, sans rate limit (idéal pour le worker post-processing fiches) - Modèles solides : Mistral Small 3.2, Qwen 3.5, Llama 3.3 70B - Free tier 1M tokens/mois inclus **Faiblesses :** - Pas de Kimi 2.5 (si c'est un critère modèle) - Pricing output (€0,35/1M) légèrement plus élevé que Mistral direct - Dépend des modèles disponibles sur leur catalogue (moins de choix que Mistral direct) **Coût estimé pour les 3 usages NAV :** ``` Usage 1 — Worker post-processing fiches 80 fiches/mois × (500 in + 500 out) = 80 000 tokens Input : 0,08M × €0,15 = €0,01 Output : 0,08M × €0,35 = €0,03 Sous-total : ~€0,04/mois (ou gratuit dans le free tier) Usage 2 — Chatbot recherche 150 req/mois × (2 000 in + 300 out) = 345 000 tokens Input : 0,30M × €0,15 = €0,045 Output : 0,045M × €0,35 = €0,016 Sous-total : ~€0,06/mois Usage 3 — Filtre éthique commentaires 150 req/mois × (200 in + 20 out) = 33 000 tokens Sous-total : négligeable Total Scaleway : ~€0,10–€0,20/mois (hors free tier) Avec Batch API (-50%) sur Usage 1 : encore moins cher ``` --- ### B. Synthetic.new **Forces :** - Forfait fixe $30/mois : budgétairement prévisible - Kimi K2.5 et K2-Thinking disponibles via API - OpenAI-compatible (endpoint `api.synthetic.new`) - Modèle "privacy-first" selon leur positionnement **Faiblesses :** - $30/mois est sur-dimensionné pour les volumes NAV actuels (on paierait 60–300× trop cher) - Politique RGPD / data retention non documentée publiquement — point bloquant pour usage professionnel - Localisation exacte des serveurs non confirmée (EU oui, mais pays ?) - Dépendance à un petit acteur sans DPA public → risque de disparition ou changement tarifaire - Le forfait usage-based existe mais les tarifs par token ne sont pas clairement publiés **Coût estimé pour les 3 usages NAV :** - $30/mois fixe quelle que soit la consommation - Cohérent uniquement si usage intensif personnel/prod (> 500 req/jour) - Pour NAV au stade actuel : sur-coût 60× vs Mistral --- ### C. Mistral direct **Forces :** - Mistral = société française, siège à Paris, supervisée par CNIL - ZDR (Zero Data Retention) activable directement sur l'API — le seul fournisseur à l'offrir explicitement avec documentation officielle - OpenAI-compatible, drop-in, aucun setup - Mistral Nemo : $0,02/$0,04 par 1M tokens → le moins cher du marché parmi les modèles sérieux - Mistral Small 3.1 : $0,20/$0,60 — bon rapport qualité/prix pour le chatbot et le filtre éthique - Data Processing Addendum disponible pour toutes les entreprises **Faiblesses :** - Pas de Kimi 2.5 (si besoin d'un modèle agentic spécifique) - Mistral Large ($2/$6) ou Medium ($0,40/$2) deviennent chers si on monte en gamme - Dépendance à un seul fournisseur pour tous les usages **Coût estimé pour les 3 usages NAV :** ``` Stratégie recommandée : Usage 1 (worker fiches) → mistral-nemo ($0,02/$0,04) Usage 2 (chatbot) → mistral-small-3.1 ($0,20/$0,60) Usage 3 (filtre) → mistral-nemo ($0,02/$0,04) Usage 1 — 80 fiches/mois × 1 000 tokens = 80 000 tokens Input : 0,04M × $0,02 = $0,001 | Output : 0,04M × $0,04 = $0,002 Sous-total : ~$0,003 Usage 2 — 150 req/mois × 2 300 tokens = 345 000 tokens Input : 0,30M × $0,20 = $0,060 | Output : 0,045M × $0,60 = $0,027 Sous-total : ~$0,09 Usage 3 — 150 req/mois × 220 tokens = 33 000 tokens Sous-total : ~$0,001 Total Mistral : ~$0,10–$0,15/mois (<< €1) ``` --- ### D. Ollama self-hosted (VPS actuel) **VPS actuel : 4 GB RAM, 2 vCPU (Hetzner CAX11 ou équivalent)** - Insuffisant pour tout modèle 7B+ (minimum 8 GB RAM requis) - Gemma3:4B ou Phi-4 Mini peuvent tourner en Q4_K_M (~3,5 GB), mais en CPU-only - Performance CPU : 2–6 tokens/s → **inacceptable pour le chatbot** (temps de réponse 30–60s pour 300 tokens out) - Pour le filtre éthique (20 tokens out) : marginalement utilisable, mais toujours lent **Upgrade nécessaire :** ``` CAX21 (Hetzner ARM, 4 vCPU / 8 GB RAM) → €7,99/mois Modèles possibles : Gemma3:4B Q8, Phi-4 Mini, Qwen3:4B Performance CPU : ~8–15 tok/s (ARM Ampere) Qualité : correcte pour le filtre éthique, limite pour le chatbot CAX31 (Hetzner ARM, 8 vCPU / 16 GB RAM) → €15,99/mois Modèles possibles : Gemma3:12B Q4, Mistral 7B Q8, Qwen3:8B Performance CPU : ~5–10 tok/s sur 7–12B Qualité : acceptable pour tous les usages NAV Charge maintenance : Docker, model pull, mises à jour, monitoring ``` **Réalisme CPU-only :** - Pas de GPU sur les VPS Hetzner standard → inférence CPU uniquement - Mistral 7B ou Qwen 7B sur CPU = 3–6 tok/s = **non viable pour chatbot temps réel** - Gemma3:4B sur CAX21 = seul compromis réaliste, mais qualité inférieure à Mistral Small **Coût total :** - CAX21 : €7,99/mois + temps de maintenance ~1h/mois - CAX31 : €15,99/mois + temps de maintenance - Dans les deux cas, prix 10–50× plus élevé que Mistral direct pour une qualité inférieure **Conclusion Ollama :** pertinent uniquement si la contrainte de souveraineté est absolue (zéro tiers, données confidentielles très sensibles) ET si on accepte la latence. Pas recommandé pour le chatbot NAV. --- ### E. Scaleway GPU **Contexte :** - GPU instances Scaleway (L4, L40S, H100 SXM) en datacenter France - H100 SXM : ~€3,50/h | A100 : ~€2,50/h | L4 : ~€0,50/h (estimation) - Usage facturable à l'heure → adapté aux bursts, pas au serving continu **Forces :** - Souveraineté FR + RGPD = même niveau que Scaleway Generative APIs - Liberté totale sur les modèles (déployer Kimi 2.5 quantisé, Mistral, Qwen...) - Latence excellente (GPU dédié) - Zéro dépendance à un provider d'inférence **Faiblesses :** - Coût fixe prohibitif : L4 à €0,50/h = €360/mois en continu → hors budget - Pour usage sporadique (50–200 req/mois), il faut un orchestrateur qui allume/éteint le GPU - Complexité d'orchestration (Kubernetes, Triton, ou script custom) - Overkill pour les volumes NAV actuels **Coût estimé :** - En continu : €360–€2 500/mois selon GPU → hors budget 20€ - En spot/burst (5h/mois d'inférence L4) : ~€2,50/mois d'infra, mais complexité setup = 2–3j de travail **Conclusion GPU Scaleway :** à considérer uniquement à très grande échelle (10 000+ req/mois) ou pour le déploiement d'un modèle custom non disponible ailleurs. --- ## Reco finale **Mistral direct (option C)** est la reco sans hésitation pour NAV dans sa phase actuelle. Le coût réel sera inférieur à $0,15/mois pour les 3 usages combinés — soit 100× sous le budget de 20€. La souveraineté est native (France, CNIL), le ZDR est activable en un paramètre API, et l'intégration est un copier-coller de clé API. La stratégie à deux modèles (Nemo pour le worker + filtre éthique, Small pour le chatbot) optimise le rapport qualité/prix. Si dans 12–18 mois les volumes explosent (> 5 000 req/mois chatbot) ou si un modèle spécifique non disponible chez Mistral devient critique, Scaleway Generative APIs est le plan B naturel — même souveraineté, catalogue élargi, Batch API intégré. Synthetic.new et Ollama self-hosted ne sont pas recommandés pour ce cas d'usage à ce stade. --- ## Plafonnement budget ### Circuit breaker à 20€/mois **Mistral direct** (recommandé) : L'API Mistral expose des `usage` metrics dans chaque réponse. Options : 1. **Alerte billing Mistral** : configurer une notification à 10€ et un hard limit à 20€ dans le dashboard `console.mistral.ai` → Settings → Billing → Budget alerts 2. **Middleware applicatif** : compteur Redis cumulant les tokens, coupure si seuil atteint (patterns standard LangChain/LiteLLM) 3. **LiteLLM proxy** : mode budget_manager intégré, peut limiter par utilisateur et par total mensuel **Scaleway Generative APIs** (plan B) : - Interface billing avec quotas configurables par organisation - Batch API comme soupape : si quota temps réel atteint, basculer en batch (-50% coût) **Confort :** à $0,15/mois de consommation prévue, le budget de 20€ représente 133× la consommation estimée — le circuit breaker est une précaution, pas une urgence en phase de lancement. --- ## Sources consultées - [Scaleway Model-as-a-service pricing](https://www.scaleway.com/en/pricing/model-as-a-service/) - [Scaleway Generative APIs data privacy](https://www.scaleway.com/en/docs/generative-apis/reference-content/data-privacy/) - [Scaleway supported models](https://www.scaleway.com/en/docs/generative-apis/reference-content/supported-models/) - [Mistral AI pricing docs](https://docs.mistral.ai/deployment/ai-studio/pricing) - [Mistral ZDR documentation](https://help.mistral.ai/en/articles/347612-can-i-activate-zero-data-retention-zdr) - [Mistral data storage EU](https://help.mistral.ai/en/articles/347629-where-do-you-store-my-data-or-my-organization-s-data) - [Synthetic.new pricing](https://synthetic.new/pricing) - [Synthetic.new blog subscriptions](https://synthetic.new/blog/subscriptions) - [Kimi K2.5 via Synthetic (TypingMind guide)](https://www.typingmind.com/guide/synthetic/hf-moonshotai-Kimi-K2-Thinking) - [Hetzner CAX pricing](https://www.hetzner.com/cloud/cost-optimized) - [Ollama VPS requirements](https://localllm.in/blog/ollama-vram-requirements-for-local-llms) - [Best Ollama models 8GB RAM](https://localaimaster.com/blog/best-local-ai-models-8gb-ram) - [EU LLM API comparison JuiceFactory 2026](https://juicefactory.ai/en/guides/eu-llm-api-comparison)