245 lines
12 KiB
Markdown
245 lines
12 KiB
Markdown
# NAV — Choix provider IA souverain
|
||
|
||
Date : 2026-04-14
|
||
|
||
---
|
||
|
||
## TL;DR
|
||
|
||
Recommandation : **C. Mistral direct** (mistral-small ou mistral-nemo) pour ces raisons : prix imbattable pour les volumes NAV (< 1 €/mois), souveraineté FR/EU native, zero data retention disponible sur API, OpenAI-compatible, zero setup.
|
||
|
||
Plan B : **A. Scaleway Generative APIs** si besoin d'un fournisseur FR 100% indépendant de Mistral (pas de relation directe), ou si les modèles Scaleway (Qwen, Llama, Mistral hébergés en FR) conviennent mieux pour un usage multi-modèle.
|
||
|
||
---
|
||
|
||
## Tableau comparatif
|
||
|
||
| Critère | Scaleway Gen. APIs | Synthetic.new | Mistral direct | Ollama self-host | Scaleway GPU |
|
||
|---|---|---|---|---|---|
|
||
| Souveraineté | FR (Scaleway SAS) | EU (localisation à confirmer) | FR (Paris) | 100% VPS Hetzner DE | FR (Scaleway SAS) |
|
||
| RGPD / rétention | Zéro rétention par défaut (2 sem. si incident) | Non documenté publiquement | 30 j par défaut, ZDR activable sur API | Zéro (local) | Zéro rétention (même politique que Gen. APIs) |
|
||
| Kimi 2.5 dispo | Non | Oui (hf:moonshotai/Kimi-K2.5 et K2-Thinking) | Non | Oui (quantisé, mais VPS trop petit) | Oui (déployable) |
|
||
| Meilleur modèle dispo | Qwen 3.5-397B, Mistral Small 3.2, Llama 3.3 70B | Kimi K2.5, Kimi K2-Thinking, 19+ modèles | Mistral Small 3.1, Mistral Medium 3, Mistral Large | Gemma3:4B, Phi-4 Mini, Qwen 3 4B (CPU-only) | Tout modèle open-weight |
|
||
| Prix/1M input | €0,15 | Forfait ~$30/mois tout compris | $0,02 (Nemo) / $0,20 (Small) | ~0 + infra | ~0 + GPU |
|
||
| Prix/1M output | €0,35 | inclus dans forfait | $0,04 (Nemo) / $0,60 (Small) | ~0 + infra | ~0 + GPU |
|
||
| Coût estimé/mois (usage NAV) | ~€0,30–€1,20 | $30 (forfait fixe) | ~$0,05–$0,50 | €7,99–€15,99 (upgrade VPS) | €50–€100+ si à la demande |
|
||
| Latence | Bonne (datacenters FR) | Bonne (EU) | Bonne (datacenters FR) | Très lente (CPU-only, 2–6 tok/s) | Excellente (GPU dédié) |
|
||
| Setup | OpenAI-compat, drop-in | OpenAI-compat | OpenAI-compat | Docker + model pull | VM + déploiement modèle |
|
||
| Plafonnement budget | Quota API configurable | Budget fixe par nature | Quota API + alertes | Infra-bound | Infra-bound + alertes billing |
|
||
|
||
---
|
||
|
||
## Analyse par option
|
||
|
||
### A. Scaleway Generative APIs
|
||
|
||
**Forces :**
|
||
- Hébergement 100% France, filiale Iliad (groupe Xavier Niel)
|
||
- Zéro data retention par défaut — politique claire et documentée
|
||
- Drop-in OpenAI-compatible
|
||
- Batch API disponible : -50% sur le prix, sans rate limit (idéal pour le worker post-processing fiches)
|
||
- Modèles solides : Mistral Small 3.2, Qwen 3.5, Llama 3.3 70B
|
||
- Free tier 1M tokens/mois inclus
|
||
|
||
**Faiblesses :**
|
||
- Pas de Kimi 2.5 (si c'est un critère modèle)
|
||
- Pricing output (€0,35/1M) légèrement plus élevé que Mistral direct
|
||
- Dépend des modèles disponibles sur leur catalogue (moins de choix que Mistral direct)
|
||
|
||
**Coût estimé pour les 3 usages NAV :**
|
||
|
||
```
|
||
Usage 1 — Worker post-processing fiches
|
||
80 fiches/mois × (500 in + 500 out) = 80 000 tokens
|
||
Input : 0,08M × €0,15 = €0,01
|
||
Output : 0,08M × €0,35 = €0,03
|
||
Sous-total : ~€0,04/mois (ou gratuit dans le free tier)
|
||
|
||
Usage 2 — Chatbot recherche
|
||
150 req/mois × (2 000 in + 300 out) = 345 000 tokens
|
||
Input : 0,30M × €0,15 = €0,045
|
||
Output : 0,045M × €0,35 = €0,016
|
||
Sous-total : ~€0,06/mois
|
||
|
||
Usage 3 — Filtre éthique commentaires
|
||
150 req/mois × (200 in + 20 out) = 33 000 tokens
|
||
Sous-total : négligeable
|
||
|
||
Total Scaleway : ~€0,10–€0,20/mois (hors free tier)
|
||
Avec Batch API (-50%) sur Usage 1 : encore moins cher
|
||
```
|
||
|
||
---
|
||
|
||
### B. Synthetic.new
|
||
|
||
**Forces :**
|
||
- Forfait fixe $30/mois : budgétairement prévisible
|
||
- Kimi K2.5 et K2-Thinking disponibles via API
|
||
- OpenAI-compatible (endpoint `api.synthetic.new`)
|
||
- Modèle "privacy-first" selon leur positionnement
|
||
|
||
**Faiblesses :**
|
||
- $30/mois est sur-dimensionné pour les volumes NAV actuels (on paierait 60–300× trop cher)
|
||
- Politique RGPD / data retention non documentée publiquement — point bloquant pour usage professionnel
|
||
- Localisation exacte des serveurs non confirmée (EU oui, mais pays ?)
|
||
- Dépendance à un petit acteur sans DPA public → risque de disparition ou changement tarifaire
|
||
- Le forfait usage-based existe mais les tarifs par token ne sont pas clairement publiés
|
||
|
||
**Coût estimé pour les 3 usages NAV :**
|
||
- $30/mois fixe quelle que soit la consommation
|
||
- Cohérent uniquement si usage intensif personnel/prod (> 500 req/jour)
|
||
- Pour NAV au stade actuel : sur-coût 60× vs Mistral
|
||
|
||
---
|
||
|
||
### C. Mistral direct
|
||
|
||
**Forces :**
|
||
- Mistral = société française, siège à Paris, supervisée par CNIL
|
||
- ZDR (Zero Data Retention) activable directement sur l'API — le seul fournisseur à l'offrir explicitement avec documentation officielle
|
||
- OpenAI-compatible, drop-in, aucun setup
|
||
- Mistral Nemo : $0,02/$0,04 par 1M tokens → le moins cher du marché parmi les modèles sérieux
|
||
- Mistral Small 3.1 : $0,20/$0,60 — bon rapport qualité/prix pour le chatbot et le filtre éthique
|
||
- Data Processing Addendum disponible pour toutes les entreprises
|
||
|
||
**Faiblesses :**
|
||
- Pas de Kimi 2.5 (si besoin d'un modèle agentic spécifique)
|
||
- Mistral Large ($2/$6) ou Medium ($0,40/$2) deviennent chers si on monte en gamme
|
||
- Dépendance à un seul fournisseur pour tous les usages
|
||
|
||
**Coût estimé pour les 3 usages NAV :**
|
||
|
||
```
|
||
Stratégie recommandée :
|
||
Usage 1 (worker fiches) → mistral-nemo ($0,02/$0,04)
|
||
Usage 2 (chatbot) → mistral-small-3.1 ($0,20/$0,60)
|
||
Usage 3 (filtre) → mistral-nemo ($0,02/$0,04)
|
||
|
||
Usage 1 — 80 fiches/mois × 1 000 tokens = 80 000 tokens
|
||
Input : 0,04M × $0,02 = $0,001 | Output : 0,04M × $0,04 = $0,002
|
||
Sous-total : ~$0,003
|
||
|
||
Usage 2 — 150 req/mois × 2 300 tokens = 345 000 tokens
|
||
Input : 0,30M × $0,20 = $0,060 | Output : 0,045M × $0,60 = $0,027
|
||
Sous-total : ~$0,09
|
||
|
||
Usage 3 — 150 req/mois × 220 tokens = 33 000 tokens
|
||
Sous-total : ~$0,001
|
||
|
||
Total Mistral : ~$0,10–$0,15/mois (<< €1)
|
||
```
|
||
|
||
---
|
||
|
||
### D. Ollama self-hosted (VPS actuel)
|
||
|
||
**VPS actuel : 4 GB RAM, 2 vCPU (Hetzner CAX11 ou équivalent)**
|
||
- Insuffisant pour tout modèle 7B+ (minimum 8 GB RAM requis)
|
||
- Gemma3:4B ou Phi-4 Mini peuvent tourner en Q4_K_M (~3,5 GB), mais en CPU-only
|
||
- Performance CPU : 2–6 tokens/s → **inacceptable pour le chatbot** (temps de réponse 30–60s pour 300 tokens out)
|
||
- Pour le filtre éthique (20 tokens out) : marginalement utilisable, mais toujours lent
|
||
|
||
**Upgrade nécessaire :**
|
||
|
||
```
|
||
CAX21 (Hetzner ARM, 4 vCPU / 8 GB RAM) → €7,99/mois
|
||
Modèles possibles : Gemma3:4B Q8, Phi-4 Mini, Qwen3:4B
|
||
Performance CPU : ~8–15 tok/s (ARM Ampere)
|
||
Qualité : correcte pour le filtre éthique, limite pour le chatbot
|
||
|
||
CAX31 (Hetzner ARM, 8 vCPU / 16 GB RAM) → €15,99/mois
|
||
Modèles possibles : Gemma3:12B Q4, Mistral 7B Q8, Qwen3:8B
|
||
Performance CPU : ~5–10 tok/s sur 7–12B
|
||
Qualité : acceptable pour tous les usages NAV
|
||
Charge maintenance : Docker, model pull, mises à jour, monitoring
|
||
```
|
||
|
||
**Réalisme CPU-only :**
|
||
- Pas de GPU sur les VPS Hetzner standard → inférence CPU uniquement
|
||
- Mistral 7B ou Qwen 7B sur CPU = 3–6 tok/s = **non viable pour chatbot temps réel**
|
||
- Gemma3:4B sur CAX21 = seul compromis réaliste, mais qualité inférieure à Mistral Small
|
||
|
||
**Coût total :**
|
||
- CAX21 : €7,99/mois + temps de maintenance ~1h/mois
|
||
- CAX31 : €15,99/mois + temps de maintenance
|
||
- Dans les deux cas, prix 10–50× plus élevé que Mistral direct pour une qualité inférieure
|
||
|
||
**Conclusion Ollama :** pertinent uniquement si la contrainte de souveraineté est absolue (zéro tiers, données confidentielles très sensibles) ET si on accepte la latence. Pas recommandé pour le chatbot NAV.
|
||
|
||
---
|
||
|
||
### E. Scaleway GPU
|
||
|
||
**Contexte :**
|
||
- GPU instances Scaleway (L4, L40S, H100 SXM) en datacenter France
|
||
- H100 SXM : ~€3,50/h | A100 : ~€2,50/h | L4 : ~€0,50/h (estimation)
|
||
- Usage facturable à l'heure → adapté aux bursts, pas au serving continu
|
||
|
||
**Forces :**
|
||
- Souveraineté FR + RGPD = même niveau que Scaleway Generative APIs
|
||
- Liberté totale sur les modèles (déployer Kimi 2.5 quantisé, Mistral, Qwen...)
|
||
- Latence excellente (GPU dédié)
|
||
- Zéro dépendance à un provider d'inférence
|
||
|
||
**Faiblesses :**
|
||
- Coût fixe prohibitif : L4 à €0,50/h = €360/mois en continu → hors budget
|
||
- Pour usage sporadique (50–200 req/mois), il faut un orchestrateur qui allume/éteint le GPU
|
||
- Complexité d'orchestration (Kubernetes, Triton, ou script custom)
|
||
- Overkill pour les volumes NAV actuels
|
||
|
||
**Coût estimé :**
|
||
- En continu : €360–€2 500/mois selon GPU → hors budget 20€
|
||
- En spot/burst (5h/mois d'inférence L4) : ~€2,50/mois d'infra, mais complexité setup = 2–3j de travail
|
||
|
||
**Conclusion GPU Scaleway :** à considérer uniquement à très grande échelle (10 000+ req/mois) ou pour le déploiement d'un modèle custom non disponible ailleurs.
|
||
|
||
---
|
||
|
||
## Reco finale
|
||
|
||
**Mistral direct (option C)** est la reco sans hésitation pour NAV dans sa phase actuelle.
|
||
|
||
Le coût réel sera inférieur à $0,15/mois pour les 3 usages combinés — soit 100× sous le budget de 20€. La souveraineté est native (France, CNIL), le ZDR est activable en un paramètre API, et l'intégration est un copier-coller de clé API. La stratégie à deux modèles (Nemo pour le worker + filtre éthique, Small pour le chatbot) optimise le rapport qualité/prix.
|
||
|
||
Si dans 12–18 mois les volumes explosent (> 5 000 req/mois chatbot) ou si un modèle spécifique non disponible chez Mistral devient critique, Scaleway Generative APIs est le plan B naturel — même souveraineté, catalogue élargi, Batch API intégré.
|
||
|
||
Synthetic.new et Ollama self-hosted ne sont pas recommandés pour ce cas d'usage à ce stade.
|
||
|
||
---
|
||
|
||
## Plafonnement budget
|
||
|
||
### Circuit breaker à 20€/mois
|
||
|
||
**Mistral direct** (recommandé) :
|
||
|
||
L'API Mistral expose des `usage` metrics dans chaque réponse. Options :
|
||
1. **Alerte billing Mistral** : configurer une notification à 10€ et un hard limit à 20€ dans le dashboard `console.mistral.ai` → Settings → Billing → Budget alerts
|
||
2. **Middleware applicatif** : compteur Redis cumulant les tokens, coupure si seuil atteint (patterns standard LangChain/LiteLLM)
|
||
3. **LiteLLM proxy** : mode budget_manager intégré, peut limiter par utilisateur et par total mensuel
|
||
|
||
**Scaleway Generative APIs** (plan B) :
|
||
- Interface billing avec quotas configurables par organisation
|
||
- Batch API comme soupape : si quota temps réel atteint, basculer en batch (-50% coût)
|
||
|
||
**Confort :** à $0,15/mois de consommation prévue, le budget de 20€ représente 133× la consommation estimée — le circuit breaker est une précaution, pas une urgence en phase de lancement.
|
||
|
||
---
|
||
|
||
## Sources consultées
|
||
|
||
- [Scaleway Model-as-a-service pricing](https://www.scaleway.com/en/pricing/model-as-a-service/)
|
||
- [Scaleway Generative APIs data privacy](https://www.scaleway.com/en/docs/generative-apis/reference-content/data-privacy/)
|
||
- [Scaleway supported models](https://www.scaleway.com/en/docs/generative-apis/reference-content/supported-models/)
|
||
- [Mistral AI pricing docs](https://docs.mistral.ai/deployment/ai-studio/pricing)
|
||
- [Mistral ZDR documentation](https://help.mistral.ai/en/articles/347612-can-i-activate-zero-data-retention-zdr)
|
||
- [Mistral data storage EU](https://help.mistral.ai/en/articles/347629-where-do-you-store-my-data-or-my-organization-s-data)
|
||
- [Synthetic.new pricing](https://synthetic.new/pricing)
|
||
- [Synthetic.new blog subscriptions](https://synthetic.new/blog/subscriptions)
|
||
- [Kimi K2.5 via Synthetic (TypingMind guide)](https://www.typingmind.com/guide/synthetic/hf-moonshotai-Kimi-K2-Thinking)
|
||
- [Hetzner CAX pricing](https://www.hetzner.com/cloud/cost-optimized)
|
||
- [Ollama VPS requirements](https://localllm.in/blog/ollama-vram-requirements-for-local-llms)
|
||
- [Best Ollama models 8GB RAM](https://localaimaster.com/blog/best-local-ai-models-8gb-ram)
|
||
- [EU LLM API comparison JuiceFactory 2026](https://juicefactory.ai/en/guides/eu-llm-api-comparison)
|