jules/nav-carte

Fork 0

Files

Jules Neny 21c44d8193 feat(aep): carte AEP — push Gitea 2026-04-28

2026-04-28 14:00:05 +02:00

12 KiB

Raw Permalink Blame History

NAV — Choix provider IA souverain

Date : 2026-04-14

TL;DR

Recommandation : C. Mistral direct (mistral-small ou mistral-nemo) pour ces raisons : prix imbattable pour les volumes NAV (< 1 €/mois), souveraineté FR/EU native, zero data retention disponible sur API, OpenAI-compatible, zero setup.

Plan B : A. Scaleway Generative APIs si besoin d'un fournisseur FR 100% indépendant de Mistral (pas de relation directe), ou si les modèles Scaleway (Qwen, Llama, Mistral hébergés en FR) conviennent mieux pour un usage multi-modèle.

Tableau comparatif

Critère	Scaleway Gen. APIs	Synthetic.new	Mistral direct	Ollama self-host	Scaleway GPU
Souveraineté	FR (Scaleway SAS)	EU (localisation à confirmer)	FR (Paris)	100% VPS Hetzner DE	FR (Scaleway SAS)
RGPD / rétention	Zéro rétention par défaut (2 sem. si incident)	Non documenté publiquement	30 j par défaut, ZDR activable sur API	Zéro (local)	Zéro rétention (même politique que Gen. APIs)
Kimi 2.5 dispo	Non	Oui (hf:moonshotai/Kimi-K2.5 et K2-Thinking)	Non	Oui (quantisé, mais VPS trop petit)	Oui (déployable)
Meilleur modèle dispo	Qwen 3.5-397B, Mistral Small 3.2, Llama 3.3 70B	Kimi K2.5, Kimi K2-Thinking, 19+ modèles	Mistral Small 3.1, Mistral Medium 3, Mistral Large	Gemma3:4B, Phi-4 Mini, Qwen 3 4B (CPU-only)	Tout modèle open-weight
Prix/1M input	€0,15	Forfait ~$30/mois tout compris	$0,02 (Nemo) / $0,20 (Small)	~0 + infra	~0 + GPU
Prix/1M output	€0,35	inclus dans forfait	$0,04 (Nemo) / $0,60 (Small)	~0 + infra	~0 + GPU
Coût estimé/mois (usage NAV)	~€0,30–€1,20	$30 (forfait fixe)	~$0,05–$0,50	€7,99–€15,99 (upgrade VPS)	€50–€100+ si à la demande
Latence	Bonne (datacenters FR)	Bonne (EU)	Bonne (datacenters FR)	Très lente (CPU-only, 2–6 tok/s)	Excellente (GPU dédié)
Setup	OpenAI-compat, drop-in	OpenAI-compat	OpenAI-compat	Docker + model pull	VM + déploiement modèle
Plafonnement budget	Quota API configurable	Budget fixe par nature	Quota API + alertes	Infra-bound	Infra-bound + alertes billing

Analyse par option

A. Scaleway Generative APIs

Forces :

Hébergement 100% France, filiale Iliad (groupe Xavier Niel)
Zéro data retention par défaut — politique claire et documentée
Drop-in OpenAI-compatible
Batch API disponible : -50% sur le prix, sans rate limit (idéal pour le worker post-processing fiches)
Modèles solides : Mistral Small 3.2, Qwen 3.5, Llama 3.3 70B
Free tier 1M tokens/mois inclus

Faiblesses :

Pas de Kimi 2.5 (si c'est un critère modèle)
Pricing output (€0,35/1M) légèrement plus élevé que Mistral direct
Dépend des modèles disponibles sur leur catalogue (moins de choix que Mistral direct)

Coût estimé pour les 3 usages NAV :

Usage 1 — Worker post-processing fiches
  80 fiches/mois × (500 in + 500 out) = 80 000 tokens
  Input  : 0,08M × €0,15 = €0,01
  Output : 0,08M × €0,35 = €0,03
  Sous-total : ~€0,04/mois (ou gratuit dans le free tier)

Usage 2 — Chatbot recherche
  150 req/mois × (2 000 in + 300 out) = 345 000 tokens
  Input  : 0,30M × €0,15 = €0,045
  Output : 0,045M × €0,35 = €0,016
  Sous-total : ~€0,06/mois

Usage 3 — Filtre éthique commentaires
  150 req/mois × (200 in + 20 out) = 33 000 tokens
  Sous-total : négligeable

Total Scaleway : ~€0,10–€0,20/mois (hors free tier)
Avec Batch API (-50%) sur Usage 1 : encore moins cher

B. Synthetic.new

Forces :

Forfait fixe $30/mois : budgétairement prévisible
Kimi K2.5 et K2-Thinking disponibles via API
OpenAI-compatible (endpoint api.synthetic.new)
Modèle "privacy-first" selon leur positionnement

Faiblesses :

$30/mois est sur-dimensionné pour les volumes NAV actuels (on paierait 60–300× trop cher)
Politique RGPD / data retention non documentée publiquement — point bloquant pour usage professionnel
Localisation exacte des serveurs non confirmée (EU oui, mais pays ?)
Dépendance à un petit acteur sans DPA public → risque de disparition ou changement tarifaire
Le forfait usage-based existe mais les tarifs par token ne sont pas clairement publiés

Coût estimé pour les 3 usages NAV :

$30/mois fixe quelle que soit la consommation
Cohérent uniquement si usage intensif personnel/prod (> 500 req/jour)
Pour NAV au stade actuel : sur-coût 60× vs Mistral

C. Mistral direct

Forces :

Mistral = société française, siège à Paris, supervisée par CNIL
ZDR (Zero Data Retention) activable directement sur l'API — le seul fournisseur à l'offrir explicitement avec documentation officielle
OpenAI-compatible, drop-in, aucun setup
Mistral Nemo : $0,02/$0,04 par 1M tokens → le moins cher du marché parmi les modèles sérieux
Mistral Small 3.1 : $0,20/$0,60 — bon rapport qualité/prix pour le chatbot et le filtre éthique
Data Processing Addendum disponible pour toutes les entreprises

Faiblesses :

Pas de Kimi 2.5 (si besoin d'un modèle agentic spécifique)
Mistral Large ($2/$6) ou Medium ($0,40/$2) deviennent chers si on monte en gamme
Dépendance à un seul fournisseur pour tous les usages

Coût estimé pour les 3 usages NAV :

Stratégie recommandée :
  Usage 1 (worker fiches) → mistral-nemo ($0,02/$0,04)
  Usage 2 (chatbot)       → mistral-small-3.1 ($0,20/$0,60)
  Usage 3 (filtre)        → mistral-nemo ($0,02/$0,04)

Usage 1 — 80 fiches/mois × 1 000 tokens = 80 000 tokens
  Input  : 0,04M × $0,02 = $0,001 | Output : 0,04M × $0,04 = $0,002
  Sous-total : ~$0,003

Usage 2 — 150 req/mois × 2 300 tokens = 345 000 tokens
  Input  : 0,30M × $0,20 = $0,060 | Output : 0,045M × $0,60 = $0,027
  Sous-total : ~$0,09

Usage 3 — 150 req/mois × 220 tokens = 33 000 tokens
  Sous-total : ~$0,001

Total Mistral : ~$0,10–$0,15/mois (<< €1)

D. Ollama self-hosted (VPS actuel)

VPS actuel : 4 GB RAM, 2 vCPU (Hetzner CAX11 ou équivalent)

Insuffisant pour tout modèle 7B+ (minimum 8 GB RAM requis)
Gemma3:4B ou Phi-4 Mini peuvent tourner en Q4_K_M (~3,5 GB), mais en CPU-only
Performance CPU : 2–6 tokens/s → inacceptable pour le chatbot (temps de réponse 30–60s pour 300 tokens out)
Pour le filtre éthique (20 tokens out) : marginalement utilisable, mais toujours lent

Upgrade nécessaire :

CAX21 (Hetzner ARM, 4 vCPU / 8 GB RAM) → €7,99/mois
  Modèles possibles : Gemma3:4B Q8, Phi-4 Mini, Qwen3:4B
  Performance CPU : ~8–15 tok/s (ARM Ampere)
  Qualité : correcte pour le filtre éthique, limite pour le chatbot

CAX31 (Hetzner ARM, 8 vCPU / 16 GB RAM) → €15,99/mois
  Modèles possibles : Gemma3:12B Q4, Mistral 7B Q8, Qwen3:8B
  Performance CPU : ~5–10 tok/s sur 7–12B
  Qualité : acceptable pour tous les usages NAV
  Charge maintenance : Docker, model pull, mises à jour, monitoring

Réalisme CPU-only :

Pas de GPU sur les VPS Hetzner standard → inférence CPU uniquement
Mistral 7B ou Qwen 7B sur CPU = 3–6 tok/s = non viable pour chatbot temps réel
Gemma3:4B sur CAX21 = seul compromis réaliste, mais qualité inférieure à Mistral Small

Coût total :

CAX21 : €7,99/mois + temps de maintenance ~1h/mois
CAX31 : €15,99/mois + temps de maintenance
Dans les deux cas, prix 10–50× plus élevé que Mistral direct pour une qualité inférieure

Conclusion Ollama : pertinent uniquement si la contrainte de souveraineté est absolue (zéro tiers, données confidentielles très sensibles) ET si on accepte la latence. Pas recommandé pour le chatbot NAV.

E. Scaleway GPU

Contexte :

GPU instances Scaleway (L4, L40S, H100 SXM) en datacenter France
H100 SXM : ~€3,50/h | A100 : ~€2,50/h | L4 : ~€0,50/h (estimation)
Usage facturable à l'heure → adapté aux bursts, pas au serving continu

Forces :

Souveraineté FR + RGPD = même niveau que Scaleway Generative APIs
Liberté totale sur les modèles (déployer Kimi 2.5 quantisé, Mistral, Qwen...)
Latence excellente (GPU dédié)
Zéro dépendance à un provider d'inférence

Faiblesses :

Coût fixe prohibitif : L4 à €0,50/h = €360/mois en continu → hors budget
Pour usage sporadique (50–200 req/mois), il faut un orchestrateur qui allume/éteint le GPU
Complexité d'orchestration (Kubernetes, Triton, ou script custom)
Overkill pour les volumes NAV actuels

Coût estimé :

En continu : €360–€2 500/mois selon GPU → hors budget 20€
En spot/burst (5h/mois d'inférence L4) : ~€2,50/mois d'infra, mais complexité setup = 2–3j de travail

Conclusion GPU Scaleway : à considérer uniquement à très grande échelle (10 000+ req/mois) ou pour le déploiement d'un modèle custom non disponible ailleurs.

Reco finale

Mistral direct (option C) est la reco sans hésitation pour NAV dans sa phase actuelle.

Le coût réel sera inférieur à $0,15/mois pour les 3 usages combinés — soit 100× sous le budget de 20€. La souveraineté est native (France, CNIL), le ZDR est activable en un paramètre API, et l'intégration est un copier-coller de clé API. La stratégie à deux modèles (Nemo pour le worker + filtre éthique, Small pour le chatbot) optimise le rapport qualité/prix.

Si dans 12–18 mois les volumes explosent (> 5 000 req/mois chatbot) ou si un modèle spécifique non disponible chez Mistral devient critique, Scaleway Generative APIs est le plan B naturel — même souveraineté, catalogue élargi, Batch API intégré.

Synthetic.new et Ollama self-hosted ne sont pas recommandés pour ce cas d'usage à ce stade.

Plafonnement budget

Circuit breaker à 20€/mois

Mistral direct (recommandé) :

L'API Mistral expose des usage metrics dans chaque réponse. Options :

Alerte billing Mistral : configurer une notification à 10€ et un hard limit à 20€ dans le dashboard console.mistral.ai → Settings → Billing → Budget alerts
Middleware applicatif : compteur Redis cumulant les tokens, coupure si seuil atteint (patterns standard LangChain/LiteLLM)
LiteLLM proxy : mode budget_manager intégré, peut limiter par utilisateur et par total mensuel

Scaleway Generative APIs (plan B) :

Interface billing avec quotas configurables par organisation
Batch API comme soupape : si quota temps réel atteint, basculer en batch (-50% coût)

Confort : à $0,15/mois de consommation prévue, le budget de 20€ représente 133× la consommation estimée — le circuit breaker est une précaution, pas une urgence en phase de lancement.

12 KiB Raw Permalink Blame History Unescape Escape

NAV — Choix provider IA souverain

TL;DR

Tableau comparatif

Analyse par option

A. Scaleway Generative APIs

B. Synthetic.new

C. Mistral direct

D. Ollama self-hosted (VPS actuel)

E. Scaleway GPU

Reco finale

Plafonnement budget

Circuit breaker à 20€/mois

Sources consultées

12 KiB

Raw Permalink Blame History