wip: snapshot V2 cascade onglet 2 (sauvegarde avant chirurgie git-hygiene)

2026-05-06 15:37:13 +02:00
parent 5878c56888
commit e63d02a351
101 changed files with 188900 additions and 3959 deletions
--- a/V2-cascade/Pipe-recherche-famille-agent.md
+++ b/V2-cascade/Pipe-recherche-famille-agent.md
@@ -0,0 +1,91 @@
+---
+type: process
+projet: AEP nav-carte V2
+created: 2026-05-03
+---
+
+# Pipe — Recherche agent par famille (PV2-2)
+
+> Méthode distillée de la session F3 (architecture sociale). Appliquer pour F1, F2, et futures familles.
+
+---
+
+## Règle n°1 : Pages /partenaires des structures V1 en premier
+
+Les pages `/partenaires`, `/reseau`, `/ecosysteme`, `/acteurs` des structures **déjà en V1** sont le hub le plus dense.
+
+Résultats session F3 :
+- Quatorze `/partenaires-new` → 7 nouvelles structures en une page (meilleure source)
+- YWC `/lieu/[projet]` → 2 partenaires (Plateau Urbain, Aurore)
+- A&P filtres → 5 structures (mais pas d'URLs directes)
+
+**Séquence recommandée :**
+1. Ouvrir toutes les pages `/partenaires` des V1 de la famille concernée
+2. Extraire les noms + URLs des partenaires opérationnels (pas les financeurs)
+3. Seulement ensuite → recherche web ouverte
+
+---
+
+## Règle n°2 : Snapshot HTML immédiat pour les sites ambigus
+
+Si une URL charge mais que la navigation ne répond pas (Airtable JS, React SPA) :
+
+```
+→ Lancer mcp__browsermcp__browser_snapshot immédiatement
+→ Parser le YAML en 30 secondes
+→ Décider : base de projets (skip) ou liste de structures (continuer)
+```
+
+Ne pas essayer 3 URLs alternatives avant d'avoir lu le snapshot. Sur A&P F3 : 10 min perdues.
+
+---
+
+## Règle n°3 : Email dans footer si /contact bloqué
+
+Quand Cloudflare bloque `/contact` (Bellastock, etc.) :
+- Lire la homepage complète jusqu'au footer
+- L'email y est souvent en clair (ex : `contact@bellastock.com` trouvé dans footer)
+
+---
+
+## Règle n°4 : Paralléliser les scrapes contacts (jina batch)
+
+```python
+# Passer une liste d'URLs à jina parallel_read_url
+urls = [
+    "https://perou-paris.org/contact",
+    "https://bellastock.com/contact",
+    "https://plateau-urbain.com/contact",
+    "https://asffrance.org/contact"
+]
+```
+
+4 sites en parallèle = même temps qu'1 site séquentiel.
+
+---
+
+## Règle n°5 : Documenter les non-résolus dans le RECAP
+
+Section `## Références non résolues` dans chaque `liste-famille-X-RECAP.md` :
+- Nom + source d'identification
+- Raison du blocage
+- Piste de résolution pour la prochaine session
+
+---
+
+## Structure de session type (~2h)
+
+```
+Phase B — Discovery (45 min)
+├── B1 : Pages /partenaires des V1 de la famille (10-15 min)
+├── B2-B4 : Sites spécifiques listés dans le prompt (20-25 min)
+└── B5+ : Recherche web si manque (10 min)
+
+Phase C — Scrape contacts (45 min)
+├── Batch jina parallel (4 sites à la fois)
+├── BrowserMCP pour les sites JS-only
+└── Fallback footer/homepage si /contact bloqué
+
+Phase D — Tagging + JSON (30 min)
+└── Écriture JSON + RECAP + commit
+```