--- type: process projet: AEP nav-carte V2 created: 2026-05-03 --- # Pipe — Recherche agent par famille (PV2-2) > Méthode distillée de la session F3 (architecture sociale). Appliquer pour F1, F2, et futures familles. --- ## Règle n°1 : Pages /partenaires des structures V1 en premier Les pages `/partenaires`, `/reseau`, `/ecosysteme`, `/acteurs` des structures **déjà en V1** sont le hub le plus dense. Résultats session F3 : - Quatorze `/partenaires-new` → 7 nouvelles structures en une page (meilleure source) - YWC `/lieu/[projet]` → 2 partenaires (Plateau Urbain, Aurore) - A&P filtres → 5 structures (mais pas d'URLs directes) **Séquence recommandée :** 1. Ouvrir toutes les pages `/partenaires` des V1 de la famille concernée 2. Extraire les noms + URLs des partenaires opérationnels (pas les financeurs) 3. Seulement ensuite → recherche web ouverte --- ## Règle n°2 : Snapshot HTML immédiat pour les sites ambigus Si une URL charge mais que la navigation ne répond pas (Airtable JS, React SPA) : ``` → Lancer mcp__browsermcp__browser_snapshot immédiatement → Parser le YAML en 30 secondes → Décider : base de projets (skip) ou liste de structures (continuer) ``` Ne pas essayer 3 URLs alternatives avant d'avoir lu le snapshot. Sur A&P F3 : 10 min perdues. --- ## Règle n°3 : Email dans footer si /contact bloqué Quand Cloudflare bloque `/contact` (Bellastock, etc.) : - Lire la homepage complète jusqu'au footer - L'email y est souvent en clair (ex : `contact@bellastock.com` trouvé dans footer) --- ## Règle n°4 : Paralléliser les scrapes contacts (jina batch) ```python # Passer une liste d'URLs à jina parallel_read_url urls = [ "https://perou-paris.org/contact", "https://bellastock.com/contact", "https://plateau-urbain.com/contact", "https://asffrance.org/contact" ] ``` 4 sites en parallèle = même temps qu'1 site séquentiel. --- ## Règle n°5 : Documenter les non-résolus dans le RECAP Section `## Références non résolues` dans chaque `liste-famille-X-RECAP.md` : - Nom + source d'identification - Raison du blocage - Piste de résolution pour la prochaine session --- ## Structure de session type (~2h) ``` Phase B — Discovery (45 min) ├── B1 : Pages /partenaires des V1 de la famille (10-15 min) ├── B2-B4 : Sites spécifiques listés dans le prompt (20-25 min) └── B5+ : Recherche web si manque (10 min) Phase C — Scrape contacts (45 min) ├── Batch jina parallel (4 sites à la fois) ├── BrowserMCP pour les sites JS-only └── Fallback footer/homepage si /contact bloqué Phase D — Tagging + JSON (30 min) └── Écriture JSON + RECAP + commit ```