92 lines
2.6 KiB
Markdown
92 lines
2.6 KiB
Markdown
---
|
|
type: process
|
|
projet: AEP nav-carte V2
|
|
created: 2026-05-03
|
|
---
|
|
|
|
# Pipe — Recherche agent par famille (PV2-2)
|
|
|
|
> Méthode distillée de la session F3 (architecture sociale). Appliquer pour F1, F2, et futures familles.
|
|
|
|
---
|
|
|
|
## Règle n°1 : Pages /partenaires des structures V1 en premier
|
|
|
|
Les pages `/partenaires`, `/reseau`, `/ecosysteme`, `/acteurs` des structures **déjà en V1** sont le hub le plus dense.
|
|
|
|
Résultats session F3 :
|
|
- Quatorze `/partenaires-new` → 7 nouvelles structures en une page (meilleure source)
|
|
- YWC `/lieu/[projet]` → 2 partenaires (Plateau Urbain, Aurore)
|
|
- A&P filtres → 5 structures (mais pas d'URLs directes)
|
|
|
|
**Séquence recommandée :**
|
|
1. Ouvrir toutes les pages `/partenaires` des V1 de la famille concernée
|
|
2. Extraire les noms + URLs des partenaires opérationnels (pas les financeurs)
|
|
3. Seulement ensuite → recherche web ouverte
|
|
|
|
---
|
|
|
|
## Règle n°2 : Snapshot HTML immédiat pour les sites ambigus
|
|
|
|
Si une URL charge mais que la navigation ne répond pas (Airtable JS, React SPA) :
|
|
|
|
```
|
|
→ Lancer mcp__browsermcp__browser_snapshot immédiatement
|
|
→ Parser le YAML en 30 secondes
|
|
→ Décider : base de projets (skip) ou liste de structures (continuer)
|
|
```
|
|
|
|
Ne pas essayer 3 URLs alternatives avant d'avoir lu le snapshot. Sur A&P F3 : 10 min perdues.
|
|
|
|
---
|
|
|
|
## Règle n°3 : Email dans footer si /contact bloqué
|
|
|
|
Quand Cloudflare bloque `/contact` (Bellastock, etc.) :
|
|
- Lire la homepage complète jusqu'au footer
|
|
- L'email y est souvent en clair (ex : `contact@bellastock.com` trouvé dans footer)
|
|
|
|
---
|
|
|
|
## Règle n°4 : Paralléliser les scrapes contacts (jina batch)
|
|
|
|
```python
|
|
# Passer une liste d'URLs à jina parallel_read_url
|
|
urls = [
|
|
"https://perou-paris.org/contact",
|
|
"https://bellastock.com/contact",
|
|
"https://plateau-urbain.com/contact",
|
|
"https://asffrance.org/contact"
|
|
]
|
|
```
|
|
|
|
4 sites en parallèle = même temps qu'1 site séquentiel.
|
|
|
|
---
|
|
|
|
## Règle n°5 : Documenter les non-résolus dans le RECAP
|
|
|
|
Section `## Références non résolues` dans chaque `liste-famille-X-RECAP.md` :
|
|
- Nom + source d'identification
|
|
- Raison du blocage
|
|
- Piste de résolution pour la prochaine session
|
|
|
|
---
|
|
|
|
## Structure de session type (~2h)
|
|
|
|
```
|
|
Phase B — Discovery (45 min)
|
|
├── B1 : Pages /partenaires des V1 de la famille (10-15 min)
|
|
├── B2-B4 : Sites spécifiques listés dans le prompt (20-25 min)
|
|
└── B5+ : Recherche web si manque (10 min)
|
|
|
|
Phase C — Scrape contacts (45 min)
|
|
├── Batch jina parallel (4 sites à la fois)
|
|
├── BrowserMCP pour les sites JS-only
|
|
└── Fallback footer/homepage si /contact bloqué
|
|
|
|
Phase D — Tagging + JSON (30 min)
|
|
└── Écriture JSON + RECAP + commit
|
|
```
|