Files

Jules Neny e63d02a351 wip: snapshot V2 cascade onglet 2 (sauvegarde avant chirurgie git-hygiene)

2026-05-06 15:37:13 +02:00

2.6 KiB

Raw Permalink Blame History

type, projet, created

type	projet	created
process	AEP nav-carte V2	2026-05-03

Pipe — Recherche agent par famille (PV2-2)

Méthode distillée de la session F3 (architecture sociale). Appliquer pour F1, F2, et futures familles.

Règle n°1 : Pages /partenaires des structures V1 en premier

Les pages /partenaires, /reseau, /ecosysteme, /acteurs des structures déjà en V1 sont le hub le plus dense.

Résultats session F3 :

Quatorze /partenaires-new → 7 nouvelles structures en une page (meilleure source)
YWC /lieu/[projet] → 2 partenaires (Plateau Urbain, Aurore)
A&P filtres → 5 structures (mais pas d'URLs directes)

Séquence recommandée :

Ouvrir toutes les pages /partenaires des V1 de la famille concernée
Extraire les noms + URLs des partenaires opérationnels (pas les financeurs)
Seulement ensuite → recherche web ouverte

Règle n°2 : Snapshot HTML immédiat pour les sites ambigus

Si une URL charge mais que la navigation ne répond pas (Airtable JS, React SPA) :

→ Lancer mcp__browsermcp__browser_snapshot immédiatement
→ Parser le YAML en 30 secondes
→ Décider : base de projets (skip) ou liste de structures (continuer)

Ne pas essayer 3 URLs alternatives avant d'avoir lu le snapshot. Sur A&P F3 : 10 min perdues.

Règle n°3 : Email dans footer si /contact bloqué

Quand Cloudflare bloque /contact (Bellastock, etc.) :

Lire la homepage complète jusqu'au footer
L'email y est souvent en clair (ex : contact@bellastock.com trouvé dans footer)

Règle n°4 : Paralléliser les scrapes contacts (jina batch)

# Passer une liste d'URLs à jina parallel_read_url
urls = [
    "https://perou-paris.org/contact",
    "https://bellastock.com/contact",
    "https://plateau-urbain.com/contact",
    "https://asffrance.org/contact"
]

4 sites en parallèle = même temps qu'1 site séquentiel.

Règle n°5 : Documenter les non-résolus dans le RECAP

Section ## Références non résolues dans chaque liste-famille-X-RECAP.md :

Nom + source d'identification
Raison du blocage
Piste de résolution pour la prochaine session

Structure de session type (~2h)

Phase B — Discovery (45 min)
├── B1 : Pages /partenaires des V1 de la famille (10-15 min)
├── B2-B4 : Sites spécifiques listés dans le prompt (20-25 min)
└── B5+ : Recherche web si manque (10 min)

Phase C — Scrape contacts (45 min)
├── Batch jina parallel (4 sites à la fois)
├── BrowserMCP pour les sites JS-only
└── Fallback footer/homepage si /contact bloqué

Phase D — Tagging + JSON (30 min)
└── Écriture JSON + RECAP + commit

2.6 KiB Raw Permalink Blame History