Files
nav-carte/V2-cascade/fiches-passe1/PV2-1-RECAP.md

2.3 KiB

PV2-1 RECAP - Scrape test 5 fiches (BrowserMCP)

Date : 2026-05-02

Famille Structure Email trouvé Source Confidence Pages visitées Erreurs
F1 Opalis OUI — info@opalis.be scrape_home high 2 (/, /fr/contact) -
F2 Frugalité Heureuse OUI — contact@frugalite.org scrape_home medium 1 (/) Email obfusqué [@]
F3 Quatorze OUI — contact@quatorze.cc scrape_contact_page high 2 (/, /contact/) -
F4 Tepop OUI — tepop.asso@gmail.com scrape_contact_page high 4 (/, /contact/, /a-propos/, /?page_id=124) Slugs /contact + /a-propos → home
F5 Transition France OUI — transitionfrance@gmail.com scrape_about high 4 (/, /contact/, /qui-sommes-nous/, /comment-commencer/) /contact + /qui-sommes-nous → 404, home > 60KB

Taux de trouvaille email

  • Total : 5/5 (100%)
  • High confidence : 4/5
  • Medium confidence : 1/5 (F2, email obfusqué)
  • Blocages détectés : aucun bloquant (pas de RGPD wall, pas de CAPTCHA)

Pièges détectés

  • F2 Frugalité : email obfusqué contact[@]frugalite.org dans le footer — nécessite regex ou lecture humaine, pas un mailto
  • F4 Tepop : WP avec URLs slug inexistantes (/contact, /a-propos → redirect home). Page contact réelle accessible via menu burger → ?page_id=124. Piège temps : 2 pages "grillées" avant de trouver la technique burger
  • F5 Transition France : /contact et /qui-sommes-nous → 404. Home page > 60KB (snapshot BrowserMCP tronqué) — email récupéré par regex sur fichier sauvegardé automatiquement. Technique valide mais non-standard

Recommandations pour PV2-2

  • 5/5 emails trouvés → stack BrowserMCP OK pour batch, continuer
  • Ajouter règle dans pipeline : si URL → même contenu que home (détect. par titre identique), tenter menu burger avant de marquer not_found
  • Ajouter règle : si snapshot > 30KB, sauvegarder + passer en mode regex (déjà géré auto par Claude Code)
  • Pour les emails obfusqués [at] / [@] : decoder systematiquement — tous fiables
  • F4 Tepop : préférer ?page_id=XXX au slug pour les sites WP anciens sans permalinks propres
  • Pas de besoin de pivot multi-canal pour cette famille de structures — toutes accessibles via scrape direct