2.3 KiB
2.3 KiB
PV2-1 RECAP - Scrape test 5 fiches (BrowserMCP)
Date : 2026-05-02
| Famille | Structure | Email trouvé | Source | Confidence | Pages visitées | Erreurs |
|---|---|---|---|---|---|---|
| F1 | Opalis | OUI — info@opalis.be | scrape_home | high | 2 (/, /fr/contact) | - |
| F2 | Frugalité Heureuse | OUI — contact@frugalite.org | scrape_home | medium | 1 (/) | Email obfusqué [@] |
| F3 | Quatorze | OUI — contact@quatorze.cc | scrape_contact_page | high | 2 (/, /contact/) | - |
| F4 | Tepop | OUI — tepop.asso@gmail.com | scrape_contact_page | high | 4 (/, /contact/, /a-propos/, /?page_id=124) | Slugs /contact + /a-propos → home |
| F5 | Transition France | OUI — transitionfrance@gmail.com | scrape_about | high | 4 (/, /contact/, /qui-sommes-nous/, /comment-commencer/) | /contact + /qui-sommes-nous → 404, home > 60KB |
Taux de trouvaille email
- Total : 5/5 (100%)
- High confidence : 4/5
- Medium confidence : 1/5 (F2, email obfusqué)
- Blocages détectés : aucun bloquant (pas de RGPD wall, pas de CAPTCHA)
Pièges détectés
- F2 Frugalité : email obfusqué
contact[@]frugalite.orgdans le footer — nécessite regex ou lecture humaine, pas un mailto - F4 Tepop : WP avec URLs slug inexistantes (
/contact,/a-propos→ redirect home). Page contact réelle accessible via menu burger →?page_id=124. Piège temps : 2 pages "grillées" avant de trouver la technique burger - F5 Transition France :
/contactet/qui-sommes-nous→ 404. Home page > 60KB (snapshot BrowserMCP tronqué) — email récupéré par regex sur fichier sauvegardé automatiquement. Technique valide mais non-standard
Recommandations pour PV2-2
- 5/5 emails trouvés → stack BrowserMCP OK pour batch, continuer
- Ajouter règle dans pipeline : si URL → même contenu que home (détect. par titre identique), tenter menu burger avant de marquer
not_found - Ajouter règle : si snapshot > 30KB, sauvegarder + passer en mode regex (déjà géré auto par Claude Code)
- Pour les emails obfusqués
[at]/[@]: decoder systematiquement — tous fiables - F4 Tepop : préférer
?page_id=XXXau slug pour les sites WP anciens sans permalinks propres - Pas de besoin de pivot multi-canal pour cette famille de structures — toutes accessibles via scrape direct