Files
nav-carte/V2-cascade/fiches-passe1/PV2-1-RECAP.md

34 lines
2.3 KiB
Markdown

# PV2-1 RECAP - Scrape test 5 fiches (BrowserMCP)
Date : 2026-05-02
| Famille | Structure | Email trouvé | Source | Confidence | Pages visitées | Erreurs |
|---------|-----------|--------------|--------|------------|----------------|---------|
| F1 | Opalis | OUI — info@opalis.be | scrape_home | high | 2 (/, /fr/contact) | - |
| F2 | Frugalité Heureuse | OUI — contact@frugalite.org | scrape_home | medium | 1 (/) | Email obfusqué `[@]` |
| F3 | Quatorze | OUI — contact@quatorze.cc | scrape_contact_page | high | 2 (/, /contact/) | - |
| F4 | Tepop | OUI — tepop.asso@gmail.com | scrape_contact_page | high | 4 (/, /contact/, /a-propos/, /?page_id=124) | Slugs /contact + /a-propos → home |
| F5 | Transition France | OUI — transitionfrance@gmail.com | scrape_about | high | 4 (/, /contact/, /qui-sommes-nous/, /comment-commencer/) | /contact + /qui-sommes-nous → 404, home > 60KB |
## Taux de trouvaille email
- Total : **5/5 (100%)**
- High confidence : 4/5
- Medium confidence : 1/5 (F2, email obfusqué)
- Blocages détectés : aucun bloquant (pas de RGPD wall, pas de CAPTCHA)
## Pièges détectés
- **F2 Frugalité** : email obfusqué `contact[@]frugalite.org` dans le footer — nécessite regex ou lecture humaine, pas un mailto
- **F4 Tepop** : WP avec URLs slug inexistantes (`/contact`, `/a-propos` → redirect home). Page contact réelle accessible via menu burger → `?page_id=124`. Piège temps : 2 pages "grillées" avant de trouver la technique burger
- **F5 Transition France** : `/contact` et `/qui-sommes-nous` → 404. Home page > 60KB (snapshot BrowserMCP tronqué) — email récupéré par regex sur fichier sauvegardé automatiquement. Technique valide mais non-standard
## Recommandations pour PV2-2
- **5/5 emails trouvés → stack BrowserMCP OK pour batch, continuer**
- Ajouter règle dans pipeline : si URL → même contenu que home (détect. par titre identique), tenter menu burger avant de marquer `not_found`
- Ajouter règle : si snapshot > 30KB, sauvegarder + passer en mode regex (déjà géré auto par Claude Code)
- Pour les emails obfusqués `[at]` / `[@]` : decoder systematiquement — tous fiables
- F4 Tepop : préférer `?page_id=XXX` au slug pour les sites WP anciens sans permalinks propres
- Pas de besoin de pivot multi-canal pour cette famille de structures — toutes accessibles via scrape direct