34 lines
2.3 KiB
Markdown
34 lines
2.3 KiB
Markdown
# PV2-1 RECAP - Scrape test 5 fiches (BrowserMCP)
|
|
|
|
Date : 2026-05-02
|
|
|
|
| Famille | Structure | Email trouvé | Source | Confidence | Pages visitées | Erreurs |
|
|
|---------|-----------|--------------|--------|------------|----------------|---------|
|
|
| F1 | Opalis | OUI — info@opalis.be | scrape_home | high | 2 (/, /fr/contact) | - |
|
|
| F2 | Frugalité Heureuse | OUI — contact@frugalite.org | scrape_home | medium | 1 (/) | Email obfusqué `[@]` |
|
|
| F3 | Quatorze | OUI — contact@quatorze.cc | scrape_contact_page | high | 2 (/, /contact/) | - |
|
|
| F4 | Tepop | OUI — tepop.asso@gmail.com | scrape_contact_page | high | 4 (/, /contact/, /a-propos/, /?page_id=124) | Slugs /contact + /a-propos → home |
|
|
| F5 | Transition France | OUI — transitionfrance@gmail.com | scrape_about | high | 4 (/, /contact/, /qui-sommes-nous/, /comment-commencer/) | /contact + /qui-sommes-nous → 404, home > 60KB |
|
|
|
|
## Taux de trouvaille email
|
|
|
|
- Total : **5/5 (100%)**
|
|
- High confidence : 4/5
|
|
- Medium confidence : 1/5 (F2, email obfusqué)
|
|
- Blocages détectés : aucun bloquant (pas de RGPD wall, pas de CAPTCHA)
|
|
|
|
## Pièges détectés
|
|
|
|
- **F2 Frugalité** : email obfusqué `contact[@]frugalite.org` dans le footer — nécessite regex ou lecture humaine, pas un mailto
|
|
- **F4 Tepop** : WP avec URLs slug inexistantes (`/contact`, `/a-propos` → redirect home). Page contact réelle accessible via menu burger → `?page_id=124`. Piège temps : 2 pages "grillées" avant de trouver la technique burger
|
|
- **F5 Transition France** : `/contact` et `/qui-sommes-nous` → 404. Home page > 60KB (snapshot BrowserMCP tronqué) — email récupéré par regex sur fichier sauvegardé automatiquement. Technique valide mais non-standard
|
|
|
|
## Recommandations pour PV2-2
|
|
|
|
- **5/5 emails trouvés → stack BrowserMCP OK pour batch, continuer**
|
|
- Ajouter règle dans pipeline : si URL → même contenu que home (détect. par titre identique), tenter menu burger avant de marquer `not_found`
|
|
- Ajouter règle : si snapshot > 30KB, sauvegarder + passer en mode regex (déjà géré auto par Claude Code)
|
|
- Pour les emails obfusqués `[at]` / `[@]` : decoder systematiquement — tous fiables
|
|
- F4 Tepop : préférer `?page_id=XXX` au slug pour les sites WP anciens sans permalinks propres
|
|
- Pas de besoin de pivot multi-canal pour cette famille de structures — toutes accessibles via scrape direct
|