wip: snapshot V2 cascade onglet 2 (sauvegarde avant chirurgie git-hygiene)
This commit is contained in:
33
V2-cascade/fiches-passe1/PV2-1-RECAP.md
Normal file
33
V2-cascade/fiches-passe1/PV2-1-RECAP.md
Normal file
@@ -0,0 +1,33 @@
|
||||
# PV2-1 RECAP - Scrape test 5 fiches (BrowserMCP)
|
||||
|
||||
Date : 2026-05-02
|
||||
|
||||
| Famille | Structure | Email trouvé | Source | Confidence | Pages visitées | Erreurs |
|
||||
|---------|-----------|--------------|--------|------------|----------------|---------|
|
||||
| F1 | Opalis | OUI — info@opalis.be | scrape_home | high | 2 (/, /fr/contact) | - |
|
||||
| F2 | Frugalité Heureuse | OUI — contact@frugalite.org | scrape_home | medium | 1 (/) | Email obfusqué `[@]` |
|
||||
| F3 | Quatorze | OUI — contact@quatorze.cc | scrape_contact_page | high | 2 (/, /contact/) | - |
|
||||
| F4 | Tepop | OUI — tepop.asso@gmail.com | scrape_contact_page | high | 4 (/, /contact/, /a-propos/, /?page_id=124) | Slugs /contact + /a-propos → home |
|
||||
| F5 | Transition France | OUI — transitionfrance@gmail.com | scrape_about | high | 4 (/, /contact/, /qui-sommes-nous/, /comment-commencer/) | /contact + /qui-sommes-nous → 404, home > 60KB |
|
||||
|
||||
## Taux de trouvaille email
|
||||
|
||||
- Total : **5/5 (100%)**
|
||||
- High confidence : 4/5
|
||||
- Medium confidence : 1/5 (F2, email obfusqué)
|
||||
- Blocages détectés : aucun bloquant (pas de RGPD wall, pas de CAPTCHA)
|
||||
|
||||
## Pièges détectés
|
||||
|
||||
- **F2 Frugalité** : email obfusqué `contact[@]frugalite.org` dans le footer — nécessite regex ou lecture humaine, pas un mailto
|
||||
- **F4 Tepop** : WP avec URLs slug inexistantes (`/contact`, `/a-propos` → redirect home). Page contact réelle accessible via menu burger → `?page_id=124`. Piège temps : 2 pages "grillées" avant de trouver la technique burger
|
||||
- **F5 Transition France** : `/contact` et `/qui-sommes-nous` → 404. Home page > 60KB (snapshot BrowserMCP tronqué) — email récupéré par regex sur fichier sauvegardé automatiquement. Technique valide mais non-standard
|
||||
|
||||
## Recommandations pour PV2-2
|
||||
|
||||
- **5/5 emails trouvés → stack BrowserMCP OK pour batch, continuer**
|
||||
- Ajouter règle dans pipeline : si URL → même contenu que home (détect. par titre identique), tenter menu burger avant de marquer `not_found`
|
||||
- Ajouter règle : si snapshot > 30KB, sauvegarder + passer en mode regex (déjà géré auto par Claude Code)
|
||||
- Pour les emails obfusqués `[at]` / `[@]` : decoder systematiquement — tous fiables
|
||||
- F4 Tepop : préférer `?page_id=XXX` au slug pour les sites WP anciens sans permalinks propres
|
||||
- Pas de besoin de pivot multi-canal pour cette famille de structures — toutes accessibles via scrape direct
|
||||
Reference in New Issue
Block a user