wip: snapshot V2 cascade onglet 2 (sauvegarde avant chirurgie git-hygiene)
This commit is contained in:
0
V2-cascade/fiches-passe1/.gitkeep
Normal file
0
V2-cascade/fiches-passe1/.gitkeep
Normal file
33
V2-cascade/fiches-passe1/PV2-1-RECAP.md
Normal file
33
V2-cascade/fiches-passe1/PV2-1-RECAP.md
Normal file
@@ -0,0 +1,33 @@
|
||||
# PV2-1 RECAP - Scrape test 5 fiches (BrowserMCP)
|
||||
|
||||
Date : 2026-05-02
|
||||
|
||||
| Famille | Structure | Email trouvé | Source | Confidence | Pages visitées | Erreurs |
|
||||
|---------|-----------|--------------|--------|------------|----------------|---------|
|
||||
| F1 | Opalis | OUI — info@opalis.be | scrape_home | high | 2 (/, /fr/contact) | - |
|
||||
| F2 | Frugalité Heureuse | OUI — contact@frugalite.org | scrape_home | medium | 1 (/) | Email obfusqué `[@]` |
|
||||
| F3 | Quatorze | OUI — contact@quatorze.cc | scrape_contact_page | high | 2 (/, /contact/) | - |
|
||||
| F4 | Tepop | OUI — tepop.asso@gmail.com | scrape_contact_page | high | 4 (/, /contact/, /a-propos/, /?page_id=124) | Slugs /contact + /a-propos → home |
|
||||
| F5 | Transition France | OUI — transitionfrance@gmail.com | scrape_about | high | 4 (/, /contact/, /qui-sommes-nous/, /comment-commencer/) | /contact + /qui-sommes-nous → 404, home > 60KB |
|
||||
|
||||
## Taux de trouvaille email
|
||||
|
||||
- Total : **5/5 (100%)**
|
||||
- High confidence : 4/5
|
||||
- Medium confidence : 1/5 (F2, email obfusqué)
|
||||
- Blocages détectés : aucun bloquant (pas de RGPD wall, pas de CAPTCHA)
|
||||
|
||||
## Pièges détectés
|
||||
|
||||
- **F2 Frugalité** : email obfusqué `contact[@]frugalite.org` dans le footer — nécessite regex ou lecture humaine, pas un mailto
|
||||
- **F4 Tepop** : WP avec URLs slug inexistantes (`/contact`, `/a-propos` → redirect home). Page contact réelle accessible via menu burger → `?page_id=124`. Piège temps : 2 pages "grillées" avant de trouver la technique burger
|
||||
- **F5 Transition France** : `/contact` et `/qui-sommes-nous` → 404. Home page > 60KB (snapshot BrowserMCP tronqué) — email récupéré par regex sur fichier sauvegardé automatiquement. Technique valide mais non-standard
|
||||
|
||||
## Recommandations pour PV2-2
|
||||
|
||||
- **5/5 emails trouvés → stack BrowserMCP OK pour batch, continuer**
|
||||
- Ajouter règle dans pipeline : si URL → même contenu que home (détect. par titre identique), tenter menu burger avant de marquer `not_found`
|
||||
- Ajouter règle : si snapshot > 30KB, sauvegarder + passer en mode regex (déjà géré auto par Claude Code)
|
||||
- Pour les emails obfusqués `[at]` / `[@]` : decoder systematiquement — tous fiables
|
||||
- F4 Tepop : préférer `?page_id=XXX` au slug pour les sites WP anciens sans permalinks propres
|
||||
- Pas de besoin de pivot multi-canal pour cette famille de structures — toutes accessibles via scrape direct
|
||||
29
V2-cascade/fiches-passe1/test/f1-opalis.json
Normal file
29
V2-cascade/fiches-passe1/test/f1-opalis.json
Normal file
@@ -0,0 +1,29 @@
|
||||
{
|
||||
"id": "test-f1-opalis",
|
||||
"nom": "Opalis",
|
||||
"url": "https://opalis.eu/",
|
||||
"famille_principale": 1,
|
||||
"famille_principale_label": "Reemploi et filieres",
|
||||
"pays": "BE",
|
||||
"raw_text_excerpt": "Building and renovating with reclaimed materials. Professional dealers, common materials, examples of projects. Opalis est un annuaire d entreprises. Pour vos questions, n hesitez pas a contacter directement les fournisseurs concernes.",
|
||||
"links_internes": ["/fr/fournisseurs", "/fr/materiaux", "/fr/projets", "/fr/documentation", "/fr/contact"],
|
||||
"email_contact": "info@opalis.be",
|
||||
"email_source": "scrape_home",
|
||||
"email_confidence": "high",
|
||||
"telephone": null,
|
||||
"adresse": null,
|
||||
"reseaux_sociaux": {
|
||||
"linkedin": null,
|
||||
"instagram": null,
|
||||
"mastodon": null,
|
||||
"bluesky": null,
|
||||
"twitter": null
|
||||
},
|
||||
"type_juridique": "ASBL",
|
||||
"contact_form_url": "https://opalis.eu/fr/contact",
|
||||
"scrape_meta": {
|
||||
"tool": "browsermcp",
|
||||
"pages_visited": ["/en", "/fr/contact"],
|
||||
"scrape_error": null
|
||||
}
|
||||
}
|
||||
32
V2-cascade/fiches-passe1/test/f2-frugalite-heureuse.json
Normal file
32
V2-cascade/fiches-passe1/test/f2-frugalite-heureuse.json
Normal file
@@ -0,0 +1,32 @@
|
||||
{
|
||||
"id": "test-f2-frugalite-heureuse",
|
||||
"nom": "Frugalite heureuse et creative",
|
||||
"url": "https://frugalite.org/",
|
||||
"famille_principale": 2,
|
||||
"famille_principale_label": "Frugalite et low-tech",
|
||||
"pays": "FR",
|
||||
"raw_text_excerpt": "Frugalite dans l architecture et le menagement des territoires. Rehabiliter ne plus construire. Menager ne plus amenager. Contenter ne plus consommer. S engager ne plus administrer. Faire mieux avec moins.",
|
||||
"links_internes": ["/a-propos-de-la-frugalite/", "/manifeste/", "/groupes/", "/ressources/", "/agenda/"],
|
||||
"email_contact": "contact@frugalite.org",
|
||||
"email_source": "scrape_home",
|
||||
"email_confidence": "medium",
|
||||
"telephone": null,
|
||||
"adresse": null,
|
||||
"reseaux_sociaux": {
|
||||
"linkedin": "https://www.linkedin.com/company/manifeste-pour-une-frugalit%C3%A9-heureuse-cr%C3%A9ative/",
|
||||
"instagram": "https://www.instagram.com/frugalite_heureuse_et_creative/",
|
||||
"mastodon": null,
|
||||
"bluesky": null,
|
||||
"twitter": null,
|
||||
"facebook": "https://www.facebook.com/frugaliteheureuse",
|
||||
"youtube": "https://www.youtube.com/c/Frugalit%C3%A9heureuseetcr%C3%A9ative"
|
||||
},
|
||||
"type_juridique": "association",
|
||||
"contact_form_url": null,
|
||||
"scrape_meta": {
|
||||
"tool": "browsermcp",
|
||||
"pages_visited": ["/"],
|
||||
"scrape_error": null,
|
||||
"note": "Email obfusque contact[@]frugalite.org dans le footer — medium confidence"
|
||||
}
|
||||
}
|
||||
30
V2-cascade/fiches-passe1/test/f3-quatorze.json
Normal file
30
V2-cascade/fiches-passe1/test/f3-quatorze.json
Normal file
@@ -0,0 +1,30 @@
|
||||
{
|
||||
"id": "test-f3-quatorze",
|
||||
"nom": "Quatorze",
|
||||
"url": "https://quatorze.cc/",
|
||||
"famille_principale": 3,
|
||||
"famille_principale_label": "Architecture sociale",
|
||||
"pays": "FR",
|
||||
"raw_text_excerpt": "L association Quatorze experimente, developpe et promeut une architecture sociale et solidaire pour des territoires agiles et resilients. Nous privilegions la co-conception en phase etude et la co-construction en phase chantier.",
|
||||
"links_internes": ["/approche/", "/projets/", "/equipe/", "/contact/", "/lab14/", "/partenaires-new/"],
|
||||
"email_contact": "contact@quatorze.cc",
|
||||
"email_source": "scrape_contact_page",
|
||||
"email_confidence": "high",
|
||||
"telephone": "+33 7 60 99 87 76",
|
||||
"adresse": "84 avenue de la Republique, 75011 Paris",
|
||||
"reseaux_sociaux": {
|
||||
"linkedin": "https://www.linkedin.com/company/quatorze.cc/",
|
||||
"instagram": "https://www.instagram.com/quatorze.cc/",
|
||||
"mastodon": null,
|
||||
"bluesky": null,
|
||||
"twitter": "https://twitter.com/quatorzecc",
|
||||
"facebook": "https://www.facebook.com/quatorze.cc/"
|
||||
},
|
||||
"type_juridique": "association",
|
||||
"contact_form_url": null,
|
||||
"scrape_meta": {
|
||||
"tool": "browsermcp",
|
||||
"pages_visited": ["/", "/contact/"],
|
||||
"scrape_error": null
|
||||
}
|
||||
}
|
||||
31
V2-cascade/fiches-passe1/test/f4-tepop.json
Normal file
31
V2-cascade/fiches-passe1/test/f4-tepop.json
Normal file
@@ -0,0 +1,31 @@
|
||||
{
|
||||
"id": "test-f4-tepop",
|
||||
"nom": "TEPOP - Territoire a energie populaire",
|
||||
"url": "https://tepop.fr/",
|
||||
"famille_principale": 4,
|
||||
"famille_principale_label": "Collectifs AMO bifurcation",
|
||||
"pays": "FR",
|
||||
"raw_text_excerpt": "Dessiner la metropole ecologique et solidaire de demain avec la jeunesse des quartiers populaires. TEPOP collabore avec les jeunes sur des projets de co-conception et co-construction d espaces publics.",
|
||||
"links_internes": ["/?page_id=121", "/?page_id=124", "/?page_id=1369", "/"],
|
||||
"email_contact": "tepop.asso@gmail.com",
|
||||
"email_source": "scrape_contact_page",
|
||||
"email_confidence": "high",
|
||||
"telephone": "06.84.04.36.34",
|
||||
"adresse": "15 rue de Chabrol, 75010 Paris",
|
||||
"reseaux_sociaux": {
|
||||
"linkedin": null,
|
||||
"instagram": "https://www.instagram.com/tepopassoc/",
|
||||
"mastodon": null,
|
||||
"bluesky": null,
|
||||
"twitter": "https://twitter.com/infotepop",
|
||||
"facebook": "https://www.facebook.com/assoTEPOP"
|
||||
},
|
||||
"type_juridique": "association",
|
||||
"contact_form_url": null,
|
||||
"scrape_meta": {
|
||||
"tool": "browsermcp",
|
||||
"pages_visited": ["/", "/contact/", "/a-propos/", "/?page_id=124"],
|
||||
"scrape_error": null,
|
||||
"note": "Piege : /contact et /a-propos redirigent vers la home (pages slug inexistantes WP). Page contact reelle accessible uniquement via menu hamburger → ?page_id=124"
|
||||
}
|
||||
}
|
||||
31
V2-cascade/fiches-passe1/test/f5-villes-en-transition.json
Normal file
31
V2-cascade/fiches-passe1/test/f5-villes-en-transition.json
Normal file
@@ -0,0 +1,31 @@
|
||||
{
|
||||
"id": "test-f5-villes-en-transition",
|
||||
"nom": "Transition France (entransition.fr)",
|
||||
"url": "https://entransition.fr/",
|
||||
"famille_principale": 5,
|
||||
"famille_principale_label": "Urbanisme transition",
|
||||
"pays": "FR",
|
||||
"raw_text_excerpt": "Annuaire des initiatives Transition en France. Reseau national des villes et territoires en transition. Contact principal : transitionfrance@gmail.com. Responsable nationale : Laurence Rosenzweig.",
|
||||
"links_internes": ["/comment-commencer/", "/la-tete/", "/les-mains/", "/agenda/", "/formation-de-transition/", "/vision/"],
|
||||
"email_contact": "transitionfrance@gmail.com",
|
||||
"email_source": "scrape_about",
|
||||
"email_confidence": "high",
|
||||
"telephone": null,
|
||||
"adresse": null,
|
||||
"reseaux_sociaux": {
|
||||
"linkedin": null,
|
||||
"instagram": null,
|
||||
"mastodon": null,
|
||||
"bluesky": null,
|
||||
"twitter": null,
|
||||
"facebook": "https://www.facebook.com/TransitionFrance/"
|
||||
},
|
||||
"type_juridique": "association",
|
||||
"contact_form_url": null,
|
||||
"scrape_meta": {
|
||||
"tool": "browsermcp",
|
||||
"pages_visited": ["/", "/contact/", "/qui-sommes-nous/", "/comment-commencer/"],
|
||||
"scrape_error": null,
|
||||
"note": "Piege 1 : /contact et /qui-sommes-nous → 404 (pages inexistantes). Piege 2 : home page > 60KB, snapshot tronque — email extrait par regex sur fichier sauvegardé. Aussi trouve : laurence.rosenzweig@outlook.fr (contact personnel, non retenu comme email principal)"
|
||||
}
|
||||
}
|
||||
Reference in New Issue
Block a user