wip: snapshot V2 cascade onglet 2 (sauvegarde avant chirurgie git-hygiene)

This commit is contained in:
Jules Neny
2026-05-06 15:37:13 +02:00
parent 5878c56888
commit e63d02a351
101 changed files with 188900 additions and 3959 deletions

View File

View File

@@ -0,0 +1,33 @@
# PV2-1 RECAP - Scrape test 5 fiches (BrowserMCP)
Date : 2026-05-02
| Famille | Structure | Email trouvé | Source | Confidence | Pages visitées | Erreurs |
|---------|-----------|--------------|--------|------------|----------------|---------|
| F1 | Opalis | OUI — info@opalis.be | scrape_home | high | 2 (/, /fr/contact) | - |
| F2 | Frugalité Heureuse | OUI — contact@frugalite.org | scrape_home | medium | 1 (/) | Email obfusqué `[@]` |
| F3 | Quatorze | OUI — contact@quatorze.cc | scrape_contact_page | high | 2 (/, /contact/) | - |
| F4 | Tepop | OUI — tepop.asso@gmail.com | scrape_contact_page | high | 4 (/, /contact/, /a-propos/, /?page_id=124) | Slugs /contact + /a-propos → home |
| F5 | Transition France | OUI — transitionfrance@gmail.com | scrape_about | high | 4 (/, /contact/, /qui-sommes-nous/, /comment-commencer/) | /contact + /qui-sommes-nous → 404, home > 60KB |
## Taux de trouvaille email
- Total : **5/5 (100%)**
- High confidence : 4/5
- Medium confidence : 1/5 (F2, email obfusqué)
- Blocages détectés : aucun bloquant (pas de RGPD wall, pas de CAPTCHA)
## Pièges détectés
- **F2 Frugalité** : email obfusqué `contact[@]frugalite.org` dans le footer — nécessite regex ou lecture humaine, pas un mailto
- **F4 Tepop** : WP avec URLs slug inexistantes (`/contact`, `/a-propos` → redirect home). Page contact réelle accessible via menu burger → `?page_id=124`. Piège temps : 2 pages "grillées" avant de trouver la technique burger
- **F5 Transition France** : `/contact` et `/qui-sommes-nous` → 404. Home page > 60KB (snapshot BrowserMCP tronqué) — email récupéré par regex sur fichier sauvegardé automatiquement. Technique valide mais non-standard
## Recommandations pour PV2-2
- **5/5 emails trouvés → stack BrowserMCP OK pour batch, continuer**
- Ajouter règle dans pipeline : si URL → même contenu que home (détect. par titre identique), tenter menu burger avant de marquer `not_found`
- Ajouter règle : si snapshot > 30KB, sauvegarder + passer en mode regex (déjà géré auto par Claude Code)
- Pour les emails obfusqués `[at]` / `[@]` : decoder systematiquement — tous fiables
- F4 Tepop : préférer `?page_id=XXX` au slug pour les sites WP anciens sans permalinks propres
- Pas de besoin de pivot multi-canal pour cette famille de structures — toutes accessibles via scrape direct

View File

@@ -0,0 +1,29 @@
{
"id": "test-f1-opalis",
"nom": "Opalis",
"url": "https://opalis.eu/",
"famille_principale": 1,
"famille_principale_label": "Reemploi et filieres",
"pays": "BE",
"raw_text_excerpt": "Building and renovating with reclaimed materials. Professional dealers, common materials, examples of projects. Opalis est un annuaire d entreprises. Pour vos questions, n hesitez pas a contacter directement les fournisseurs concernes.",
"links_internes": ["/fr/fournisseurs", "/fr/materiaux", "/fr/projets", "/fr/documentation", "/fr/contact"],
"email_contact": "info@opalis.be",
"email_source": "scrape_home",
"email_confidence": "high",
"telephone": null,
"adresse": null,
"reseaux_sociaux": {
"linkedin": null,
"instagram": null,
"mastodon": null,
"bluesky": null,
"twitter": null
},
"type_juridique": "ASBL",
"contact_form_url": "https://opalis.eu/fr/contact",
"scrape_meta": {
"tool": "browsermcp",
"pages_visited": ["/en", "/fr/contact"],
"scrape_error": null
}
}

View File

@@ -0,0 +1,32 @@
{
"id": "test-f2-frugalite-heureuse",
"nom": "Frugalite heureuse et creative",
"url": "https://frugalite.org/",
"famille_principale": 2,
"famille_principale_label": "Frugalite et low-tech",
"pays": "FR",
"raw_text_excerpt": "Frugalite dans l architecture et le menagement des territoires. Rehabiliter ne plus construire. Menager ne plus amenager. Contenter ne plus consommer. S engager ne plus administrer. Faire mieux avec moins.",
"links_internes": ["/a-propos-de-la-frugalite/", "/manifeste/", "/groupes/", "/ressources/", "/agenda/"],
"email_contact": "contact@frugalite.org",
"email_source": "scrape_home",
"email_confidence": "medium",
"telephone": null,
"adresse": null,
"reseaux_sociaux": {
"linkedin": "https://www.linkedin.com/company/manifeste-pour-une-frugalit%C3%A9-heureuse-cr%C3%A9ative/",
"instagram": "https://www.instagram.com/frugalite_heureuse_et_creative/",
"mastodon": null,
"bluesky": null,
"twitter": null,
"facebook": "https://www.facebook.com/frugaliteheureuse",
"youtube": "https://www.youtube.com/c/Frugalit%C3%A9heureuseetcr%C3%A9ative"
},
"type_juridique": "association",
"contact_form_url": null,
"scrape_meta": {
"tool": "browsermcp",
"pages_visited": ["/"],
"scrape_error": null,
"note": "Email obfusque contact[@]frugalite.org dans le footer — medium confidence"
}
}

View File

@@ -0,0 +1,30 @@
{
"id": "test-f3-quatorze",
"nom": "Quatorze",
"url": "https://quatorze.cc/",
"famille_principale": 3,
"famille_principale_label": "Architecture sociale",
"pays": "FR",
"raw_text_excerpt": "L association Quatorze experimente, developpe et promeut une architecture sociale et solidaire pour des territoires agiles et resilients. Nous privilegions la co-conception en phase etude et la co-construction en phase chantier.",
"links_internes": ["/approche/", "/projets/", "/equipe/", "/contact/", "/lab14/", "/partenaires-new/"],
"email_contact": "contact@quatorze.cc",
"email_source": "scrape_contact_page",
"email_confidence": "high",
"telephone": "+33 7 60 99 87 76",
"adresse": "84 avenue de la Republique, 75011 Paris",
"reseaux_sociaux": {
"linkedin": "https://www.linkedin.com/company/quatorze.cc/",
"instagram": "https://www.instagram.com/quatorze.cc/",
"mastodon": null,
"bluesky": null,
"twitter": "https://twitter.com/quatorzecc",
"facebook": "https://www.facebook.com/quatorze.cc/"
},
"type_juridique": "association",
"contact_form_url": null,
"scrape_meta": {
"tool": "browsermcp",
"pages_visited": ["/", "/contact/"],
"scrape_error": null
}
}

View File

@@ -0,0 +1,31 @@
{
"id": "test-f4-tepop",
"nom": "TEPOP - Territoire a energie populaire",
"url": "https://tepop.fr/",
"famille_principale": 4,
"famille_principale_label": "Collectifs AMO bifurcation",
"pays": "FR",
"raw_text_excerpt": "Dessiner la metropole ecologique et solidaire de demain avec la jeunesse des quartiers populaires. TEPOP collabore avec les jeunes sur des projets de co-conception et co-construction d espaces publics.",
"links_internes": ["/?page_id=121", "/?page_id=124", "/?page_id=1369", "/"],
"email_contact": "tepop.asso@gmail.com",
"email_source": "scrape_contact_page",
"email_confidence": "high",
"telephone": "06.84.04.36.34",
"adresse": "15 rue de Chabrol, 75010 Paris",
"reseaux_sociaux": {
"linkedin": null,
"instagram": "https://www.instagram.com/tepopassoc/",
"mastodon": null,
"bluesky": null,
"twitter": "https://twitter.com/infotepop",
"facebook": "https://www.facebook.com/assoTEPOP"
},
"type_juridique": "association",
"contact_form_url": null,
"scrape_meta": {
"tool": "browsermcp",
"pages_visited": ["/", "/contact/", "/a-propos/", "/?page_id=124"],
"scrape_error": null,
"note": "Piege : /contact et /a-propos redirigent vers la home (pages slug inexistantes WP). Page contact reelle accessible uniquement via menu hamburger → ?page_id=124"
}
}

View File

@@ -0,0 +1,31 @@
{
"id": "test-f5-villes-en-transition",
"nom": "Transition France (entransition.fr)",
"url": "https://entransition.fr/",
"famille_principale": 5,
"famille_principale_label": "Urbanisme transition",
"pays": "FR",
"raw_text_excerpt": "Annuaire des initiatives Transition en France. Reseau national des villes et territoires en transition. Contact principal : transitionfrance@gmail.com. Responsable nationale : Laurence Rosenzweig.",
"links_internes": ["/comment-commencer/", "/la-tete/", "/les-mains/", "/agenda/", "/formation-de-transition/", "/vision/"],
"email_contact": "transitionfrance@gmail.com",
"email_source": "scrape_about",
"email_confidence": "high",
"telephone": null,
"adresse": null,
"reseaux_sociaux": {
"linkedin": null,
"instagram": null,
"mastodon": null,
"bluesky": null,
"twitter": null,
"facebook": "https://www.facebook.com/TransitionFrance/"
},
"type_juridique": "association",
"contact_form_url": null,
"scrape_meta": {
"tool": "browsermcp",
"pages_visited": ["/", "/contact/", "/qui-sommes-nous/", "/comment-commencer/"],
"scrape_error": null,
"note": "Piege 1 : /contact et /qui-sommes-nous → 404 (pages inexistantes). Piege 2 : home page > 60KB, snapshot tronque — email extrait par regex sur fichier sauvegardé. Aussi trouve : laurence.rosenzweig@outlook.fr (contact personnel, non retenu comme email principal)"
}
}