Méthodologie — Callejear Data Engine
Comment nous calculons l'Urban Score, le rôle de l'IA dans notre pipeline, et ce que nous ne prétendons pas faire.
Callejear.fr calcule un Urban Score de 0 à 100 pour 2 155 587 rues de France, à partir de 6 dimensions et 11 sources publiques.
Cette page documente notre approche de manière transparente : les composants, leurs poids relatifs, leurs limites, le rôle de l'IA et ce qui est exclu de notre périmètre.
1. Les 6 dimensions de l'Urban Score
Marchabilité
Mesure : densité d'équipements et services piétonnables dans un rayon de 400 m.
Sources : BPE (INSEE), SIRENE, OSM (verdure).
Limites : nous ne mesurons pas la qualité du trottoir ni les obstacles urbains (travaux, dénivelé). OSM ne capture que 16 % des rues pour la verdure.
Services
Mesure : nombre d'équipements publics (santé, éducation, administration, sport) dans un rayon de 500 m.
Sources : BPE — Base Permanente des Équipements, 99,8 % de couverture.
Limites : nous comptons la présence, pas la qualité (horaires, réputation, délais).
Commerces
Mesure : densité d'établissements commerciaux privés (restauration, commerce de détail, services aux particuliers) dans un rayon de 400 m.
Sources : SIRENE, 90 % de couverture.
Limites : SIRENE inclut des entreprises fermées non encore radiées. Nous n'affichons pas les dates d'ouverture.
Verdure
Mesure : présence de parcs, jardins, arbres d'alignement et espaces naturels dans un rayon de 600 m.
Sources : OpenStreetMap (tags leisure, landuse, natural).
Limites : couverture OSM : 16 % des rues. Les petits espaces verts privés ne sont pas cartographiés.
Connectivité
Mesure : nombre d'arrêts de transport en commun (métro, tram, bus, RER) et disponibilité de la fibre/THD.
Sources : GTFS (transport.data.gouv.fr, 37 % des rues), ARCEP (98 % des communes).
Limites : GTFS ne couvre que les réseaux qui publient leurs données. La fréquence des passages n'est pas pondérée.
Tranquillité
Mesure : estimation du bruit ambiant (Lden) en dB selon le type de voie, le trafic et la densité commerciale.
Sources : estimation Callejear.fr basée sur BAN (type de voie) + SIRENE.
Limites : c'est une estimation, pas une mesure. Les cartographies Lden officielles n'existent que dans les agglomérations de plus de 100 000 habitants et ne sont pas intégrées aujourd'hui.
2. Comment on agrège
L'Urban Score est une moyenne pondérée des 6 dimensions normalisées sur 100. Services et Commerces pèsent environ la moitié du score ; les quatre autres dimensions se partagent l'autre moitié.
Chaque sous-score va de 0 à 100 et provient de sources publiques spécifiques. Tous les composants sont visibles sur chaque page rue, ce qui rend le score auditable rue par rue.
3. Sources de données
| Source | Contenu | Licence | Fréquence |
|---|---|---|---|
| BAN | Base Adresse Nationale — géolocalisation officielle des adresses | Licence Ouverte 2.0 | Trimestrielle |
| INSEE | COG, population, IRIS, BPE, Filosofi (revenus médians) | Licence Ouverte 2.0 | Annuelle |
| SIRENE | Répertoire des entreprises actives | Licence Ouverte 2.0 | Hebdomadaire |
| DVF | Demandes de Valeurs Foncières — transactions immobilières | Licence Ouverte 2.0 | Semestrielle |
| OpenStreetMap | POIs, équipements, parcs, espaces verts | ODbL | Mensuelle |
| transport.data.gouv.fr (GTFS) | Arrêts et fréquences de transport public (SNCF, TRANSDEV, RATP, etc.) | Open data par opérateur | Hebdomadaire |
| Atmo France | Indice ATMO ICA, NO2, PM2.5, O3 — qualité de l'air | Open data BE/FR | Quotidienne |
| Géorisques | Inondation, séisme, argile, radon, PPRI | Licence Ouverte 2.0 | Mensuelle |
| ADEME — DPE | Performance énergétique des logements existants | Licence Ouverte 2.0 | Mensuelle |
| ARCEP | Couverture fibre, THD, débit (Ma Connexion Internet) | Licence Ouverte 2.0 | Trimestrielle |
| Open-Meteo | Normales climatiques (température, pluie, vent), altitude | CC-BY 4.0 | Annuelle |
4. Pipeline en cinq phases
- Extraction — téléchargement des sources officielles via des scripts Python (BAN, INSEE, DVF, SIRENE, BPE, OSM, GTFS, Géorisques, DPE, ARCEP, Atmo).
- Normalisation — déduplication des noms, génération de slugs, alignement des codes INSEE (gestion des arrondissements Paris/Lyon/Marseille).
- Croisement — joins sur code INSEE, code postal, identifiant BAN, intersections géographiques.
- Scoring — calcul de l'urban_score et des six sous-scores par rue.
- Narration supervisée et publication — texte rule-based par rue, génération HTML, revue éditoriale pour les pages communes et les articles d'analyse.
5. Le rôle de l'IA
Nous déclarons explicitement : l'IA est un outil, pas un auteur. L'IA aide à la détection d'anomalies dans les données, à la classification linguistique, et à la rédaction de brouillons revus par l'éditeur. Les décisions éditoriales, le fact-checking et le choix des sources sont toujours humains. Chaque article publié est signé, daté et revu par Yoel Castaño Peón.
Aucune page n'est publiée sans avoir été générée à partir de données publiques traçables. Les passages narratifs assistés par IA sont contraints par les données : ils ne peuvent pas inventer un Urban Score, un prix immobilier, ni un risque qui n'existe pas dans nos sources.
6. Anti-thin gate
Nous excluons de l'indexation (noindex) les rues qui ne respectent pas au moins l'un des trois critères suivants :
- au moins 4 dimensions renseignées ;
- un Urban Score calculable ;
- une phase d'indexation active pour le département.
Aujourd'hui, cela concerne 709 644 rues — visibles dans Google Search Console comme « Exclue par une balise noindex ». C'est intentionnel : nous préférons ne pas publier une rue plutôt que publier une page vide.
7. Limites reconnues
- Les sources officielles sont rafraîchies tous les 1 à 6 mois selon leur fréquence de publication.
- Nos scores ne sont pas des évaluations de biens immobiliers individuels — un appartement précis peut s'écarter fortement de la moyenne de sa rue.
- Dans les très petites communes (moins de 5 000 habitants), certaines données sont incomplètes (revenus IRIS Filosofi notamment).
- La dimension sociale, culturelle et historique d'un quartier n'est pas pleinement capturée par les scores chiffrés. Nos pages doivent être lues en complément d'une visite physique du lieu.
8. Ce que nous ne faisons pas
- Nous ne remplaçons pas MeilleursAgents pour une estimation de vente — ils font ça mieux à l'échelle communale.
- Nous ne remplaçons pas SeLoger ou Bien'ici pour les annonces immobilières — nous n'en avons pas.
- Nous ne remplaçons pas Wikipédia pour l'histoire d'un lieu — nous sommes factuels, pas encyclopédiques.
Notre apport unique : granularité par rue + intégration simultanée des données DPE, risques naturels, qualité de l'air, revenus IRIS et transports — en un seul endroit.
9. Fréquences de mise à jour
- BAN, SIRENE, BPE : trimestrielle
- DVF : semestrielle (publication officielle tous les 6 mois)
- Géorisques, ADEME DPE : mensuelle
- ARCEP : trimestrielle (T1, T2, T3, T4)
- Atmo France : quotidienne pour l'indice ICA ; les normales sont annuelles
- Filosofi : annuelle
10. Versioning du modèle de scoring
Les modifications du modèle de scoring sont publiées dans le journal des changements. Version actuelle : v1.0 (2026-04). Une bump de version signifie que les Urban Score changent et nous le signalons explicitement dans nos communications.