Méthodologie — Callejear Data Engine

Comment nous calculons l'Urban Score, le rôle de l'IA dans notre pipeline, et ce que nous ne prétendons pas faire.

Callejear.fr calcule un Urban Score de 0 à 100 pour 2 155 587 rues de France, à partir de 6 dimensions et 11 sources publiques.

Cette page documente notre approche de manière transparente : les composants, leurs poids relatifs, leurs limites, le rôle de l'IA et ce qui est exclu de notre périmètre.

1. Les 6 dimensions de l'Urban Score

Marchabilité

Mesure : densité d'équipements et services piétonnables dans un rayon de 400 m.

Sources : BPE (INSEE), SIRENE, OSM (verdure).

Limites : nous ne mesurons pas la qualité du trottoir ni les obstacles urbains (travaux, dénivelé). OSM ne capture que 16 % des rues pour la verdure.

Services

Mesure : nombre d'équipements publics (santé, éducation, administration, sport) dans un rayon de 500 m.

Sources : BPE — Base Permanente des Équipements, 99,8 % de couverture.

Limites : nous comptons la présence, pas la qualité (horaires, réputation, délais).

Commerces

Mesure : densité d'établissements commerciaux privés (restauration, commerce de détail, services aux particuliers) dans un rayon de 400 m.

Sources : SIRENE, 90 % de couverture.

Limites : SIRENE inclut des entreprises fermées non encore radiées. Nous n'affichons pas les dates d'ouverture.

Verdure

Mesure : présence de parcs, jardins, arbres d'alignement et espaces naturels dans un rayon de 600 m.

Sources : OpenStreetMap (tags leisure, landuse, natural).

Limites : couverture OSM : 16 % des rues. Les petits espaces verts privés ne sont pas cartographiés.

Connectivité

Mesure : nombre d'arrêts de transport en commun (métro, tram, bus, RER) et disponibilité de la fibre/THD.

Sources : GTFS (transport.data.gouv.fr, 37 % des rues), ARCEP (98 % des communes).

Limites : GTFS ne couvre que les réseaux qui publient leurs données. La fréquence des passages n'est pas pondérée.

Tranquillité

Mesure : estimation du bruit ambiant (Lden) en dB selon le type de voie, le trafic et la densité commerciale.

Sources : estimation Callejear.fr basée sur BAN (type de voie) + SIRENE.

Limites : c'est une estimation, pas une mesure. Les cartographies Lden officielles n'existent que dans les agglomérations de plus de 100 000 habitants et ne sont pas intégrées aujourd'hui.

2. Comment on agrège

L'Urban Score est une moyenne pondérée des 6 dimensions normalisées sur 100. Services et Commerces pèsent environ la moitié du score ; les quatre autres dimensions se partagent l'autre moitié.

urban_score = 0.25·marchabilite + 0.20·commerce + 0.20·transport + 0.15·verdure + 0.10·tranquillite + 0.10·services_de_base

Chaque sous-score va de 0 à 100 et provient de sources publiques spécifiques. Tous les composants sont visibles sur chaque page rue, ce qui rend le score auditable rue par rue.

3. Sources de données

Source Contenu Licence Fréquence
BAN Base Adresse Nationale — géolocalisation officielle des adresses Licence Ouverte 2.0 Trimestrielle
INSEE COG, population, IRIS, BPE, Filosofi (revenus médians) Licence Ouverte 2.0 Annuelle
SIRENE Répertoire des entreprises actives Licence Ouverte 2.0 Hebdomadaire
DVF Demandes de Valeurs Foncières — transactions immobilières Licence Ouverte 2.0 Semestrielle
OpenStreetMap POIs, équipements, parcs, espaces verts ODbL Mensuelle
transport.data.gouv.fr (GTFS) Arrêts et fréquences de transport public (SNCF, TRANSDEV, RATP, etc.) Open data par opérateur Hebdomadaire
Atmo France Indice ATMO ICA, NO2, PM2.5, O3 — qualité de l'air Open data BE/FR Quotidienne
Géorisques Inondation, séisme, argile, radon, PPRI Licence Ouverte 2.0 Mensuelle
ADEME — DPE Performance énergétique des logements existants Licence Ouverte 2.0 Mensuelle
ARCEP Couverture fibre, THD, débit (Ma Connexion Internet) Licence Ouverte 2.0 Trimestrielle
Open-Meteo Normales climatiques (température, pluie, vent), altitude CC-BY 4.0 Annuelle

4. Pipeline en cinq phases

  1. Extraction — téléchargement des sources officielles via des scripts Python (BAN, INSEE, DVF, SIRENE, BPE, OSM, GTFS, Géorisques, DPE, ARCEP, Atmo).
  2. Normalisation — déduplication des noms, génération de slugs, alignement des codes INSEE (gestion des arrondissements Paris/Lyon/Marseille).
  3. Croisement — joins sur code INSEE, code postal, identifiant BAN, intersections géographiques.
  4. Scoring — calcul de l'urban_score et des six sous-scores par rue.
  5. Narration supervisée et publication — texte rule-based par rue, génération HTML, revue éditoriale pour les pages communes et les articles d'analyse.

5. Le rôle de l'IA

Nous déclarons explicitement : l'IA est un outil, pas un auteur. L'IA aide à la détection d'anomalies dans les données, à la classification linguistique, et à la rédaction de brouillons revus par l'éditeur. Les décisions éditoriales, le fact-checking et le choix des sources sont toujours humains. Chaque article publié est signé, daté et revu par Yoel Castaño Peón.

Aucune page n'est publiée sans avoir été générée à partir de données publiques traçables. Les passages narratifs assistés par IA sont contraints par les données : ils ne peuvent pas inventer un Urban Score, un prix immobilier, ni un risque qui n'existe pas dans nos sources.

6. Anti-thin gate

Nous excluons de l'indexation (noindex) les rues qui ne respectent pas au moins l'un des trois critères suivants :

  • au moins 4 dimensions renseignées ;
  • un Urban Score calculable ;
  • une phase d'indexation active pour le département.

Aujourd'hui, cela concerne 709 644 rues — visibles dans Google Search Console comme « Exclue par une balise noindex ». C'est intentionnel : nous préférons ne pas publier une rue plutôt que publier une page vide.

7. Limites reconnues

  • Les sources officielles sont rafraîchies tous les 1 à 6 mois selon leur fréquence de publication.
  • Nos scores ne sont pas des évaluations de biens immobiliers individuels — un appartement précis peut s'écarter fortement de la moyenne de sa rue.
  • Dans les très petites communes (moins de 5 000 habitants), certaines données sont incomplètes (revenus IRIS Filosofi notamment).
  • La dimension sociale, culturelle et historique d'un quartier n'est pas pleinement capturée par les scores chiffrés. Nos pages doivent être lues en complément d'une visite physique du lieu.

8. Ce que nous ne faisons pas

  • Nous ne remplaçons pas MeilleursAgents pour une estimation de vente — ils font ça mieux à l'échelle communale.
  • Nous ne remplaçons pas SeLoger ou Bien'ici pour les annonces immobilières — nous n'en avons pas.
  • Nous ne remplaçons pas Wikipédia pour l'histoire d'un lieu — nous sommes factuels, pas encyclopédiques.

Notre apport unique : granularité par rue + intégration simultanée des données DPE, risques naturels, qualité de l'air, revenus IRIS et transports — en un seul endroit.

9. Fréquences de mise à jour

  • BAN, SIRENE, BPE : trimestrielle
  • DVF : semestrielle (publication officielle tous les 6 mois)
  • Géorisques, ADEME DPE : mensuelle
  • ARCEP : trimestrielle (T1, T2, T3, T4)
  • Atmo France : quotidienne pour l'indice ICA ; les normales sont annuelles
  • Filosofi : annuelle

10. Versioning du modèle de scoring

Les modifications du modèle de scoring sont publiées dans le journal des changements. Version actuelle : v1.0 (2026-04). Une bump de version signifie que les Urban Score changent et nous le signalons explicitement dans nos communications.

Avertissement légal. Les informations publiées sur Callejear.fr sont informatives et ne constituent pas un conseil financier, juridique ou immobilier adapté à une situation individuelle. Consultez un professionnel qualifié (notaire, agent immobilier, expert en bâtiment) pour toute décision d'achat, de vente ou d'investissement.