Rapport de la Mission Botherel « Pour une politique publique de la Donnée » : extraits

RAPPORT FINAL DE LA MISSION BOTHOREL, publié le 20 décembre 2020
Accès au rapport complet

Lors de la dernière commission Données réunie le 4 décembre 2020, l’importance des préconisations de la mission Bothorel pour les choix stratégiques concernant le futur CNIG avait été soulignée.

Points de ce rapport intéressants directement l’information géographique
1) CATALOGAGE
2) QUALITÉ DE LA DONNÉE
3) INTEROPÉRABILITÉ
4) LE CNIG
5) LA GEOPLATEFORME
6) LA CONSULTATION : LES RESULTATS

1) CATALOGAGE
p8
L’offre d’open data doit aussi gagner en accessibilité et en visibilité. La donnée doit être exposée
au travers de catalogues visibles et fédérateurs pour être enfin identifiée au plus près de sa
production. Le service de data.gouv.fr doit être repensé, pour améliorer l’exploration de l’offre et
permettre une plus grande accessibilité des données.

p70
Le défaut d’accessibilité est le plus souvent lié à un défaut de qualité ou d’accompagnement de la
publication du côté du producteur. De ce point de vue, l’open data initié en 2016 a besoin d’un
nouvel élan, et d’une nouvelle maturité…
(…)
Le ministère de l’écologie fait également figure d’exception par la mise à disposition de nombreuses
données de ses services déconcentrés, en particulier des directions départementales des territoires
et de la mer (DDT-M). Pour ces données, il s’agit d’un moissonnage des catalogues Géo-IDE,
plateforme développée par le ministère de l’écologie et le ministère de l’agriculture, et qui permet
notamment le catalogage des données. Il s’agit principalement de données des plans locaux
d’urbanisme (PLU) ou de plans d’occupation des sols (POS). Cette ouverture est directement liée à
l’application de la directive européenne INSPIRE, qui s’applique notamment au droit des sols.
Cependant, la mise à jour de ces données des services déconcentrés est en net recul depuis 2018,
la part des jeux de données publiés sur data.gouv.fr ayant fortement reculé. Outre l’essoufflement
de la dynamique d’ouverture mentionné plus haut, deux facteurs techniques peuvent expliquer
cette évolution plus spécifique : l’arrêt de la maintenance du service geo.data.gouv.fr qui
moissonnait les infrastructures de données géographiques pour data.gouv.fr ; la montée en charge
du géoportail de l’urbanisme où sont désormais stockés la majorité des PLU et POS, permettant
aux DDT-M de ne plus stocker systématiquement ces données.

p108
Un catalogage des données à consolider
La mission fait le constat que le catalogage, au niveau agrégé, des données disponibles
en open data est particulièrement problématique. En effet, à chaque infrastructure appartient un
catalogue des données hébergées. Celui-ci est produit à partir des métadonnées accompagnant les
jeux de données. Or si l’on observe l’ensemble des infrastructures de données comme une
infrastructure nationale, il apparaît impossible de constituer un catalogue unique des données
publiques ouvertes ou non, notamment du fait de redondances des données dans différents
catalogues, d’obsolescence et de métadonnées déficientes.
(…)
Ainsi, la présence de données dans data.gouv.fr ne signifie pas qu’il s’agit de la base de données la
plus fraiche, la plus légitime. Par exemple, par le moissonnage des catalogues de données des DDT,
de nombreux documents d’urbanisme sont accessibles sur data.gouv.fr. Toutefois, il n’est pas
garanti qu’il s’agit des documents les plus récents qui font foi, ceux-ci étant disponibles en mairie.

p154
L’utilité du service public de la donnée de référence, qui impose à ces données des critères qualité
sur leur diffusion et de mise à jour, est unanimement reconnue par les acteurs de la donnée, qu’ils
soient publics ou privés. Toutefois seuls 9 jeux de données de référence y figurent : depuis sa
création, aucun autre jeu de donnée l’a rejoint.
De par sa conception, l’infrastructure data.gouv.fr a offert dès sa création des services pour
rassembler l’ensemble des acteurs afin de devenir ce point central de découverte des données
publiques. Pour les infrastructures existantes possédant leurs propres catalogues de données,
data.gouv.fr offre des services de moissonnage dans une vision fédératrice (74% des jeux de
données proviennent de moissonnage, 40% des collectivités possédant une infrastructure sont
régulièrement moissonnées). En parallèle il propose aux administrations et notamment aux
collectivités qui ne peuvent se permettre d’investir dans de la compétence et des technologies, des
services simples de dépôt de données, de documentation et de mise en relation avec les
réutilisateurs, dans une vision d’infrastructure communautaire.
Autour de cette vision, la DINUM a développé des services pour faciliter l’exposition et
l’appropriation des données. Geo-datagouv permet de moissonner les catalogues compatibles avec
les principes de la directive INSPIRE, essentiellement des infrastructures de données géographiques.
(…)
Toutefois l’offre de service de data.gouv.fr ne suffit pas aux besoins de découverte. Ce point unique
ne doit pas se contenter de ne cataloguer que les données ouvertes, mais il doit aussi rendre compte
des données partageables sous conditions (ce qui figurait dans le plan annoncé par l’Administrateur
général des données dans son rapport au Premier ministre), les données accessibles ou consultables
voire des données fermées des administrations si elles le souhaitent. Savoir qu’une donnée existe et
pour quelle raison elle n’est pas publiée fait gagner le temps d’une recherche vaine
(…)
Par ailleurs, si on prend l’exemple du service Geo.data.gouv.fr, celui-ci n’est plus maintenu et des
plateformes régionales d’informations géographiques compatibles avec les principes INSPIRE ne
sont actuellement plus moissonnées. Il conviendrait d’organiser la remontée des informations en
lien avec le ministère de la transition écologique en charge de la mise en œuvre de la directive
INSPIRE, et avec le bureau de recherches géologiques et minières (BRGM) qui entretient le
géocatalogue, point focal des données géographiques entrant dans le champ de la directive en
charge d’alimenter le rapportage européen annuel de la France.
(…)
Plusieurs plateformes existent dont la mission considère qu’elles méritent d’être promues en temps
qu’outils mutualisés facilitant le partage ou l’accès (cf. partie 3). Elles se distinguent par les exigences
en matière de sécurité d’accès à la donnée (données en partage ou en accès restreint) mais aussi
sur leur finalité : offrir un accès pérenne à un catalogue de données ou permettre un accès ponctuel
(le temps d’un projet de recherche par exemple) à un ou plusieurs jeux de données.
-Le Réseau Quetelet PROGEDO diffusion est le portail français d’accès aux données
dans le domaine de la recherche en sciences humaines et sociales
-Le Centre de Données et Services ESPRI, service transverse de la fédération des laboratoires Institut Pierre Simon Laplace (IPSL), un des 4 centres de données de l’infrastructure nationale de données et de services pour l’atmosphère,
-L’infrastructure de données géographiques Sextant développée par l’Ifremer

2) QUALITÉ DE LA DONNÉE
p 15
Recommandation n° 23 : Créer un label de service producteur de la donnée pour reconnaître les
efforts investis dans la donnée, par exemple dans le cadre du service public de la donnée
Recommandation n° 24 : Définir et mettre en œuvre une politique interministérielle
d’interopérabilité et de qualité de la donnée (démarches de standardisation, label FAIR, doctrine
sur les métadonnées, catalogage)
Recommandation n° 25 : Encourager les écosystèmes à définir des principes de gouvernance de la qualité, en désignant un référent qualité et en créant des communautés de réutilisation avec participation active des producteurs de la donnée

3) INTEROPÉRABILITÉ
p 107
« L’interopérabilité constitue une caractéristique essentielle pour une démarche de rapprochement,
d’appariement, d’enrichissement de données et donc pour alimenter l’IA. Elle recouvre la capacité
à agréger des données issues de sources différentes et nécessite que les données convergent sur
des structurations compatibles, en particulier à travers :
− une sémantique et une syntaxe partagée ;
− une structuration commune pour des données semblables ;
− des dictionnaires et registres pour remplir les champs des données et des métadonnées ;
− une même projection cartographique pour les données géographiques ;
− un même carroyage ou des carroyages compatibles pour des données agrégées ou résultantes
d’opérations statistiques.
Le processus de standardisation qui définit ces éléments est au cœur de l’écosystème des données
car il en conditionne le potentiel de valorisation. C’est un processus qui doit recueillir le consensus
pour qu’un standard soit adopté par l’ensemble des producteurs, a minima d’un même secteur, à
moins de leur être imposé par un texte règlementaire (c’est le cas du standard qui encadre les
données publiées par les collectivités sur le Géoportail de l’urbanisme) ou par l’usage lorsqu’une plateforme publique ou privée détient un monopole.
Le constat fait par la mission montre que les marges de progression sont importantes.
D’une part, la standardisation de la donnée n’est pas qu’une affaire d’experts, réservée aux
spécialistes de la donnée et aux métiers utilisateurs, mais appelle aussi une vision de la politique publique au service de laquelle la donnée est utilisée, pour sa partie sémantique. L’exemple de l’évaluation de l’artificialisation des sols le montre bien : cette évaluation a longtemps été freinée par l’absence d’une définition partagée entre tous les acteurs de ce qu’est une surface artificialisée.
L’observatoire de l’artificialisation est une action récente mise en œuvre par la DGALN avec le CEREMA, l’IGN et l’INRAE en 2019, prévue par le plan biodiversité, qui vise à documenter les
données utiles au suivi de l’artificialisation des sols et de la consommation d’espace ? »

4) LE CNIG
p 108
« Le référencement, la création et la validation de schéma de données est capital
Lorsque plusieurs producteurs de données produisent des jeux de données sur un même sujet, afin que ces jeux de données puissent être facilement croisés (par exemple des données de marchés publics, des lieux de stationnement ou encore des bases adresses locales).
Ces schémas visent à décrire de manière précise et univoque les différents champs qui composent un jeu de données et les valeurs possibles.(…)
Au sein du conseil national pour l’information géographique, la conception d’un standard fait l’objet d’un groupe de travail ouvert. Le résultat fait l’objet d’un appel à commentaires public, chaque commentaire est ensuite discuté et commenté. Le document final est validé en commission.
Le processus qui doit garantir le plus grand consensus se déroule sur plusieurs mois. « 

5) LA GEOPLATEFORME
p 153
Le projet de Géoplateforme de l’IGN est lauréat du fonds de transformation de l’action publique (FTAP) pour un montant de 3,6 M€, présenté par Valéria Faure-Muntian dans son rapport au Gouvernement sur les données géographiques souveraines, s’appuie sur une infrastructure fonctionnant selon le modèle d’une plateforme mutualisée (par opposition à une fédération de plateformes).
Elle offre la possibilité aux communautés de créer leur infrastructure propre au sein de la plateforme en autonomie d’administration, profitant de briques logiciels communes, de facilités d’interopérabilité et d’une garantie de service et de sécurité.
Recommandation : Orienter les investissements du plan de relance vers les infrastructures favorables à la circulation de la donnée.
(appels à projets de la DINUM et appels à projets sectoriels)

6) CONSULTATION : résultats du 8 octobre au 9 novembre 2020, sur www.mission-open-data.fr
p 205
La consultation publique a fait ressortir cinq préoccupations principales.
1) Forte mobilisation autour du logiciel libre :
• Priorité au logiciel libre et aux formats ouverts dans le secteur public, modifier l’article 16
de la loi république numérique (181 soutiens) ;
• L’État doit créer et maintenir une forge publique des logiciels libres (174 soutiens) ;
• Création d’une agence ou mission interministérielle pour accompagner à l’usage du logiciel
libre (156 soutiens).
2) Open data : la plupart des contributions concernent l’animation de la démarche et l’effectivité de la loi. Les contributions relèvent davantage de la mise en action
(comment rendre l’open data effectif ?) plutôt que de prises de position > doctrinales ?.
3) Données d’intérêt général : le plus marquant est la méfiance affichée par les contributeurs vis-à-vis de l’utilisation par la puissance publique des données du secteur privé.
Le risque de surveillance, l’attachement à la privacy reviennent souvent dans les commentaires sur les cas d’usage listés par la mission. Les 3 cas d’usage les plus commentés ont été :
• les données des opérateurs télécoms (21 commentaires) ;
• les données de prise de rendez-vous et de gestion des consultations de santé (13
commentaires) ;
• les données de consommation énergétique (compteus communicants Linkyu et Gazpar)
(10 commentaires).
4) Santé : domaine de l’action publique le plus souvent cité, loin devant les
autres missions de l’État. Le thème santé est évoqué sous plusieurs dimensions (Covid19 bien sûr,
mais aussi souveraineté, rôle des hubs, etc.). Ce n’est pas une surprise au regard du contexte
sanitaire, mais c’est un fait marquant.
5) La question du rôle des individus en tant que citoyens revient à plusieurs reprises dans les
contributions, les commentaires et les réactions aux constats. Il s’agit notamment de mieux les
intégrer dans la démarche d’ouverture des données, d’en faire des acteurs à part entière du partage des données (DIG), de les intégrer dans les démarches d’IA.

Accès à la page catégorisation des Données sur le site du CNIG




———————————————————————————————————————————————