Rapport de la Mission Botherel "Pour une politique publique de la Donnée" : extraits

à la une|Actualités

Les commentaires sont fermés.


RAPPORT FINAL DE LA MISSION BOTHOREL, publié le 20 décembre 2020

Lors de la dernière commission Données réunie le 4 décembre 2020, l’importance des préconisations de la mission Bothorel pour les choix stratégiques concernant le futur CNIG avait été soulignée.

Points de ce rapport intéressants directement l’information géographique

  1. Catalogage
  2. Qualité de la donnée
  3. Interopérabilité
  4. Le CNIG
  5. La Géoplateforme
  6. La consultation : les résultats


1. Catalogage

p8

L’offre d’open data doit aussi gagner en accessibilité et en visibilité. La donnée doit être exposée au travers de catalogues visibles et fédérateurs pour être enfin identifiée au plus près de sa production. Le service de data.gouv.fr doit être repensé, pour améliorer l’exploration de l’offre et permettre une plus grande accessibilité des données.


p70

Le défaut d’accessibilité est le plus souvent lié à un défaut de qualité ou d’accompagnement de la publication du côté du producteur. De ce point de vue, l’open data initié en 2016 a besoin d’un nouvel élan, et d’une nouvelle maturité… (…)
Le ministère de l’écologie fait également figure d’exception par la mise à disposition de nombreuses données de ses services déconcentrés, en particulier des directions départementales des territoires et de la mer (DDT-M). Pour ces données, il s’agit d’un moissonnage des catalogues Géo-IDE, plateforme développée par le ministère de l’écologie et le ministère de l’agriculture, et qui permet notamment le catalogage des données. Il s’agit principalement de données des plans locaux d’urbanisme (PLU) ou de plans d’occupation des sols (POS). Cette ouverture est directement liée à l’application de la directive européenne INSPIRE, qui s’applique notamment au droit des sols. Cependant, la mise à jour de ces données des services déconcentrés est en net recul depuis 2018, la part des jeux de données publiés sur data.gouv.fr ayant fortement reculé. Outre l’essoufflement de la dynamique d’ouverture mentionné plus haut, deux facteurs techniques peuvent expliquer cette évolution plus spécifique : l’arrêt de la maintenance du service geo.data.gouv.fr qui moissonnait les infrastructures de données géographiques pour data.gouv.fr ; la montée en charge du géoportail de l’urbanisme où sont désormais stockés la majorité des PLU et POS, permettant aux DDT-M de ne plus stocker systématiquement ces données.


p108

Un catalogage des données à consolider
La mission fait le constat que le catalogage, au niveau agrégé, des données disponibles en open data est particulièrement problématique. En effet, à chaque infrastructure appartient un catalogue des données hébergées. Celui-ci est produit à partir des métadonnées accompagnant les jeux de données. Or si l’on observe l’ensemble des infrastructures de données comme une infrastructure nationale, il apparaît impossible de constituer un catalogue unique des données publiques ouvertes ou non, notamment du fait de redondances des données dans différents
catalogues, d’obsolescence et de métadonnées déficientes. (…)
Ainsi, la présence de données dans data.gouv.fr ne signifie pas qu’il s’agit de la base de données la plus fraiche, la plus légitime. Par exemple, par le moissonnage des catalogues de données des DDT, de nombreux documents d’urbanisme sont accessibles sur data.gouv.fr. Toutefois, il n’est pas garanti qu’il s’agit des documents les plus récents qui font foi, ceux-ci étant disponibles en mairie.


p154

L’utilité du service public de la donnée de référence, qui impose à ces données des critères qualité sur leur diffusion et de mise à jour, est unanimement reconnue par les acteurs de la donnée, qu’ils soient publics ou privés. Toutefois seuls 9 jeux de données de référence y figurent : depuis sa création, aucun autre jeu de donnée l’a rejoint. De par sa conception, l’infrastructure data.gouv.fr a offert dès sa création des services pour rassembler l’ensemble des acteurs afin de devenir ce point central de découverte des données publiques. Pour les infrastructures existantes possédant leurs propres catalogues de données, data.gouv.fr offre des services de moissonnage dans une vision fédératrice (74% des jeux de données proviennent de moissonnage, 40% des collectivités possédant une infrastructure sont régulièrement moissonnées). En parallèle il propose aux administrations et notamment aux collectivités qui ne peuvent se permettre d’investir dans de la compétence et des technologies, des services simples de dépôt de données, de documentation et de mise en relation avec les réutilisateurs, dans une vision d’infrastructure communautaire. Autour de cette vision, la DINUM a développé des services pour faciliter l’exposition et l’appropriation des données. Geo-datagouv permet de moissonner les catalogues compatibles avec les principes de la directive INSPIRE, essentiellement des infrastructures de données géographiques. (…)
Toutefois l’offre de service de data.gouv.fr ne suffit pas aux besoins de découverte. Ce point unique ne doit pas se contenter de ne cataloguer que les données ouvertes, mais il doit aussi rendre compte des données partageables sous conditions (ce qui figurait dans le plan annoncé par l’Administrateur général des données dans son rapport au Premier ministre), les données accessibles ou consultables voire des données fermées des administrations si elles le souhaitent. Savoir qu’une donnée existe et pour quelle raison elle n’est pas publiée fait gagner le temps d’une recherche vaine (…)
Par ailleurs, si on prend l’exemple du service Geo.data.gouv.fr, celui-ci n’est plus maintenu et des plateformes régionales d’informations géographiques compatibles avec les principes INSPIRE ne sont actuellement plus moissonnées. Il conviendrait d’organiser la remontée des informations en lien avec le ministère de la transition écologique en charge de la mise en œuvre de la directive INSPIRE, et avec le bureau de recherches géologiques et minières (BRGM) qui entretient le géocatalogue, point focal des données géographiques entrant dans le champ de la directive en charge d’alimenter le rapportage européen annuel de la France. (…)
Plusieurs plateformes existent dont la mission considère qu’elles méritent d’être promues en temps qu’outils mutualisés facilitant le partage ou l’accès (cf. partie 3). Elles se distinguent par les exigences en matière de sécurité d’accès à la donnée (données en partage ou en accès restreint) mais aussi sur leur finalité : offrir un accès pérenne à un catalogue de données ou permettre un accès ponctuel (le temps d’un projet de recherche par exemple) à un ou plusieurs jeux de données.

  • Le Réseau Quetelet PROGEDO diffusion est le portail français d’accès aux données dans le domaine de la recherche en sciences humaines et sociales
  • Le Centre de Données et Services ESPRI, service transverse de la fédération des laboratoires Institut Pierre Simon Laplace (IPSL), un des 4 centres de données de l’infrastructure nationale de données et de services pour l’atmosphère,
  • L’infrastructure de données géographiques Sextant développée par l’Ifremer


2. Qualité de la donnée

p 15

Recommandation n° 23

Créer un label de service producteur de la donnée pour reconnaître les efforts investis dans la donnée, par exemple dans le cadre du service public de la donnée

Recommandation n° 24

Définir et mettre en œuvre une politique interministérielle d’interopérabilité et de qualité de la donnée (démarches de standardisation, label FAIR, doctrine sur les métadonnées, catalogage)

Recommandation n° 25

Encourager les écosystèmes à définir des principes de gouvernance de la qualité, en désignant un référent qualité et en créant des communautés de réutilisation avec participation active des producteurs de la donnée



3. Interopérabilité

p 107

« L’interopérabilité constitue une caractéristique essentielle pour une démarche de rapprochement, d’appariement, d’enrichissement de données et donc pour alimenter l’IA. Elle recouvre la capacité à agréger des données issues de sources différentes et nécessite que les données convergent sur des structurations compatibles, en particulier à travers :

  • une sémantique et une syntaxe partagée ;
  • une structuration commune pour des données semblables ;
  • des dictionnaires et registres pour remplir les champs des données et des métadonnées ;
  • une même projection cartographique pour les données géographiques ;
  • un même carroyage ou des carroyages compatibles pour des données agrégées ou résultantes d’opérations statistiques.
    Le processus de standardisation qui définit ces éléments est au cœur de l’écosystème des données car il en conditionne le potentiel de valorisation. C’est un processus qui doit recueillir le consensus pour qu’un standard soit adopté par l’ensemble des producteurs, a minima d’un même secteur, à moins de leur être imposé par un texte règlementaire (c’est le cas du standard qui encadre les données publiées par les collectivités sur le Géoportail de l’urbanisme) ou par l’usage lorsqu’une plateforme publique ou privée détient un monopole.
    Le constat fait par la mission montre que les marges de progression sont importantes. D’une part, la standardisation de la donnée n’est pas qu’une affaire d’experts, réservée aux spécialistes de la donnée et aux métiers utilisateurs, mais appelle aussi une vision de la politique publique au service de laquelle la donnée est utilisée, pour sa partie sémantique. L’exemple de l’évaluation de l’artificialisation des sols le montre bien : cette évaluation a longtemps été freinée par l’absence d’une définition partagée entre tous les acteurs de ce qu’est une surface artificialisée.
    L’observatoire de l’artificialisation est une action récente mise en œuvre par la DGALN avec le CEREMA, l’IGN et l’INRAE en 2019, prévue par le plan biodiversité, qui vise à documenter les données utiles au suivi de l’artificialisation des sols et de la consommation d’espace ? »


4. Le CNIG

p 108

« Le référencement, la création et la validation de schéma de données est capital
Lorsque plusieurs producteurs de données produisent des jeux de données sur un même sujet, afin que ces jeux de données puissent être facilement croisés (par exemple des données de marchés publics, des lieux de stationnement ou encore des bases adresses locales). Ces schémas visent à décrire de manière précise et univoque les différents champs qui composent un jeu de données et les valeurs possibles.(…)
Au sein du conseil national pour l’information géographique, la conception d’un standard fait l’objet d’un groupe de travail ouvert. Le résultat fait l’objet d’un appel à commentaires public, chaque commentaire est ensuite discuté et commenté. Le document final est validé en commission. Le processus qui doit garantir le plus grand consensus se déroule sur plusieurs mois.



5. La Géoplateforme

p 153

Le projet de Géoplateforme de l’IGN est lauréat du fonds de transformation de l’action publique (FTAP) pour un montant de 3,6 M€, présenté par Valéria Faure-Muntian dans son rapport au Gouvernement sur les données géographiques souveraines, s’appuie sur une infrastructure fonctionnant selon le modèle d’une plateforme mutualisée (par opposition à une fédération de plateformes). Elle offre la possibilité aux communautés de créer leur infrastructure propre au sein de la plateforme en autonomie d’administration, profitant de briques logiciels communes, de facilités d’interopérabilité et d’une garantie de service et de sécurité.

Recommandation

Orienter les investissements du plan de relance vers les infrastructures favorables à la circulation de la donnée.

(appels à projets de la DINUM et appels à projets sectoriels)



6. Consultation

Résultats du 8 octobre au 9 novembre 2020, sur www.mission-open-data.fr

p 205

La consultation publique a fait ressortir cinq préoccupations principales.

  1. Forte mobilisation autour du logiciel libre :
    1. Priorité au logiciel libre et aux formats ouverts dans le secteur public, modifier l’article 16
      de la loi république numérique (181 soutiens) ;
    2. L’État doit créer et maintenir une forge publique des logiciels libres (174 soutiens) ;
    3. Création d’une agence ou mission interministérielle pour accompagner à l’usage du logiciel
      libre (156 soutiens).
  2. Open data : la plupart des contributions concernent l’animation de la démarche et l’effectivité de la loi. Les contributions relèvent davantage de la mise en action
    (comment rendre l’open data effectif ?) plutôt que de prises de position > doctrinales ?.
  3. Données d’intérêt général : le plus marquant est la méfiance affichée par les contributeurs vis-à-vis de l’utilisation par la puissance publique des données du secteur privé. Le risque de surveillance, l’attachement à la privacy reviennent souvent dans les commentaires sur les cas d’usage listés par la mission. Les 3 cas d’usage les plus commentés ont été :
    1. les données des opérateurs télécoms (21 commentaires) ;
    2. les données de prise de rendez-vous et de gestion des consultations de santé (13
      commentaires) ;
    3. les données de consommation énergétique (compteus communicants Linkyu et Gazpar)
      (10 commentaires).
  4. Santé : domaine de l’action publique le plus souvent cité, loin devant les
    autres missions de l’État. Le thème santé est évoqué sous plusieurs dimensions (Covid19 bien sûr,
    mais aussi souveraineté, rôle des hubs, etc.). Ce n’est pas une surprise au regard du contexte
    sanitaire, mais c’est un fait marquant.
  5. La question du rôle des individus en tant que citoyens revient à plusieurs reprises dans les
    contributions, les commentaires et les réactions aux constats. Il s’agit notamment de mieux les
    intégrer dans la démarche d’ouverture des données, d’en faire des acteurs à part entière du partage des données (DIG), de les intégrer dans les démarches d’IA.

Partager la page