Conseil en gestion de données et en Open Data

J’aide mes clients à exploiter pleinement les données dont ils disposent et, lorsque c’est pertinent, à les valoriser à travers une publication selon les principes de l’Open Data. Il peut s’agir de migrer les données vers des standards plus modernes ou de réorganiser le cycle de vie de la donnée, de sa production à sa consommation.

J’affectionne tout particulièrement les projets portés par des organisations publiques en raison de leurs bénéfices pour l’intérêt commun.

Une ressource stratégique

La mémoire d’une organisation repose en partie sur celle de ses collaborateurs et collaboratrices, mais elle repose surtout sur ses données : fichier du personnel, commandes passées, comptabilité, services proposés, etc. Les procédures dématérialisées remplacent les procédures papier, et si cette transition n’est pas de tout repos, elle permet à terme d’automatiser la gestion de certaines informations qui alimenteront les services de demain, que ce soit pour vos usagers ou votre fonctionnement interne.

Enfin, des données maîtrisées sont une étape nécessaire à la mise à en place d’outils de veille et d’aide à la décision, pour un pilotage de votre organisation en prise directe avec ses activités.

Les bienfaits de l’Open Data

La publication de données en Open Data (formats ouverts et licence libre) n’est pas une lubie ou une initiative démagogique : c’est un pas vers le grand public qui démontre une grande confiance dans les rouages de votre organisation. Ces données peuvent être la base d’un écosystème vivant qui gravite autour de vos activités, leur donnant plus d’impact et de visibilité.

Si vous êtes une administration publique, c’est non seulement une preuve de transparence vis à vis de vos administré·es, mais également un devoir depuis la promulgation de la loi République numérique : tout document ou code source de logiciel non protégé par le secret (défense, bancaire, etc.) ou contenant des données personnelles doit pouvoir être communiqué et rendu public sur simple demande.

La commande publique ouverte

Le hasard des rencontres m’a propulsé sur le sujet de la commande publique fin 2016. La mission Etalab avait besoin d’un spécialiste en modélisation de données pour assister la Direction des Affaires Juridiques du Ministère des Finances pour rédiger l’arrêté ministériel qui définissait la structure des données que devrait publier les acheteurs publics à partir du 1er octobre 2018. L’arrêté du 14 avril 2017 a été le premier jalon d’une activité qui occupe à présent le plus clair de mon temps : aider les acheteurs publics à rendre leurs données de marchés accessibles à la société civile et à les exploiter à des fins de pilotage.

À l’international, je collabore étroitement avec l’Open Contracting Partnership qui promeut la transparence des marchés publics, avec comme fer de lance un standard de données : l’Open Contracting Data Standard.

Données liées (Linked Data)

La démarche est peu connue, mais je pense que c’est l’avenir de la publication de données : identifier les objets décrits dans les données (marchés publics, entreprises, administrations publics, etc.) par des URL qui renvoie des données sur cet objet. Exemple, l’URI gérée par l’INSEE qui identifie la commune de Rennes : http://id.insee.fr/geo/commune/35238.

Cette approche a de nombreux avantages :

  • les objets ainsi identifiés ne sont plus ambigus : « 35238 » pourrait être un code postal, ou être lié à un autre pays, faute de contexte explicite. En revanche http://id.insee.fr/geo/commune/35238, grâce aux données renvoyées, est explicite.
  • les données renvoyées par ces URL contiennent d’autres URL (région, département, etc.) ce qui permet de parcourir les données.
  • grâce au nom de domaine (ici insee.fr), l’identité des responsables des données est explicite

Je propose mes services en publication de données liées aux organisations qui souhaitent publier des données très riches ou des données qui sont une référence dans un domaine (comme les données des communes pour l’INSEE).

Pour publier ces données, en interne ou publiquement, j’utilise exclusivement des technologies standards du Web :

  • HTTP pour le transport des données
  • des URI/URL pour leur identification
  • HTML et CSS pour exposer les données aux humains
  • des API JSON, XML et CSV pour exposer les données à des programmes
  • RDF pour la structure et la sémantisation des données
  • SPARQL pour le requêtage de ces données

L’ensemble de ces méthodes s’appelle le Linked Data, ou Web des données, ou données liées, par opposition aux données en silos. Liste de lecture : Si le sujet vous intéresse, voici une liste de lecture qui satisfera votre curiosité ( triée par ordre croissant de complexité et d’approfondissement) :