Open Government Initiative: phase 3 completed

juillet 6th, 2009 · 2 Comments ·

Open Government Initiative, rappel:

Après les phases de brainstorm et de discussion, la dernière phase de l’Open Government Initiative vient de se clôturer. Les propositions de ce groupe de discussion seront donc très prochainement sur les bureaux de la maison blanche. Après avoir jeté un oeil au contenu des ces recommandations, je vous propose un petit état des lieux.

Dans l’ensemble du groupe de travail l’on retrouve 316 contributeurs répartis sur 15 sujets principaux. L’ouverture des données gouvernementale est le coeur du topic nommé “Data Transparency via Data.gov: Putting More Data Online“, il contient 27 contributeurs qui ont voté 65 fois durant le processus de création de leur recommandation. Certes, ces 65 votes montrent une activité du groupe de discussion pour le sujet de l’ouverte des données, mais est-ce suffisant?

Le sujet de l’ouverture des données gouvernementales ne représente au final que 8% du groupe de travail et 4% de son activité.
Alors quel sera l’impact de sa recommandation sur le gouvernement? On peut aujourd’hui se le demander…

Dans l’état actuel, la recommandation est la suivante:

21st Century Right to Know Recommendations: Government-Wide Data Standards

Calls for “common data formats” are telling but often lack concrete implications. Specific requirements for both data and metadata formats are vital to achieving information that consumers or machines can link together.

The CTO should promote a common data & metadata format to be used across all public data production. The format should be part of the specifications of requirements to data-producing federal programs, so that data consumers can trust APIs and bulk files to be consistent over time and across agencies.

To make data integration easier, the schema must allow for defining machine readable metadata for the three major types of public data:

1) Public reference data should be declared in official namespaces with identifiers of common categories (like US States) and enumerating their members with their official identifiers (State codes), names, descriptions, hierarchical relations and other useful properties such as geo-coordinates. Common categories should be defined in a centralized federal namespace. Individual agencies should define their unique categories in the same format in their own namespaces.

2) Public records provide data for reoccurring observations with the same properties, such as cases, incidents or survey answers. Some examples are building permits, marriages, reported car accidents, economic transactions, and senate bills. The machine readable metadata should define what columns make up primary keys to identify individual rows. These specifications should make it easy for a data consumer to integrate public records with other data with the same official categories.

3) Public statistics are derived numeric measures such as counts, percentages, rates and indexes that are comparable across one or multiple and categories. Some examples are Consumer Price Index, number of deaths, and average income. The definition of numeric measures should be provided in official namespaces. The mathematical formulas used to derive numbers should be presented in a machine readable way as part of the metadata. Processes that include human estimation should be described in footnotes that are tied to the individual estimates.

Datasets should have identifiers and versions. The metadata about a dataset should provide a machine readable inventory of what categories and measures appear in what tables. There should be permalinks that always point at the latest release. Previous versions should be available in an archive.

Une recommandation que je trouve très (trop?) geek… Nous sommes ici au bord de la spécification technique, très proche de celle de Tim Berners Lee, publiée la semaine dernière.

Cela sera-t-il suffisant pour convaincre l’administration de lancer un plan général d’ouverture des données dans ses agences gouvernementales? Réponse très prochainement, je vous tiendrais au courant…

Pour aller plus loin, voir aussi ma bibliographie sur l’ouverture des données gouvernementales:

Government data

Tags: Uncategorized


2 responses so far ↓

  • Dalb // juil 6, 2009 at 8:14

    Merci beaucoup pour cette veille !

    Le vocabulaire utilisé traduit tel quel (mot à mot) pourrait vous sembler “geek”. Mais selon moi, ces préconisations visent en fait à clarifier et harmoniser la documentation des données déjà existantes !

    Le contexte est important. Le records management (initié aux USA au début des années 60) comme méthode de gestion de l’information de l’activité, et les statistiques comme méthode d’analyse, relèvent d’une pratique naturelle aux USA.
    Les préconisations faites aujourd’hui ne sont qu’une suite logique : harmoniser des pratiques existantes (pratiques de documentation).

    Pour Point 1/ l’espace de nom il s’agit de donner un identifiant pérenne style ISBN. Il y a 10 ans on aurait dit “une numérotation des rapports et dossiers d’affaires”. ;-) Il y a déjà énormément de bases publiques (dans les mairies) qui sont par exemple géolocalisées; entre elles ou localement elles ne sont pas toutes réexploitables puisque mal documentées.

    Pour Point 2/ il s’agit d’harmoniser les *méthodes* de production des données

    Pour le Point 3/, il s’agit là d’”ouvrir” (open) au sens de documenter les techniques statistiques utilisées pour qu’elles soient elles mêmes réexploitables.

    Ce n’est donc pas “geek”. Dès que l’on fait quelque chose, il y a de l’informatique certes, mais ici il s’agit de professionnalisme sur le plan de l’information administrative et/ou statistiques ;-)

    Les USA par contre ne sont pas très loin de cet idéal : ils ont déjà des pratiques fortes de documentation des données, ils sont assez friands des normes (qui en format électronique sont souvent gratuites), on leur demande simplement d’harmoniser ces pratiques.

    Un seul exemple - le site des élections/électeurs (http://www.census.gov/population/www/socdemo/voting.html). Ici (http://www.census.gov/population/www/cps/cpsdef.html), vous avez déjà la documentation des données sur la population. On leur demande simplement de formaliser et d’exposer sous un format normalisé ces données (sachant que par derrière, c’est déjà nécessairement encoder mais avec des pratiques plus traditionnelles).

    Par contre c’est clairement à très éloignées de certaines pratiques par chez nous ! Je dis bien certaines, car les pros des statistiques aimeraient bien que leurs données soient exposées plus clairement (voir le site de l’Insee et le travail d’ouverture sur les vocabulaires - ). Mais ici cela reste adapté à des professionnels (des statistiques) et pas au public (la société civile en fait).

    Un (contre-) exemple
    Rameau, le vocabulaire de la BNF est passé au format SKOS. Mais comme “ils” n’ont pas encore décidé du nom de l’espace de nom (!), il est donc pour le moment hébergé sur une machine d’une université …. néerlandaise. On ne peut donc pas s’en servir ;-)
    L’homologue américain, le langage LCSH, est paru avec l’espace de nom officiel, dénomination simplicime : http://id.loc.gov/ (identifiant de la Library Of Congres - la LOC) !

    Maintenant je vais aller regarder ce qu’à écrit notre Tim mondial, pour voir si c’est du documentaire ou du geek ;-)

  • Nicolas // juil 8, 2009 at 11:16

    Salut Dalb, merci pour ton commentaire qui redonne du contexte à mon article. Je suis à vrai dire peu surpris de l’avancée dans ce domaine de l’administration américaine par rapport à celle française ;) Ton commentaire sur le document de Tim “Putting Government Data online” est le bienvenue !

Leave a Comment