Par standard je n’entends pas forcement un document du W3C mais plutôt une norme ou une « bonne pratique » que j’aimerai voir plus souvent sur le web.
1 – L’accès à d’autres modes de visualisation pour un même contenu
Je ne vais pas revenir sur les concepts derrière dataviewer. Mais c’est décidément une problématique que l’on rencontre et que l’on rencontrera de plus en plus. Multiplication des terminaux dans un web de donnée, bla, bla, bla, vous pouvez toujours relire l’article 😉
Donc, ce que j’aimerai petit papa noël, c’est que des initiatives tel que oEmbed se généralisent. oEmbed c’est quoi ? C’est une petite API à qui tu donnes une URL et qui te retourne le code d’embed correspondant, c’est à dire l’élément principal de la page. Et oui un peu comme dataviewer, tu donnes une URL et on te retourne une visualisation différente pour cette donnée.
2 – La généralisation du rel= »canonical »
C’est quoi ça ? C’est un petit standard Google, utilisé en SEO, qui permet de spécifier l’URL originale d’une page web (parfois connu sous le nom de permalink). Car là est le drame, derrière chaque page web il existe en réalité des centaines d’URLs différentes… En effet quand vous atterrissez sur une page web en provenance d’un flux RSS, votre URL va contenir des informations sur votre provenance et donc devenir différente. Après une recherche, elle peut aussi contenir vos derniers mots clés, ou bien encore des informations techniques (ID de session). Bref, mon ami Dédé et moi on pense que c’est le bordel.
Alors pour un web plus propre et pour augmenter votre SEO (voir même pour arrêter le réchauffement climatique), si vous avez un site web, affichez la source d’une de vos pages et vérifiez la présence de la mention rel= »canonical ».
La diffusion et l’accès aux données brutes. Voila deux problématiques majeures pour le web des données que le projet Data Publica souhaite résoudre. Très différent du projet DataLift, qui améliore le potentiel de données existantes, et aussi très différent du projet de l’APIE, qui aide l’administration à mettre en ligne ses données, le projet Data Publica se positionne comme l’annuaire de toutes les données françaises. François Bancilhon nous parle de ce projet ambitieux:
NC:Salut François, est-ce que tu peux nous présenter Data Publica en quelques mots ainsi que ton rôle dans le projet ?
FB: Data Publica est un projet conduit en collaboration par 3 start ups : Araok, Nexedi et Talend. Il est partiellement financé dans le cadre de l’appel à projet « Web 2 Innovant » lancé par le Secrétariat d’Etat à l’Economie Numérique en 2009. Le projet se déroule sur 12 mois (janvier à décembre 2010) et doit déboucher sur une « place de marché » où se rencontrent ceux qui publient des données (organismes publics et privés) et ceux qui les utilisent (développeurs d’application).
Nous avons un comité de pilotage avec un représentant de Talend (Cedric Carbone, CTO), un représentant de Nexedi (Jean-Paul Smets, CEO), un représentant d’Araok (François Ziserman, CEO), un avocat spécialiste du domaine (Alan Walter) et moi qui tiens le rôle de chef de projet. Des équipes de développement venant des trois partenaires développent la plateforme et nous avons récemment recruté quelqu’un en charge de la collection de données.
NC: Comment l’idée vous est venu et quel est le rôle respectif des 3 sociétés fondatrices ?
FB: Deux sources pour l’idée originelle:
L’intérêt général pour tout ce qui est « ouverture de données » (je ne suis pas très fana du latino-anglicisme « open data »).
Le travail conduit avec l’INRIA sur un consortium, l’Initiative Services Mobiles, pour dynamiser l’écosystème du développement des applications pour smartphones. A la question « que faire pour aider les développeurs ? » une des réponses évidentes est « leur donner des données », d’où l’idée du projet.
Après ça, on a mis en place le consortium pour couvrir les différents aspects à traiter : Araok assure la conduite de projet et le conseil en ergonomie d’interface, Nexedi travaille sur la mise en place de l’annuaire des données publiques, Talend sur les outils pour données structurées.
Nous sommes en outre en discussion avec des équipes de l’INRIA qui voudraient rejoindre le projet et contribuer techniquement à certains des aspects (indexation, moteurs de recherche, etc.).
NC:Quels sont les grandes étapes à venir pour Data Publica, une vocation internationale ?
FB: Nous avons aujourd’hui une première version du système, suffisante pour y collecter des données et nous menons en parallèle le développement de la plateforme et son alimentation en données. En septembre, nous mettrons en ligne une version alpha de la plateforme. Cette version devrait contenir déjà un bon corpus de données. En décembre, nous ferons le lancement officiel de la beta.
Sur le sujet de l’internationalisation, nous commençons par la France, et restons très focalisés. La techno est bien sûr indépendante du corpus de données, mais la recherche des données ne l’est pas.
NC:A ton avis, quel sera votre ratio entre données publiques et données privées ?
FB: Trop tôt pour dire. Nous sommes focalisés aujourd’hui sur le public, donc initialement nous aurons plus de données publiques. Cela devrait évoluer par la suite.
NC: Que dirais-tu aux administrations publiques ou aux entreprises pour les inciter à mettre leurs données en ligne ?
FB: Nous allons leur montrer qu’en publiant ses données on a des retombées positives en terme d’image et d’écosystème, si on est proactif et qu’on met en place les mécanismes pour en bénéficier. Nous voulons aussi créer une certaine émulation entre les différentes organisations. Nous leur montrerons enfin que si elles ne publient pas d’elles mêmes, leurs données se retrouvent quand même utilisées sans qu’elles en profitent.
NC:Comment attirer des dévelopeurs de mashup ? A quelles incitations avez-vous pensé ?
FB: Nous comptons d’abord sur la complétude de notre jeu de données, ensuite sur les outils que nous pourrons fournir.
NC:Comment est-ce que le projet se positionne par rapport aux solutions existantes comme Infochimps ?
FB: La différenciation est sur la technologie (qualité des outils comme les moteurs de recherche) et sur le domaine couvert (nous sommes focalisés sur les données du marché français).
NC:Merci François, bonne continuation, on attend septembre pour le lancement !
J’ai donc revu le pearltree ci-dessus pour différencier les « data publishers » (ceux qui publient) et des « data directories » (ceux qui référencent). Autre pearltree que vous pouvez aussi (re)récouvrir: « cities », avec une très bonne présentation de la ville de Rennes sur l’ouverture des données.
Malgré mon optimisme naturel, la polémique monte sur la capacité de l’APIE à développer l’accès aux données gouvernementales en tant que service public. Robin Berjon a récemment mis en garde contre un modèle cherchant à en monétiser l’accès. Cela rajouterait en effet une barrière considérable à l’innovation nécessaire dans l’exploitation de ces données. Dans ce contexte, il est intéressant de noter le développement de projets parallèles sur le territoire français. Je pense au déjà connu Regards Citoyens, à Data Publica, dont je parlerais bientôt plus en détail, et également au tout jeune projet DataLift, dont François Scharffe a accepté de nous parler:
NC:Salut François, est-ce que tu peux nous présenter DataLift en quelques mots ainsi que ton rôle dans le projet ?
FS: Datalift est un projet visant à créer une plateforme permettant à des éditeurs de données de publier leurs données sur le web de données. Le projet est découpé en tâches correspondant à des problèmes à résoudre le long de la chaîne de publication. Il faut tout d’abord sélectionner les ontologies qui permettront de décrire les données brutes. Ensuite il faut convertir les données dans le format du web sémantique, RDF. Puis il faut publier ces données selon les principes du web de données, ce qui suppose en parallèle d’interconnecter ces données avec d’autres jeux de données existant.
La plateforme d’outils qui sera construite au sein du projet a un caractère expérimental. C’est-à-dire que d’une part il y a dans Datalift une composante de recherche: nous allons développer de nouvelles techniques permettant d’automatiser le processus de publication. D’autre part nous allons expérimenter ces techniques pour effectivement publier des jeux de données. Le projet vient d’être retenu par l’ANR au sein de l’appel CONTINT et commencera en octobre. Je suis le coordinateur scientifique du projet.
NC:Que signifie « interconnecter les données », à quoi cela sert-il ?
FS: Lorsque l’on publie un jeu de données, un principe du web de données est qu’il faut interconnecter ce jeu de données à d’autres jeux existant. Cela revient à identifier les ressources déjà publiées sur le web de données qui correspondent à des ressources dans le jeu de données à publier. Par exemple si l’IGN publie un jeu de données sur les localités en France, il sera utile d’indiquer les équivalences entre ces localités et les ressources leur correspondant dans DBPedia. Interconnecter les jeux de données est une étape cruciale. C’est une tâche ardue, mais sans laquelle il n’y aurait pas de web de données. Ce serait un peu comme avoir le web sans liens entre les pages.
NC:Peux tu nous parler un peu plus de vos fournisseurs de données, qu’attends tu de l’APIE ?
FS: Nous commençons le projet avec deux importants partenaires fournisseurs de données: l’IGN et l’INSEE. Ce seront donc les premiers à bénéficier des services de la plateforme. A coté de cela nous avons contacté un certain nombre d’institutions, associations et entreprises qui souhaitent rejoindre le projet et expérimenter la plateforme Datalift. Parmi eux je peux citer l’association Regards citoyens, le projet Data Publica, la DILA, la fédération des parcs régionaux de France. La plateforme est ouverte et j’invite les lecteurs à me contacter s’ils sont intéressés à nous rejoindre.
Nous sommes aussi en contact avec l’APIE qui souhaite développer un portail de données gouvernementales. L’APIE effectue un travail de sensibilisation auprès des ministères pour obtenir l’ouverture de leurs données. Les données que l’APIE pourra rassembler pourront être enrichies par la plateforme Datalift. La discussion reste aujourd’hui ouverte sur la manière dont l’APIE construira son portail.
NC: Comment va se passer l’interconnexion de données ayant des licences très hétérogènes ?
FS: C’est une très bonne question. Au sein de Datalift, l’équipe Edelweiss de l’INRIA va étendre les langages de représentation et les mécanismes d’interrogation des données afin de prendre en compte les licences et les informations de provenance attachées aux données. Des techniques vont donc être développées afin que rien n’empêche un fournisseur de données ayant un modèle de revenus basé sur une consultation payante de publier ses données, mais aussi d’attacher des information de qualité et de confiance aux données publiées afin que les consommateurs de données s’y retrouvent.
NC:DataLift est un projet de recherche, des points communs avec le projet du Tetherless World ?
FS: Oui plusieurs. Tout d’abord nous sommes issus de la même communauté de recherche autour du web sémantique et croisons régulièrement Jim Hendler lors de la conférence internationale ISWC. Cela dit, les américains ont la chance de pouvoir s’appuyer sur un catalogue de données gouvernementales déjà constitué. Nous devons directement contacter les institutions en attendant l’émergence d’un éventuel données.gouv.fr. Je pense que nous allons aussi plus loin en proposant une plateforme permettant à chaque fournisseur de données de publier ses données sur un serveur interne de façon décentralisée. Nous allons travailler afin que la plateforme devienne une référence mondiale en matière d’outils de publication de données.
NC:A ton avis, quand pourrons-nous voir les premiers mashup basés sur les données de DataLift ?
FS: Les premiers jeux de données publiés sont prévus à six mois et la première version de la plateforme est prévue à un an du début du projet. A coté du développement technique sur la plateforme, sous sommes content d’avoir à bord la FING avec laquelle nous allons constituer une communauté de développeurs autour des données de la plateforme. Plusieurs évènements sont prévus mais je préfère garder le suspense de ce coté-là. A coté de cela, la société Atos Origin va travailler à une interface de programmation web de données pour smartphones. Tout cela devrait permettre l’émergence d’applications innovantes autour de la plateforme. Nous encourageons les propositions de projets et communiquerons bientôt sur le sujet.
NC:Le projet a été financé pour 3 ans par l’Agence Nationale de la Recherche, peux-tu nous parler un peu de vos ressources et de ton équipe ?
FS: Le projet est actuellement constitué de sept partenaires: les équipes EXMO et Edelweiss de l’INRIA, Eurecom, la société Mondeca, Atos Origin Integration, l’IGN, L’INSEE, et la FING. Un huitième partenaire, l’équipe Tatoo du LIRMM va nous rejoindre sous peu. La plateforme est ouverte et nous accueillerons de nouveaux partenaires notamment fournisseurs de données. Le projet est assez gros pour un projet ANR et son budget total dépasse les trois millions d’Euros. C’est beaucoup d’argent et nous remercions l’ANR de nous faire confiance et de porter un projet sur ce thème. Nous devons maintenant montrer que cet argent sera utilisé à bon escient. Les subventions accordées vont notamment nous permettre de recruter des étudiants, chercheurs et ingénieurs. Avis aux amateurs, des positions sont ouvertes chez les divers partenaires.
L’équipe EXMO est située à l’INRIA Grenoble Rhône-Alpes, elle est dirigée par Jérôme Euzenat. Nous travaillons sur le web sémantique et en particulier sur l’alignement d’ontologies. Quand à moi je vais m’en aller vers Montpellier à partir de la rentrée comme maître de conférence au LIRMM. Je resterai tout de même rattaché à EXMO, on ne quitte pas une si bonne équipe comme ça !
NC:Merci François, bonne continuation à toi et ton équipe !
Et bien, la publication de données « made in france » commence à ressembler à quelque chose…