Mes voeux pour 2011

posted on décembre 31st, 2010 ·

Je vous souhaite à tous une très bonne année pleine d’optimisme !

→ 3 CommentsCatégories: Uncategorized

Dataveyes : visualisations interactives de données

posted on décembre 29th, 2010 ·

Le web de données c’est peut être un super concept, mais dans la pratique ca ressemble à quoi ? Ca sert à quoi ? C’est fait pour qui ? Et bien c’est justement la visualisation de données qui permettra de répondre à ces questions. L’an dernier j’avais effectué un plongé dans ce monde passionnant en essayant de répondre à cette question simple: Comment naviguer dans un web de données? Ma conclusion était la suivante : « c’est la visualisation de données qui permettra petit à petit de profiter de toute la richesse que le web a à nous offrir ». C’est donc avec le plus grand intérêt que j’ai suivi le parcours du projet ActuVisu puis la naissance de la société Dataveyes, spécialisée dans la visualisation interactive de données.

Pour en savoir un peu plus j’ai posé quelques questions à deux cofondateurs du projet: Caroline Goulard et Benoit Vidal, qui nous éclaire sur leur métier, le présent et le futur de la visualisation de données:

NC : Est-ce que vous pouvez présenter dataveyes en quelques mots ? Equipe, métier, histoire..

CG : Dataveyes est une start-up de visualisations interactives de données. Notre coeur de métier est de raconter des histoires à partir des données en inventant de nouvelles grammaires visuelles et cinétiques. Nous concevons des interfaces graphiques qui permettent de comprendre et d’explorer le contenu de grosses bases de données de façon intuitive et interactive. Une deuxième partie de notre métier est de conseiller sur la valorisation éditoriale des données.

BV : A l’origine de la création de cette start-up, il y a la conviction que les données deviennent un enjeu de plus en plus stratégique dans le paysage de l’information, non seulement parce que la quantité de ces données disponibles augmentent rapidement, mais aussi parce que la valeur de ces données croit fortement. “The future belongs to the companies and people that turn data into products”, il s’agit du sous-titre d’un récent rapport du O’Reilly Radar. C’est dans cet esprit, nous aidons les entreprises du secteur de l’information à transformer leurs organisations, leurs méthodes et leur stratégie, pour être en mesure de faire jaillir de la valeur des données.

CG : Dataveyes est l’entreprise issue d’ActuVisu, mon projet de fin d’études au sein du MME de SciencesPo Rennes, grâce auquel j’ai rencontré Benoit. Il a réuni une équipe de 7 étudiants de l’HÉTIC et nous avons travaillé ensemble pendant un an sur un prototype de site de visualisation de l’information. Nous voulions démontrer les atouts du journalisme de données et avons donc également tenu un blog et réalisé une veille Twitter pour accompagner le projet.

Nous avons beaucoup lu, beaucoup appris, et surtout nous avons compris que le premier atout pour la visualisation de données réside dans la pluralité des compétences : développement, graphisme, architecture de l’information, statistique, marketing éditorial. Notre projet a été très bien accueilli dans la communauté web et média, nous avons été très encouragés… et finalement, nous avons voulu continuer à travailler dans ce domaine qui nous passionne, partager ce que nous avions appris, et donner une tournure professionnelle à cette belle expérience en créant une entreprise.

BV : Dataveyes a donc été fondé par quatre personnes, Caroline Goulard (stratégie média et storytelling), Léo Gourven (statistique et développement), François-Xavier Fringant (marketing et gestion) et Benoit Vidal (architecture de l’information et développement). Nous sommes entourés d’une équipe de graphistes et de développeurs que nous mobilisons selon les projets.

NC : La visualisation de données en tant que métier ? En France, on en est où ?

CG : Aux Etats-Unis la visualisation de données est une discipline universitaire à part entière. En France nous n’avons pas cette approche théorique de la discipline, mais ce n’est pas forcément une mauvaise chose. Même si certains pionniers ont imposé un corpus de référence (Tufte, Bertin), je pense que la visualisation de données reste encore très expérimentale : transformer des bases de données abstraites en une application qui véhicule du sens ou des histoires nécessite d’inventer de nouveaux codes graphiques et ergonomiques, mais aussi de nouveaux outils pour collecter, structurer, enrichir les données. Beaucoup de choses restent à découvrir.

Voilà pourquoi les acteurs traditionnels du rich media (web-agencies, designers, infographistes, agence de communication ou producteurs d’information) ne peuvent pas vraiment intégrer d’emblée la visualisation de données, et voilà pourquoi il y a en France très peu d’acteurs ayant réuni le bon mix de compétences. Très peu, mais quelques acteurs très intéressants malgré tout : MFG Labs concernant les Big Data (disclosure: Benoit travaille aussi au sein du MFG Labs), Linkfluence centré sur les réseaux sociaux, Pikko Software, dans l’univers du logiciels, ou encore le Médialab de SciencesPo Paris dans le champ universitaire. Tous ces acteurs sont d’ailleurs très liés à la Recherche, c’est une des caractéristiques très stimulantes de ce métier.

NC : Quels sont les différents acteurs de votre écosystème ?

CG : L’éco-système me semble en effet essentiel. A une extrémité de notre chaîne de valeur se trouvent bien sûr les producteurs de données, qu’il s’agisse de société spécialisées dans les données sportives, d’entreprises ouvrant des données internes via des API, d’acteurs de l’opendata, de  chercheurs en extraction de données, de producteurs de sondages et de statistiques, ou encore les différents réseaux sociaux qui génèrent chaque jour d’énormes quantités de données.

A l’autre bout de notre chaîne se trouvent les distributeurs de produits d’information : médias, agrégateurs, mais aussi opérateurs et spécialistes des nouveaux supports numériques (tablettes, bornes tactiles, télévision connectée, etc.).

Entre les deux se trouvent tous les acteurs qui contribuent à raffiner les données en information, qui ajoutent des couches de valeur successives au matériau brut des bases de données : des sociétés dédiée à l’analyse statistique ou algorithmique, des spécialistes du web sémantique, du textmining, du datamining, ou encore des acteurs de la business intelligence….et Dataveyes, dont la spécificité est d’apporter de la valeur ajoutée par l’éditorialisation des bases de données, en travaillant sur le storytelling des données.

NC : Aujourd’hui qui sont vos clients ? Je pense aux médias, mais où en sont les entreprises et les administrations ?

CG : Nos client sont aujourd’hui des médias, à qui nous proposons des produits d’information, et des agences de communication à qui nous proposons des produits de brand content. A travers les agences de communication nous pouvons accéder à de gros acteurs, publics ou privés, pour qui la visualisation de données permet de répondre à des problèmes de communicabilité d’information complexe, ou d’accompagner des stratégies de partage et de transparence de l’information.

J’ai été un peu surprise ces derniers mois de constater que l’intérêt des entreprises et institutions pour les données est réel, malgré tout le discours pessimiste autour des rigidités françaises face à l’opendata. Certes, les bonnes pratiques en terme d’ouverture des données ne sont pas encore là, mais les enjeux sont bien compris : les données vont devenir un atout stratégique, marketing, informationnel très important pour l’avenir, et nous avons senti chez nos interlocuteurs de vraies volontés de réfléchir là dessus : comment valoriser les données auprès d’un public, comment les rendre plus efficientes dans les process internes, comment en exploiter l’impact en terme d’image de marque, comment instaurer une mémoire des données sur le long terme, etc.

BV : Ces problématiques sont désormais intégrées par beaucoup d’acteurs. Il ne leur reste plus qu’à faire les premiers pas pour mettre en oeuvre des outils et des stratégies pertinentes. Il n’y a pas vraiment de first mover dans le domaine de la valorisation éditoriale des données en France. Je pense que ce sera un facteur déterminant pour le développement du marché de la visualisation de données : le premier acteur -média ou autre- qui revendiquera clairement une stratégie axée sur les données apportera de l’exemplarité et incitera beaucoup d’autres à se lancer.

NC : On a parlé dernièrement sur ce blog de Data Publica et DataLift, quels sont vos sources de données ?

BV : Nos sources de données sont potentiellement partout, un très grand nombre de réalités physiques ou numériques peuvent être appréhendées par les données. Nous avons trois principaux types de sources : les données appartenant à nos clients, celles provenant de plateformes dites ouvertes (données publiques ou mises à disposition des développeurs par des sociétés tierces), et celles que nous collectons nous-même en transformant en données des contenus qui n’en sont pas initialement (les archives d’un site d’information ou une banque d’images, sont, par exemple, des bases de données très riches pour nous). Nous n’avons pas encore acheté des données pour nos visualisations, mais c’est aussi une source envisageable.

CG : En réalité, et contrairement au discours que nous entendons assez souvent, ce n’est pas vraiment le manque de données qui pose problème, mais plutôt la « qualité » dans laquelle nous les prenons. Nous sommes bien plus confrontés à une surabondance de données qu’à une rareté des données. Notre premier souci n’est donc pas que les données n’existent pas, mais plutôt qu’elles ne sont pas facilement utilisables ou lisibles par les machines.

NC : Justement, quel impact a le format des données sur votre activité ? Quelques exemples ?

BV : L’impact du format des données est énorme. Posséder des données dans un PDF ou un fichier Excel, ou y accéder grâce à une API format xml ou json ou via un SPARQL endpoint, ce n’est pas la même chose. Réaliser une visualisation est un long processus de raffinage des données brutes à l’information : il sera plus ou moins pénible et long selon le format initial des données. C’est comme essayer de traverser la Manche avec des palmes, une barque, un train ou un avion : tout est possible, ce sera juste plus ou moins compliqué.

CG : Par exemple, lorsque nous travaillons sur le financement des partis politiques et qu’il nous faut récupérer les données en parsant des centaines de milliers de pages de PDF… c’est forcément plus compliqué que si on disposait d’une base de données dans un format lisible par les machines. Ou encore, lorsque nous devons travailler avec des grandes valeurs socio-économiques, nous nous tournons naturellement vers l’API de la Banque Mondiale, plutôt que l’INSEE où toutes les mises à jour devront être faites à la main.

BV : Au delà du format en lui même c’est aussi les mécanismes de mise à jour des données qui sont importants, c’est à dire la pérennité des données dans le temps. L’avantage d’une visualisation interactive de données, c’est que l’interface est branchée directement sur une base de données, c’est à dire que si la base évolue, la représentation graphique change. C’est très puissant car cela permet de réaliser des contenus qui se mettent à jour automatiquement, ou qui sont toujours d’actualité. Pour cela il faut que la base de données initiale soit maintenue, que les formats et les structures ne changent pas trop et que la base soient mise à jour régulièrement par les producteurs de données.

NC : Un peu de prospective: quel est le futur de votre profession naissante ?

BV : Il est clair que la dataviz n’en est qu’à ses débuts. Chaque jour, nous voyons des visualisations de plus en plus ambitieuses, et ce n’est pas prêt de s’arrêter. Je pense que la visualisation de données et les interfaces branchées sur des flux continus sont les futures portes d’entrée sur l’information en ligne. Pearltrees est un bel exemple avec son interface très visuelle de curatoring du Web.

Par ailleurs, nous croyons fortement au web de données, non pas parce que nous sommes des nerds esthètes, mais parce que c’est une étape obligatoire pour pouvoir canaliser et tirer profit de tout cet amas de signaux que nous émettons sans cesse. Que cela soit en naviguant sur le web, en mettant à jours nos statuts, en utilisant nos smartphones, en achetant en ligne, et de plus en plus dans notre vie quotidienne avec le développement des puces RFID et des capteurs. Le web de données peut offrir un formidable levier, un facilitateur et un amplificateur, à tous les échelons de la chaîne de valeur de la visualisation de données : à la fois pour la collecte des données, leur mise à jour, leur réutilisation, leur croisement, mais aussi pour gérer de plus en plus finement la complexité, travailler à des niveaux de granularité toujours plus pertinents.

C’est pourquoi le mouvement Linked Data est très enthousiasmant pour la valorisation éditoriale des données. Comptez sur nous pour en promouvoir la puissance. Plus les données seront nombreuses et inter-connectées, plus riches seront les visualisations que nous pourrons créer.

NC : Les projets de dataveyes pour 2011 ?

CG : Réaliser de belles visualisations, développer des outils de datajournalism, travailler sur des chantiers passionnants avec des sites d’information, continuer à apprendre et à découvrir de nouvelles techniques de dataviz, développer des partenariats avec les acteurs de notre éco-système…

BV : Rassasier notre curiosité ?

NC : Il ne me reste alors qu’à vous souhaiter une très bonne année 2011 et pleins de beaux projets qu’on ne manquera pas de suivre !

A voir également le pearltree « web de données » de Caroline et ce très bon article de synthèse sur le sujet:

→ 1 CommentCatégories: Uncategorized

La puissance latente des données

posted on octobre 25th, 2010 ·

Nigel Shadbolt, co-fondateur de l’association Web Science, a présenté durant la conférence Activate 2010 de cet été les avancées du projet data.gov.uk, les vidéos sont aujourd’hui en ligne ! Au dela du cas pratique des données publiques, cette vidéo présente avec justesse les bénéfices et problématiques de l’ouverture de ses données. Raw data now ! 😉

A noter que cette conférence a été organisé par The Guardian, journal qui s’illustre une fois de plus comme leader dans le domaine.

→ 2 CommentsCatégories: Uncategorized