Une base de données pour le web des données ?

juin 4th, 2008 · 2 Comments ·

Donnéée, Dooonnéééé moi … *Pardon*
Je disais donc les données c’est bien, les données structurées c’est mieux. L’un des synonymes du « web sémantique » est le « web des données », un web composé d’objets, plutôt que de pages hypertext. La différence principale entre le web 1 & 2 et le web 3 qui se dessine tranquillement est justement la nature de ces données. Alors comment manipuler ces données structurées à grande échelle ? Quel impacte sur les technologies actuelles ? Pourquoi est-ce un changement en profondeur ? Un début de réponse…

Mais revenons au 2.0. Il est trivial de dire que les technologies permettant de produire les pages hypertext du web d’aujourd’hui sont majoritairement opensource. La combinaison la plus connue étant LAMP, j’en parlais déjà dans mon article hardware 2.0.

  • Linux: Le système d’exploitation du serveur
  • Apache: Le logiciel qui vous fournit vos pages webs
  • MySQL: La base de données relationnelle qui contient les informations du site
  • PHP: Le langage de programmation qui va générer ces pages hypertext

Si la troisième version du web est une révolution donnant plus d’importance aux données, c’est là que se trouvera le nerf de la guerre: dans la base de données. Le web sémantique utilise un format de fichier spécifique pour stocker ses données: le bien connu (ou pas) RDF et il faut dire que ces fichiers sont difficilement stockable/interrogeables dans une base de donnée traditionnelle comme MySQL. Le web sémantique a donc fait face à une nouvelle problématique (encore) qui est d’ordre purement technique: « Quelle base de données pour le web sémantique ? ». Et si le web sémantique a de l’avenir, la société qui mettra en place LA solution de base de données sémantique a un bel avenir devant elle. Jetez un oeil à Oracle, DB2 (IBM) ou le récent rachat de MySQL pour vous en convaincre.

Et justement, ces bases de données sémantiques, aussi appelée « triple-store« , commencent à émerger. A la différence de Twine et Freebase qui ont développé leurs propres triple-store, il y a de fortes chances qu’un produit Open Source communautaire sorte du lot. AllegroGraph vient de sortir sa version 3 et organise prochainement un séminaire pour montrer comment scaler leur technologie avec Amazon EC2 (une technologie d’avenir). AllegroGraph préparerait une levée de fond entre $5M et $10M. Ok c’est ridicule par rapport aux $42M de Freebase 😉
Sinon pour démarrer tranquillement avec PHP, il existe ARC qui passe en version 2.
Vous trouverez une liste plus complète des différentes solutions chez Gautier.
Mais pour moi le projet le plus intéressant est HRDF, qui a pour objectif de mettre en place un triple-store en se basant sur les technologies de Google. En tout cas sur Hadoop, son pendent OpenSource.

Alors, la fin des bases de données relationnelles ?

note: Pardon aux lecteurs non-geek. Je suis prêt à démystifier le billet dans les commentaires si besoin…

Tags: Amazon · Hardware · RDF · Twine · Web 2.0 · Web 3.0 · Web Sémantique


2 responses so far ↓