Dans les semaines à venir, ReadWriteWeb publiera une série de billets concernant ce que nous pensons être les 5 innovations les plus prometteuses du Web et qui verront le jour en 2009. Nous rédigerons un article par jour. Puis nous publierons une importante mise à jour de notre présentation annuelle sur les innovations technologiques à venir.
La première innovation majeure dont nous allons parler est l’émergence des données structurées. Lors de présentations précédentes, nous avions parfois entretenu la confusion avec le Web Sémantique. Toutefois après les nouveautés de 2009 en la matière, il est désormais clair que cette tendance est en réalité bien plus large que le Web Sémantique. Dans ce billet, nous analyserons l’évolution des Données Structurées cette année avec à l’appui 3 exemples concrets : OpenCalais, Google et Wolfram|Alpha.
Un Web de Données, et non de documents
Tim Berners a dit en Février que nous étions maintenant dans un Web de Données, par opposition au Web de Documents que nous avons connu jusqu’ici. La W3C, organisation présidée par Berners-Lee, a largement promu 2 initiatives importantes qui favorisent l’émergence de ce Web de Données : le Web Semantique et plus récemment les Données Liées.
Cependant au cours des dernières années, nous avons observé beaucoup d’autres manières de structurer des données qui donnent la possibilité à d’autres de les réutiliser pour réaliser de nouvelles applications. Le meilleur exemple actuel étant bien entendu Twitter, dont l’API a été responsable par le passé de près de 90% de l’activité de Twitter – via des applications développées par des tiers.
Le principe de base du Web de Données est toujours le même que que celui évoqué par Alex Iskold sur ReadWriteWeb en mars 2007 : « l’information non-structurée va donner lieu à à une information structurée – créant dés lors des applications plus intelligentes. «

Exemple N°1 : OpenCalais
Notre premier exemple, OpenCalais, est probablement le meilleur exemple actuel de Données Liées (qui est un type de structuration de données soutenu par la W3C). Thomson Reuteurs, le géant international de l’information économique et financière, a lancé une API appelée OpenCalais en février 2008. En résumé, OpenCalais transforme du code HTML non-structuré en des données sémantiquement balisée. Il regroupe les données dans des catégories du type « personnes », « endroits », « entreprises » etc… De cette manière, des applications et des sites tierces peuvent créer de nouvelles utilisations à partir de ces données (l’un des concepts clés des Données Liées).
Pour une explication complète des Données Liées, je vous invite à lire l’introduction technique d’Alexander Korth « Un Web de Données: la Création de Contenu Compréhensible par un Ordinateur » (en anglais) publié en avril 2009. J’ai aussi expliqué aussi l’intérêt de recourir à des Données Liées dans un articles paru en mai 2009 intitulé « Les Données Liées : Pourquoi vous ne devriez pas les ignorer« .

Exemple n°2 : Google Rich Snippets
En Mai dernier, Google a introduit des données structurées dans son moteur de recherche sous la forme de « Descriptions Enrichies » (Rich Snippets). En clair, cette fonctionnalité extrait et montre des informations pertinentes à propose de pages internet grâce à des standards ouverts de données structurées tels que le microformat et le RDFa. Lors du lancement en mai, Google a invité les créateurs de contenus à baliser leur HTML. Bien que ça va prendre du temps avant que cette balise soit largement répandue, le fait que Google l’adopte montre l’importance croissante des Données Strcuturées sur le Web.

Exemple n°3 : Wolfram|Alpha
Depuis le lancement très médiatisé de Wolfram|Alpha, nous avons suivi ce moteur innovant de près. Il se décrit lui-même comme étant « un moteur de langage naturel » et bien qu’il n’est pas le Google Killer annoncé par certains, il a un potentiel très intéressant.
Wolfram|Alpha a une interface ressemblant à un moteur de recherche classique avec une boite de dialogue vous invitant à taper une requête en langage naturel. Mais la partie principale du produit est le traitement des données que vous pouvez en faire puisqu’il a la capacité d’extraire des données et de les recombiner. Si le Web 2.0 a favorisé la création de données (c’est-à-dire du contenu généré par les utilisateurs), alors la prochaine génération du Web aura la particularité de pouvoir rendre ces données utilisables d’une application à l’autre.
Conclusion
D’après les exemples précédents, nous voyons que les données structurées est en train de rapidement devenir une fonctionnalité du Web d’aujourd’hui. Des entreprises comme Thomson Reuteurs et Google donnent aujourd’hui la possibilité de structurer des données, et de nouveaux produits (comme Wolfram|Alpha) vont traiter ces données et donner lieu à des utilisations que nous ne soupçonnons probablement pas aujourd’hui.
A lire également :
- Qui contrôlera vos données dans le Web 3.0 ? ...
- Les média sociaux en Afrique — Deuxième partie : innovation et mobilité ...
- Navigation dans le web des données (partie 2) ...
- Navigation dans le web des données (partie 1) ...
- Le journalisme de données, les données ouvertes, et la dictature de la transparence ...
- Le Web des Identités : Permettre aux machines d’accéder à vos données ...
- Données et métadonnées : transfert de valeur au coeur de la stratégie des média ...











11 septembre 2009 à 16:18
J’ai du mal à voir ce que Wolfram|Alpha a avoir avec les données structurées, si vous pouviez m’éclairer?
Pour ma part je pense que la structuration des données doit passer par l’ensemble des utilisateurs comme Freebase qui est à mon avis une brique majeur dans ce web de données.
11 septembre 2009 à 19:56
Salut Jibay,
Wolfram|Alpha fait parti de ces services qui exploitent les données d’une nouvelle manière. Je pense que c’est la raison pour laquelle MacManus a décidé de l’intégrer dans cette liste. Ceci dit, tu as raison, Wolfram ne fait pas vraiment parti du web des données puisqu’il récupère des données mais ensuite ne les partage pas. Freebase (ou encore mieux DBPedia) sont de bien meilleurs exemples.
Ce que je vois d’important dans cet article ce sont les noms qui ont été choisis et ce qu’ils représentent. Reuters: un géant de l’information 1.0 qui devient un leader du 3.0. Google: le plus gros moteur de recherche au monde. Wolfram: une jeune startup avec de nouvelles technologies.
Aujourd’hui plus aucun acteur n’ignore l’émergence du web des données.
12 septembre 2009 à 15:08
Wolfram Research a été fondée en 1986, soit plus de 10 ans avant Google. Je ne pense pas que ce soit “une jeune start up” à proprement parler !
Cela dit Wolfram Alpha est vraiment un OVNI du web, tant par le service qu’il propose que par l’identité de ses géniteurs (une société d’édition de logiciel de calcul formel)…
12 septembre 2009 à 15:11
Là tu confonds Mathematica, le produit phare de Wolfram et Alpha, son moteur de recherche. La boite a 10 ans, certes, mais jusqu’ici, ce n’était pas un acteur du web ;-)
13 septembre 2009 à 16:30
Les premiers services commencent à apparaitre (Evri, Kosmix, Twine, Trueknowledge…) mais la quantité de données est encore limitée. (spécialement pour les informations non-anglophones).
Raw data now!