Innovation sur le web : le web des données

Dans les semaines à venir, ReadWriteWeb publiera une série de billets concernant ce que nous pensons être les 5 innovations les plus prometteuses du Web et qui verront le jour en 2009. Nous rédigerons un article par jour. Puis nous publierons une importante mise à jour de notre présentation annuelle sur les innovations technologiques à venir.

La première innovation majeure dont nous allons parler est l’émergence des données structurées. Lors de présentations précédentes, nous avions parfois entretenu la confusion avec le Web Sémantique. Toutefois après les nouveautés de 2009 en la matière, il est désormais clair que cette tendance est en réalité bien plus large que le Web Sémantique. Dans ce billet, nous analyserons l’évolution des Données Structurées cette année avec à l’appui 3 exemples concrets : OpenCalais, Google et Wolfram|Alpha.

Un Web de Données, et non de documents

Tim Berners a dit en Février que nous étions maintenant dans un Web de Données, par opposition au Web de Documents que nous avons connu jusqu’ici. La W3C, organisation présidée par Berners-Lee, a largement promu 2 initiatives importantes qui favorisent l’émergence de ce Web de Données : le Web Semantique et plus récemment les Données Liées.

Cependant au cours des dernières années, nous avons observé beaucoup d’autres manières de structurer des données qui donnent la possibilité à d’autres de les réutiliser pour réaliser de nouvelles applications. Le meilleur exemple actuel étant bien entendu Twitter, dont l’API a été responsable par le passé de près de 90% de l’activité de Twitter – via des applications développées par des tiers.

Le principe de base du Web de Données est toujours le même que que celui évoqué par Alex Iskold sur ReadWriteWeb en mars 2007 : « l’information non-structurée va donner lieu à à une information structurée – créant dés lors des applications plus intelligentes. « 

Exemple N°1 : OpenCalais

Notre premier exemple, OpenCalais, est probablement le meilleur exemple actuel de Données Liées (qui est un type de structuration de données soutenu par la W3C). Thomson Reuteurs, le géant international de l’information économique et financière, a lancé une API appelée OpenCalais en février 2008. En résumé, OpenCalais transforme du code HTML non-structuré en des données sémantiquement balisée. Il regroupe les données dans des catégories du type « personnes », « endroits », « entreprises » etc… De cette manière, des applications et des sites tierces peuvent créer de nouvelles utilisations à partir de ces données (l’un des concepts clés des Données Liées).

Pour une explication complète des Données Liées, je vous invite à lire l’introduction technique d’Alexander Korth « Un Web de Données: la Création de Contenu Compréhensible par un Ordinateur » (en anglais) publié en avril 2009. J’ai aussi expliqué aussi l’intérêt de recourir à des Données Liées dans un articles paru en mai 2009 intitulé « Les Données Liées : Pourquoi vous ne devriez pas les ignorer« .

Exemple n°2 : Google Rich Snippets

En Mai dernier, Google a introduit des données structurées dans son moteur de recherche sous la forme de « Descriptions Enrichies » (Rich Snippets). En clair, cette fonctionnalité extrait et montre des informations pertinentes à propose de pages internet grâce à des standards ouverts de données structurées tels que le microformat et le RDFa. Lors du lancement en mai, Google a invité les créateurs de contenus à baliser leur HTML. Bien que ça va prendre du temps avant que cette balise soit largement répandue, le fait que Google l’adopte montre l’importance croissante des Données Strcuturées sur le Web.

Exemple n°3 : Wolfram|Alpha

Depuis le lancement très médiatisé de Wolfram|Alpha, nous avons suivi ce moteur innovant de près. Il se décrit lui-même comme étant « un moteur de langage naturel » et bien qu’il n’est pas le Google Killer annoncé par certains, il a un potentiel très intéressant.

Wolfram|Alpha a une interface ressemblant à un moteur de recherche classique avec une boite de dialogue vous invitant à taper une requête en langage naturel. Mais la partie principale du produit est le traitement des données que vous pouvez en faire puisqu’il a la capacité d’extraire des données et de les recombiner. Si le Web 2.0 a favorisé la création de données (c’est-à-dire du contenu généré par les utilisateurs), alors la prochaine génération du Web aura la particularité de pouvoir rendre ces données utilisables d’une application à l’autre.

Conclusion

D’après les exemples précédents, nous voyons que les données structurées est en train de rapidement devenir une fonctionnalité du Web d’aujourd’hui. Des entreprises comme Thomson Reuteurs et Google donnent aujourd’hui la possibilité de structurer des données, et de nouveaux produits (comme Wolfram|Alpha) vont traiter ces données et donner lieu à des utilisations que nous ne soupçonnons probablement pas aujourd’hui.

A lire également :

  1. Qui contrôlera vos données dans le Web 3.0 ? ...
  2. Les média sociaux en Afrique — Deuxième partie : innovation et mobilité ...
  3. Navigation dans le web des données (partie 2) ...
  4. Navigation dans le web des données (partie 1) ...
  5. Le journalisme de données, les données ouvertes, et la dictature de la transparence ...
  6. Le Web des Identités : Permettre aux machines d’accéder à vos données ...
  7. Données et métadonnées : transfert de valeur au coeur de la stratégie des média ...

5 commentaires pour cet article

  1. Jibay

    J’ai du mal à voir ce que Wolfram|Alpha a avoir avec les don­nées struc­tu­rées, si vous pou­viez m’éclairer?
    Pour ma part je pense que la struc­tu­ra­tion des don­nées doit pas­ser par l’ensemble des uti­li­sa­teurs comme Freebase qui est à mon avis une brique majeur dans ce web de données.

  2. Nicolas Cynober

    Salut Jibay,

    Wolfram|Alpha fait parti de ces ser­vices qui exploitent les don­nées d’une nou­velle manière. Je pense que c’est la rai­son pour laquelle MacManus a décidé de l’intégrer dans cette liste. Ceci dit, tu as rai­son, Wolfram ne fait pas vrai­ment parti du web des don­nées puisqu’il récu­père des don­nées mais ensuite ne les par­tage pas. Freebase (ou encore mieux DBPedia) sont de bien meilleurs exemples.

    Ce que je vois d’important dans cet article ce sont les noms qui ont été choi­sis et ce qu’ils repré­sentent. Reuters: un géant de l’information 1.0 qui devient un lea­der du 3.0. Google: le plus gros moteur de recherche au monde. Wolfram: une jeune star­tup avec de nou­velles technologies. 

    Aujourd’hui plus aucun acteur n’ignore l’émergence du web des données.

  3. Toinan

    Wolfram Research a été fon­dée en 1986, soit plus de 10 ans avant Google. Je ne pense pas que ce soit “une jeune start up” à pro­pre­ment par­ler !
    Cela dit Wolfram Alpha est vrai­ment un OVNI du web, tant par le ser­vice qu’il pro­pose que par l’identité de ses géni­teurs (une société d’édition de logi­ciel de cal­cul formel)…

  4. Fabrice Epelboin

    Là tu confonds Mathematica, le pro­duit phare de Wolfram et Alpha, son moteur de recherche. La boite a 10 ans, certes, mais jusqu’ici, ce n’était pas un acteur du web ;-)

  5. Benjamin

    Les pre­miers ser­vices com­mencent à appa­raitre (Evri, Kosmix, Twine, Trueknowledge…) mais la quan­tité de don­nées est encore limi­tée. (spé­cia­le­ment pour les infor­ma­tions non-anglophones). 

    Raw data now!

8 Trackbacks For This Post

  1. Revue de presse blog : 14-09-2009 | Le Marketing sur le Web :

    […] ReadWriteWeb : Innovation sur le web : Le web des […]

  2. bookmark from diigo 09/15/2009 | Relation, transformation, partage :

    […] on September 16, 2009Filed Under liens | | Innovation sur le web : le web des don­nées | ReadWriteWeb Francetags: don­nées struc­tu­rées, web of data­Ma­na­ge­ment : Comment manier l’Art de la Persuasion […]

  3. Tendances du web en 2009 : le temps réel | ReadWriteWeb France :

    […] pre­mier article concer­nait les Données Liées. Dans cet article, nous nous concen­trons sur le phé­no­mène pro­ba­ble­ment le plus ten­dance de […]

  4. Tendances du web en 2009 : la personnalisation | ReadWriteWeb France :

    […] les plus pro­met­teuses du Web en 2009. Nos deux pre­miers articles de ce volet concer­naient le Web de Données et le Web en Temps Réel. Cet article traite de la Personnalisation du […]

  5. Nosdeputes.fr : la fin d’une époque et le début d’une ère | ReadWriteWeb France :

    […] plus révé­la­teur que la tra­di­tio­nelle oppo­si­tion et majo­rité, et avec l’arrivée mas­sive des don­nées liées, les pos­si­bi­li­tés d’interconnexion avec d’autres infor­ma­tions donnent le […]

  6. Tendances du web en 2009 : Internet mobile et Réalité Augmentée | ReadWriteWeb France :

    […] du web qui ont véri­ta­ble­ment émergé en 2009. Jusqu’à pré­sent, nous avons exploré le Web de Données , le Web en Temps Réel et la Personnalisation . Aujourd’hui, nous nous attaquons à […]

  7. Top 5 des innovations du Web en 2009 : l’Internet des objets | ReadWriteWeb France :

    […] 5 prin­ci­pales inno­va­tions du web en 2009. Jusqu’à pré­sent, nous avons exploré ces ten­dances : le Web de Données, le Web en Temps Réel, la Personnalisation et l’Internet Mobile/Réalité Augmentée. La […]

  8. L’internet portable va balayer l’internet mobile | ReadWriteWeb France :

    […] comme le fait de visi­ter un site et de cher­cher une infor­ma­tion. Dans 10 ans, nous espé­rons que le Web de Données aura fait du che­min et qu’on pourra, par exemple, consul­ter les infor­ma­tions sur un pro­duit en […]

Réagissez !

Ils nous soutiennent

feedback2.0

hébergement infogérance BearstechLa Cantine

 

  • A propos
  • Best of
  • Buzzing
  • Tags

ReadWriteWeb est un blog dédié aux technologies internet qui en couvre l’actualité et se distingue par ses notes d’analyse et de prospective ainsi que par l’accent mis sur les usages et leur impact sur les média, la société et la communication.

ReadWriteWeb est classé parmi les blogs les plus influents de la planète par Technorati et Wikio.

ReadWriteWeb est publié en anglais, en français, en coréen, en portugais et en chinois. Ses articles sont publiés dans la rubrique technologie du New York Times.


eBooks

Lawrence Lessig
Culture Libre



Pierre Bellanger
La Radio IP



Nous y serons