Navigation dans le web des données (partie 1)

Que cela soit le web² de Tim O’Reilly ou le web sémantique de Tim Berners Lee, les spécialistes s'accordent aujourd'hui à dire que notre web de pages, se transforme petit à petit en web des données. Chaque personne, chaque objet, véhicule déjà dans son sillage des données, le web², tout comme le web sémantique, c'est la vision d'un web où, non pas les pages, mais directement les données sont connectées à l'échelle du web.

Même si nous avançons jour après jour vers ce fameux web des données, il existe encore de nombreuses zones d'ombres. Que cela soit la propriété privée, les droits d'auteurs, ou l'augmentation des débits sur les réseaux, de nombreuses questions se posent, ou devrais-je dire: « devront se poser un jour ». Car à l'heure actuelle le web² ou web des données est encore un doux rêve. Aujourd'hui je vous propose dans cet article de prospective de nous pencher sur une problématique bien plus pragmatique: comment naviguer dans un web de données?

Nous ne naviguons plus sur la même toile

Car il faut savoir d'où l'on vient pour comprendre ou l'on va: commençons par une petite rétrospective. Dans les premiers jours du web les pages et les données étaient plutôt copines puisqu’elles se confondaient. L’on développait directement des pages HTML, sans base de données. Très vite le divorce: les données sont enfermées dans des bases, et le rôle du HTML se retrouve limité à présenter ces données aux navigateurs webs. La valeur des sites web réside alors dans l’accumulation de données, soigneusement protégées et diffusées de manière très contrôlées, car bien souvent directement monétisées:

data1.0

Arrivée du web 2.0: 1er effet kisscool. Des millions, puis des centaines de millions, puis un milliard d’utilisateur produisent des données. Le marché est plutôt simple: les sites web permettent l’échange de données entre les internautes et en contrepartie les sites continuent de remplir leurs bases de données, augmentant ainsi leur valorisation. Finalement la relation entre données et pages webs reste quasiment inchangée : les utilisateurs créent des données pour un site, pour une base de données, et ces données sont ensuite affichées sur ce même site à travers ses pages webs. Tim O'Reilly déclara à l'époque: « les données sont l'Intel Inside du 2.0 » :

data2.0

Arrivée du web 3.0: 2ème effet kisscool. Les sites webs se sont rendus compte que leurs données avaient beaucoup plus de valeurs quand elles étaient associées avec celles du voisin. Vous connaissez les mashups? C’est peanuts à côté de ce qui nous attend avec le web des données. L’interconnexion de ces bases de données, précieusement gardées depuis la création du web, pourrait bien créer quelques changements. A cela s’ajoute notre milliard d’utilisateurs qui revendiquent la propriété et le contrôle des données qu’ils produisent, et vous obtenez quelque chose comme ça:

data3.0

La constante: dans cet environnement les pages web permettent toujours de visualiser les données. Petit changement: elles permettront bientôt de visualiser des données provenant d’autres sites ou directement des internautes. La valeur des sites web ne réside plus uniquement dans leur base de données mais aussi dans leur capacité à enrichir leurs données et à les visualiser.

La visualisation de données fait sa révolution

Le web², tout comme le web sémantique, c'est le passage d'un web de documents vers un web de données. Alors si aujourd'hui nous avons l'habitude de « lire des pages web », nous remplacerons peut être bientôt la même activité par un autre terme: celle de « visualiser des données ». Et il ne s'agit pas là de fournir des outils aux fans de chiffres et de statistiques, nous parlons ici de visualisations couvrant tout type de données. Que cela soit le profil d'une personne, le trajet d'un voyage, la consommation électrique de votre maison ou la localisation de votre voiture dans un parking, toutes ces données ont besoin de visualisations spécifiques.

Image de prévisualisation YouTubeles données aujourd'hui

Image de prévisualisation YouTubeleurs visualisations dans quelques années

Comme nous l'avons vu dans la première partie de cet article, les données et leur visualisation vont devenir des éléments indépendants. Je vois à cela trois raisons principales. Tout d'abord la multiplication des terminaux: à partir de données identiques nous devons créer aujourd'hui des visualisations différentes (ordinateur, mobile, voiture, ...). D'autre part présenter des données de différentes manières permet de souligner des points particuliers ou de s'adresser à des publics différents. Et enfin car les données sont de moins en moins cloisonnées à un seul site web, LinkedData et APIs augmentent le besoin de visualiser les données brutes qui circulent partout sur le web. Nous assistons donc à la fois à une augmentation des contenus échangés mais aussi à une multiplication des moyens de les visualiser. Si le web 3.0 est le web des données il semble aussi nécessairement être celui de la visualisation de données.

local_data_visualization

La visualisation de données a beaucoup changé ces dernières années. Nous sommes passé d'une vision très Arty, ou il s'agissait de faire du beau avec des données, à une vision bien plus pragmatique, où il s'agit de révéler au maximum la richesse des données. Ainsi la visualisation de données est devenu un vrai facteur de différenciation pour les professionnels du contenu. Le New York Times, la BBC, ou USA Today ont développés des outils interactifs pour visualiser leurs données. Ces nouveaux besoins créent alors de nouveaux business. Un exemple avec rhiza qui propose de transformer les données du monde en connaissances.

Quand on se penche sur le processus de création de ces visualisations on s'aperçoit que beaucoup sont encore développées d'une façon très 1.0. C'est par exemple le cas du Federal IT Dashboard: il y présente ses propres données d'une manière très statique. Ensuite nous avons l'école 2.0 avec timetric, iCharts et swivel où la communauté importe ses données et crée les visualisations correspondantes. Et enfin on peut facilement imaginer ce que donnerait une visualisation de données 3.0: on trouverait des services de visualisation se basant sur des schémas de données ou des ontologies. Une visualisation devient alors compatible avec plusieurs datatsets et un dataset devient explorable à travers plusieurs visualisations.

remote_data_visualization

Les cas d'indépendance entre données et visualisations ne datent pas d'aujourd'hui. Depuis l'apparition des premières APIs, qui délivrent des données brutes, nous avons vu émerger de nouveaux types de visualisation. Le terme mashup était utilisé à l'époque pour la moindre intégration avec Google Maps. Aujourd'hui même la pizzeria du coin affiche ses coordonnées géographiques via Google Maps. Google Maps est ainsi devenu le premier service de visualisation de données géographiques.

Visualiser des données caractérisées par deux éléments: latitude et longitude, est relativement simple. Mais le web grandissant, et les besoins de visualisation étant de plus en plus précis, de nouveaux services de visualisations de données sont apparus. Ce qui est étonnant c'est de voir comment la création de ces outils de visualisation est crowndsourcé. Aujourd'hui il vous suffit de mettre en ligne vos données, comme le recommande Tim Berners Lee, pour voir apparaitre une multitude de visualisations qui répondent à des besoins différents.

La maigre mise en ligne de données gouvernementales aux US a produit des visualisations tout à fait spectaculaires. Devant le succès du concours Apps for America la sunlight foundation a décidé de lancer le deuxième volet: Apps for America 2, le retour. Ce sont donc plus de 80 services de visualisations différents qui ont été crée. Dans mes préférés l'on retrouve The Tetherless World qui après avoir traduit au format LinkedData la plus part des sources de données, propose quelques prototypes de visualisation très prometteurs. Il y a aussi This We Know qui a réalisé une interface très épurée. Et puis Budget, USASpendingWatch, govpulse. Une source de données, 80 visualisations différentes.

L'API twitter est elle aussi un bel exemple. On ne compte plus les différents moyens de visualiser, filtrer et compiler d'une mannière ou d'une autre les données provenant de cette API. Et c'est d'ailleurs la visualisation de ces données que pourrait bien monétiser Twitter dans les mois à venir.

Alors si des données donnent naissance à de multiples visualisations, on pourrait bientôt voir aussi des visualisations exploiter plusieurs sources de données.

lod_500x70

En effet ça se complique... ou tout du moins, nous avons à faire à un changement radical d'échelle. Si le LinkedData est un embryon du web des données, nous pouvons commencer à imaginer quels seront les besoins de demain en terme de visualisation de données. En plus de leur capacité à traiter des informations complexes, les services  de visualisation de demain seront capables de traiter une information provenant de sources différentes. Prenons l'exemple de 2 sites internet (A) et (B) partageant,  via de bonnes vieilles APIs, des données relativement semblables.  Dans le web d'aujourd'hui  les API (A) et (B) ne  structurent pas les données autour de standards. Imaginons que l'API (A) ai deux services de visualisations dédiés et l'API (B) ai également deux services: malgré des données semblables, les visualisations sont différentes. Dans le LinkedData, le fait de structurer les données autour de schémas permettra non seulement de mettre en commun ces visualisations mais aussi de faire des visualisations croisées. Dans notre exemple ce sera alors 4 visualisations qui seront disponibles pour les API (A) et (B) ainsi que la possibilité de créer des visualisations (A+B). Améliorer l'accès à l'information en multipliant les visualisations disponibles, vous pouvez voir  cela comme un autre bénéfice de la portabilité des données.

Dans le champ des technologies webs, le LinkedData est sans aucun doute l'expérience la plus passionnante de ces dernières années. Elle laisse entrevoir la renaissance de l'écosystème sur lequel sont construits les usages d'aujourd'hui. C'est pourquoi dans la deuxième partie de cet article, à venir la semaine prochaine, nous nous pencherons sur les problématiques que posent la navigation et la visualisation des données dans le LinkedData.

Pour les curieux, la bibliographie de l'article est disponible sous forme de pearltree. Vous y retrouverez 93 sources réparties dans des thématiques tel que l'art de la visualisation de données ou la visualisation de données externes.

[PARTIE 2]

A lire également :

  1. Navigation dans le web des données (partie 2) Points clés de la par­tie 1. Nous assis­tons aujourd’hui à une aug­men­ta­tion des conte­nus échan­gés mais aussi à une mul­ti­pli­ca­tion des moyens de les visua­li­ser. La valeur des sites web ne réside plus unique­ment dans l’accumulation de don­nées mais égale­ment dans leur capa­cité à les enri­chir et à les visua­li­ser....
  2. Qui contrôlera vos données dans le Web 3.0 ? « Imaginez ce que votre télé­phone por­table pour­rait connaitre sur vous » a lancé Sandro Hawke (Développeur au W3C spé­cia­lisé en Web séman­tique), lors de la Conférence Web 3.000 à Santa Clara en Californie cette semaine. « Il entend tout ce qu’il se passe autour de vous, il sait où vous êtes,...
  3. Le Web des Données : Rendre l’information compréhensible par des machines Dans les pro­chaines années, nous serons témoin d’une révo­lu­tion dans la capa­cité des machines à accé­der, retrai­ter et uti­li­ser l’information. Cette révo­lu­tion sera due essen­tiel­le­ment à 3 ten­dances liées au Web Sémantique : le Web des Données, le Web des Services et le Web des Identités. Ces Webs ont pour objec­tif de...
  4. Le journalisme de données, les données ouvertes, et la dictature de la transparence Jeudi der­nier, le Point annonçait la fin du P2P, gra­phique à l’appui, mon­trant quatre belles courbes ten­dant inexo­ra­ble­ment vers le zéro, cen­sées mesu­rer l’activité du P2P sur le réseau inter­net. La chute semble bru­tale et inévi­table, pas­ser d’une mesure de 3 à 0,5 en 2 ans ne peut rien annon­cer de bon pour ce...
  5. Innovation sur le web : le web des données Dans les semaines à venir, ReadWriteWeb publiera une série de billets concer­nant ce que nous pen­sons être les 5 inno­va­tions les plus pro­met­teuses du Web et qui ver­ront le jour en 2009. Nous rédi­ge­rons un article par jour. Puis nous publie­rons une impor­tante mise à jour de notre pré­sen­ta­tion annuelle sur les inno­va­tions...
  6. Données et métadonnées : transfert de valeur au coeur de la stratégie des média La semaine der­nière, lors de la conférence SemTech, le grand ras­sem­ble­ment annuel des experts des tech­no­lo­gies séman­tiques, le New York Times a fait un annonce fra­cas­sante qui a été saluée par tous. Le Times publiera sous peu son cor­pus sous forme de ‘Linked Data’ (don­nées liées), une méthode qui consiste à per­mettre...

10 commentaires pour cet article

  1. Romain

    Wow tu t’es sur­passé Nicolas !
    Rien à dire si ce n’est “bravo” et…que je vais reve­nir le lire encore 2 ou 3 fois his­toire d’explorer tout ce que tu lies.

  2. Triplelootz

    Un très bel article en effet. C’est l’explication la plus claire sur le sujet!! Bravo

  3. Fabrice Epelboin

    Yep, beau boulot :-)

  4. Fabien Calais

    à coté des don­nées simples, ou la pau­vreté du texte (texte brut) per­met­tra de mul­tiples visua­lis­tions, n’y a –t-il pas des don­nées “riches” ou la visua­li­sa­tion et la don­nées sont inti­menent associés.

    Dans ce der­nier cas, il ne s’agirait plus de mul­ti­plier les visua­li­sa­tions de la même source de don­nées (tem­plate), mais bien de faci­li­ter la créa­tion d’une nou­velle source de don­nées en met­tant à dis­po­si­tion du créa­teur des outils de réuti­li­sa­tion de don­nées exis­tantes (recherche, copier/coller, conver­sion de formats)

  5. Nicolas Cynober

    Salut Fabien,

    En effet c’est un pro­blème qui peut se poser pour les sources de don­nées très com­plexes. Où il faut pas­ser plu­sieurs heures (jours?) pour com­prendre toute la richesse du data­set et iso­ler les don­nées à visua­li­ser.
    Dans les bases de don­nées rela­tion­nels on trouve sou­vant des “vues” qui per­mettent d’isoler une par­tie des don­nées. Faciliter la créa­tion de vues dans le web des don­nées peut être une approche inté­res­sante. D’autant plus que qu’il serait pos­sible d’utiliser des don­nées pro­ve­nant de plu­sieurs data­sets en même temps (je pense au lan­guage de requête SPARQL).

    Donc plus que la “créa­tion” d’un nou­veau data­set, il est pos­sible d’avoir une vision réduite et dyna­mique (puisque sans copie), d’une par­tie des données.

  6. Fabien Calais

    Nicolas,

    l’association datas => vues => visua­li­sa­tions me semble répondre au pro­blème des page com­por­tant une pré­sen­ta­tion com­plexe des informations.

    reste l’autre ques­tion concer­nant le texte enri­chi; dit autre­ment sous quel for­mat faut-il sto­cker les infor­ma­tions de type texte ?
    - texte brut avec comme avan­tage une réuti­li­sa­tion facile mais en ayant perdu les infor­ma­tions conte­nus dans l’enrichissement
    - texte enri­chi : se pose alors le pro­blème du for­mat (xhtml autres)

    je pense par exemple au pro­blème des capi­tales qui n’existent pas dans toutes les langues ou sera pre­fere une mise en gras ou une taille de police plus impor­tante.
    Et ici je ne parle pas du pro­bleme de la traduction; 

    pre­nons lexemple d’un texte en japo­nais ou arabe dans lequel un cer­tain nombre de mots ont été mis en gras; ces mots par­ti­cipent à la com­pré­hen­sion du sens au même titre que les saut de ligne et les ele­ments de ponc­tua­tion. si le texte est sto­cké sous sa forme brute, sa réuti­li­sa­tion dans une autre visua­li­sa­tion per­dra une par­tie de son sens.

  7. Nicolas Cynober

    En effet Fabien, je ne pense pas non plus que la notion de “don­nées brutes” signi­fie une sup­pres­sion de toutes les meta-données d’un texte. Le XHTML est une solu­tion, le HTML4 ou 5 aussi. A par­tir du moment où un texte est riche pourquoi sup­pri­mer des élements qui apportent du sens aux lec­teurs (mise en page) et aux machines (micro­for­mats, RDFa).

    Pour ce qui est de ton exemple de tra­duc­tion de textes japo­nais ou arabes, la tra­duc­tion pro­duit déjà en elle même une perte de sens (où en tout cas une légère trans­for­ma­tion). Après la nature d’une visua­li­sa­tion c’est jus­te­ment d’apporter son propre sens, sa propre subjec­ti­vité. Mais là c’est un point de vu très personnel.

  8. Fabien Calais

    le web de don­nées n’apparait pos­sible qu’avec une forte struc­tu­ra­tion des don­nées et donc un enri­gis­se­ment des datas en metadonnées.

    mal­heu­re­se­ment cela nest pos­sible que pour une par­tie des datas.
    en effet, aujourd’hui de plus en plus d’informations sont créés par des gens qui n’ont ni le souci ni la pos­si­bi­lité de ren­sei­gner et/ou struc­tu­rer leurs informations.

    c’est la ten­dance lourde des CMS (Gestion de conte­nus) et c’est sou­vent dans ces datas que reside les réelles plus values en terme d’informations.

    Il existe un gouffre entre les pos­si­bi­li­tés d’exploitation d’une docu­men­ta­tion de l’industrie aérau­no­tique et celles offertes par exemple par les enquêtes journalistiques,tests d’utilisateurs, ou autres.

    Les moteurs de recherche à la google ont encore de beaux jours devant eux !

  9. Nicolas Cynober

    Yep, on ne peut plus d’accord.

    Ce n’est pas aux uti­li­sa­teurs de struc­tu­rer les don­nées qu’ils pro­duisent. Et je ne pense pas non plus qu’une struc­tu­ra­tion auto­ma­tique soit un argu­ment mar­ke­ting pour uti­li­ser tel ou tel ser­vice. Structurer pour struc­tu­rer, à quoi bon ?

    Le fait est qu’il est aujourd’hui pos­sible de créer de la valeur et pro­po­ser de vrais béné­fices à ses clients / uti­li­sa­teurs en ayant sous le capot des tech­no­lo­gies du web séman­tique. Mais encore une fois, cela ne doit pas être l’argument mar­ke­ting pre­mier (cf. Twine).

    Pour ce qui est des moteurs de recherche, c’est un autre sujet ;)

  10. Killy Ek'Fael

    La ques­tion de la visua­li­sa­tion des don­nées pose aussi celle des apti­tudes à les lires. Je pense à un article de la revue “Reseaux” que j’ai lu à ma biblio­tèque uni­ver­si­taire. Tout par­ti­cu­liè­re­ment l’article “Représentations visuelles alter­na­tives pour les réseaux sociaux” du numéro http://www.cairn.info/revue-reseaux-2008 – 6-p-59.htm

8 Trackbacks For This Post

  1. Tweets that mention Navigation dans le web des données (partie 1) | ReadWriteWeb France -- Topsy.com :

    […] This post was men­tio­ned on Twitter by Pierre-E. Daviet, Nicolas Cynober. Nicolas Cynober said: Navigation dans le web des don­nées (par­tie 1): http://bit.ly/1fuVZT Partie 2 la semaine pro­chaine. Thx @Straubiz et @davidby. […]

  2. Philippe Scoffoni (pscoffoni) 's status on Thursday, 22-Oct-09 22:25:06 UTC - Identi.ca :

    […] http://fr.readwriteweb.com/2009/10/22/analyse/navigation-dans-web-des-donnes-partie-1/ a few seconds ago from api […]

  3. Darklg Web (darklgweb) 's status on Friday, 23-Oct-09 13:33:21 UTC - Identi.ca :

    […] http://fr.readwriteweb.com/2009/10/22/analyse/navigation-dans-web-des-donnes-partie-1/ a few seconds ago from web […]

  4. Netlex FOCUS » Blog Archive » Le web, nouveau paradigme du socialisme à l’ère numérique ? :

    […] Navigation dans le web des don­nées (par­tie 1) 22 octobre 2009 par Nicolas Cynober, Read Write Web […]

  5. Navigations | Le web et moi... Le blog d'Arnaud Vallière :

    […] pas­sion­nants à pro­pos du “web des don­nées” sont parus dans ReadWriteWeb. Le pre­mier réca­pi­tule les dif­fé­rentes manières ne navi­guer sur inter­net : sites statiques […]

  6. Navigation dans le web des données (partie 2) | ReadWriteWeb France :

    […] clés de la par­tie 1. Nous assis­tons aujourd’hui à une aug­men­ta­tion des conte­nus échan­gés mais aussi à une […]

  7. Connaissez vous des viewers ? :

    […] me suis inté­ressé der­niè­re­ment à la pro­blé­ma­tique de la visua­li­sa­tion de don­nées, sujet rela­ti­ve­ment proche du web séman­tique (tout du moins dans sa dimen­sion web des données). […]

  8. XBRL pour l’échange de données financières | BorisSchapira.com :

    […] d’en accé­lé­rer et faci­li­ter l’analyse. Cette problématique, inhérente au Web des Données dont on parle depuis plu­sieurs années (plus sou­vent sous le nom Web Sémantique), est toujours la […]

Réagissez !

  • A propos
  • Best of
  • Buzzing
  • Tags

ReadWriteWeb est un blog dédié aux technologies internet qui en couvre l’actualité et se distingue par ses notes d’analyse et de prospective ainsi que par l’accent mis sur les usages et leur impact sur les média, la communication et la société.

ReadWriteWeb est classé parmi les blogs les plus influents de la planète par Technorati et Wikio, il est publié en anglais, en français, en coréen, en espagnol, en portugais et en chinois. Ses articles sont publiés dans la rubrique technologie du New York Times.

Partenaires

hébergement infogérance Bearstech
af83



Publications

Lawrence Lessig
Culture Libre



Pierre Bellanger
La Radio IP