Que cela soit le web² de Tim O’Reilly ou le web sémantique de Tim Berners Lee, les spécialistes s'accordent aujourd'hui à dire que notre web de pages, se transforme petit à petit en web des données. Chaque personne, chaque objet, véhicule déjà dans son sillage des données, le web², tout comme le web sémantique, c'est la vision d'un web où, non pas les pages, mais directement les données sont connectées à l'échelle du web.
Même si nous avançons jour après jour vers ce fameux web des données, il existe encore de nombreuses zones d'ombres. Que cela soit la propriété privée, les droits d'auteurs, ou l'augmentation des débits sur les réseaux, de nombreuses questions se posent, ou devrais-je dire: « devront se poser un jour ». Car à l'heure actuelle le web² ou web des données est encore un doux rêve. Aujourd'hui je vous propose dans cet article de prospective de nous pencher sur une problématique bien plus pragmatique: comment naviguer dans un web de données?
Nous ne naviguons plus sur la même toile
Car il faut savoir d'où l'on vient pour comprendre ou l'on va: commençons par une petite rétrospective. Dans les premiers jours du web les pages et les données étaient plutôt copines puisqu’elles se confondaient. L’on développait directement des pages HTML, sans base de données. Très vite le divorce: les données sont enfermées dans des bases, et le rôle du HTML se retrouve limité à présenter ces données aux navigateurs webs. La valeur des sites web réside alors dans l’accumulation de données, soigneusement protégées et diffusées de manière très contrôlées, car bien souvent directement monétisées:

Arrivée du web 2.0: 1er effet kisscool. Des millions, puis des centaines de millions, puis un milliard d’utilisateur produisent des données. Le marché est plutôt simple: les sites web permettent l’échange de données entre les internautes et en contrepartie les sites continuent de remplir leurs bases de données, augmentant ainsi leur valorisation. Finalement la relation entre données et pages webs reste quasiment inchangée : les utilisateurs créent des données pour un site, pour une base de données, et ces données sont ensuite affichées sur ce même site à travers ses pages webs. Tim O'Reilly déclara à l'époque: « les données sont l'Intel Inside du 2.0 » :

Arrivée du web 3.0: 2ème effet kisscool. Les sites webs se sont rendus compte que leurs données avaient beaucoup plus de valeurs quand elles étaient associées avec celles du voisin. Vous connaissez les mashups? C’est peanuts à côté de ce qui nous attend avec le web des données. L’interconnexion de ces bases de données, précieusement gardées depuis la création du web, pourrait bien créer quelques changements. A cela s’ajoute notre milliard d’utilisateurs qui revendiquent la propriété et le contrôle des données qu’ils produisent, et vous obtenez quelque chose comme ça:

La constante: dans cet environnement les pages web permettent toujours de visualiser les données. Petit changement: elles permettront bientôt de visualiser des données provenant d’autres sites ou directement des internautes. La valeur des sites web ne réside plus uniquement dans leur base de données mais aussi dans leur capacité à enrichir leurs données et à les visualiser.
La visualisation de données fait sa révolution
Le web², tout comme le web sémantique, c'est le passage d'un web de documents vers un web de données. Alors si aujourd'hui nous avons l'habitude de « lire des pages web », nous remplacerons peut être bientôt la même activité par un autre terme: celle de « visualiser des données ». Et il ne s'agit pas là de fournir des outils aux fans de chiffres et de statistiques, nous parlons ici de visualisations couvrant tout type de données. Que cela soit le profil d'une personne, le trajet d'un voyage, la consommation électrique de votre maison ou la localisation de votre voiture dans un parking, toutes ces données ont besoin de visualisations spécifiques.
leurs visualisations dans quelques années
Comme nous l'avons vu dans la première partie de cet article, les données et leur visualisation vont devenir des éléments indépendants. Je vois à cela trois raisons principales. Tout d'abord la multiplication des terminaux: à partir de données identiques nous devons créer aujourd'hui des visualisations différentes (ordinateur, mobile, voiture, ...). D'autre part présenter des données de différentes manières permet de souligner des points particuliers ou de s'adresser à des publics différents. Et enfin car les données sont de moins en moins cloisonnées à un seul site web, LinkedData et APIs augmentent le besoin de visualiser les données brutes qui circulent partout sur le web. Nous assistons donc à la fois à une augmentation des contenus échangés mais aussi à une multiplication des moyens de les visualiser. Si le web 3.0 est le web des données il semble aussi nécessairement être celui de la visualisation de données.

La visualisation de données a beaucoup changé ces dernières années. Nous sommes passé d'une vision très Arty, ou il s'agissait de faire du beau avec des données, à une vision bien plus pragmatique, où il s'agit de révéler au maximum la richesse des données. Ainsi la visualisation de données est devenu un vrai facteur de différenciation pour les professionnels du contenu. Le New York Times, la BBC, ou USA Today ont développés des outils interactifs pour visualiser leurs données. Ces nouveaux besoins créent alors de nouveaux business. Un exemple avec rhiza qui propose de transformer les données du monde en connaissances.
Quand on se penche sur le processus de création de ces visualisations on s'aperçoit que beaucoup sont encore développées d'une façon très 1.0. C'est par exemple le cas du Federal IT Dashboard: il y présente ses propres données d'une manière très statique. Ensuite nous avons l'école 2.0 avec timetric, iCharts et swivel où la communauté importe ses données et crée les visualisations correspondantes. Et enfin on peut facilement imaginer ce que donnerait une visualisation de données 3.0: on trouverait des services de visualisation se basant sur des schémas de données ou des ontologies. Une visualisation devient alors compatible avec plusieurs datatsets et un dataset devient explorable à travers plusieurs visualisations.
Les cas d'indépendance entre données et visualisations ne datent pas d'aujourd'hui. Depuis l'apparition des premières APIs, qui délivrent des données brutes, nous avons vu émerger de nouveaux types de visualisation. Le terme mashup était utilisé à l'époque pour la moindre intégration avec Google Maps. Aujourd'hui même la pizzeria du coin affiche ses coordonnées géographiques via Google Maps. Google Maps est ainsi devenu le premier service de visualisation de données géographiques.
Visualiser des données caractérisées par deux éléments: latitude et longitude, est relativement simple. Mais le web grandissant, et les besoins de visualisation étant de plus en plus précis, de nouveaux services de visualisations de données sont apparus. Ce qui est étonnant c'est de voir comment la création de ces outils de visualisation est crowndsourcé. Aujourd'hui il vous suffit de mettre en ligne vos données, comme le recommande Tim Berners Lee, pour voir apparaitre une multitude de visualisations qui répondent à des besoins différents.
La maigre mise en ligne de données gouvernementales aux US a produit des visualisations tout à fait spectaculaires. Devant le succès du concours Apps for America la sunlight foundation a décidé de lancer le deuxième volet: Apps for America 2, le retour. Ce sont donc plus de 80 services de visualisations différents qui ont été crée. Dans mes préférés l'on retrouve The Tetherless World qui après avoir traduit au format LinkedData la plus part des sources de données, propose quelques prototypes de visualisation très prometteurs. Il y a aussi This We Know qui a réalisé une interface très épurée. Et puis Budget, USASpendingWatch, govpulse. Une source de données, 80 visualisations différentes.
L'API twitter est elle aussi un bel exemple. On ne compte plus les différents moyens de visualiser, filtrer et compiler d'une mannière ou d'une autre les données provenant de cette API. Et c'est d'ailleurs la visualisation de ces données que pourrait bien monétiser Twitter dans les mois à venir.
Alors si des données donnent naissance à de multiples visualisations, on pourrait bientôt voir aussi des visualisations exploiter plusieurs sources de données.
En effet ça se complique... ou tout du moins, nous avons à faire à un changement radical d'échelle. Si le LinkedData est un embryon du web des données, nous pouvons commencer à imaginer quels seront les besoins de demain en terme de visualisation de données. En plus de leur capacité à traiter des informations complexes, les services de visualisation de demain seront capables de traiter une information provenant de sources différentes. Prenons l'exemple de 2 sites internet (A) et (B) partageant, via de bonnes vieilles APIs, des données relativement semblables. Dans le web d'aujourd'hui les API (A) et (B) ne structurent pas les données autour de standards. Imaginons que l'API (A) ai deux services de visualisations dédiés et l'API (B) ai également deux services: malgré des données semblables, les visualisations sont différentes. Dans le LinkedData, le fait de structurer les données autour de schémas permettra non seulement de mettre en commun ces visualisations mais aussi de faire des visualisations croisées. Dans notre exemple ce sera alors 4 visualisations qui seront disponibles pour les API (A) et (B) ainsi que la possibilité de créer des visualisations (A+B). Améliorer l'accès à l'information en multipliant les visualisations disponibles, vous pouvez voir cela comme un autre bénéfice de la portabilité des données.
Dans le champ des technologies webs, le LinkedData est sans aucun doute l'expérience la plus passionnante de ces dernières années. Elle laisse entrevoir la renaissance de l'écosystème sur lequel sont construits les usages d'aujourd'hui. C'est pourquoi dans la deuxième partie de cet article, à venir la semaine prochaine, nous nous pencherons sur les problématiques que posent la navigation et la visualisation des données dans le LinkedData.
Pour les curieux, la bibliographie de l'article est disponible sous forme de pearltree. Vous y retrouverez 93 sources réparties dans des thématiques tel que l'art de la visualisation de données ou la visualisation de données externes.
[PARTIE 2]
A lire également :
- Navigation dans le web des données (partie 2) Points clés de la partie 1. Nous assistons aujourd’hui à une augmentation des contenus échangés mais aussi à une multiplication des moyens de les visualiser. La valeur des sites web ne réside plus uniquement dans l’accumulation de données mais également dans leur capacité à les enrichir et à les visualiser....
- Qui contrôlera vos données dans le Web 3.0 ? « Imaginez ce que votre téléphone portable pourrait connaitre sur vous » a lancé Sandro Hawke (Développeur au W3C spécialisé en Web sémantique), lors de la Conférence Web 3.000 à Santa Clara en Californie cette semaine. « Il entend tout ce qu’il se passe autour de vous, il sait où vous êtes,...
- Le Web des Données : Rendre l’information compréhensible par des machines Dans les prochaines années, nous serons témoin d’une révolution dans la capacité des machines à accéder, retraiter et utiliser l’information. Cette révolution sera due essentiellement à 3 tendances liées au Web Sémantique : le Web des Données, le Web des Services et le Web des Identités. Ces Webs ont pour objectif de...
- Le journalisme de données, les données ouvertes, et la dictature de la transparence Jeudi dernier, le Point annonçait la fin du P2P, graphique à l’appui, montrant quatre belles courbes tendant inexorablement vers le zéro, censées mesurer l’activité du P2P sur le réseau internet. La chute semble brutale et inévitable, passer d’une mesure de 3 à 0,5 en 2 ans ne peut rien annoncer de bon pour ce...
- Innovation sur le web : le web des données Dans les semaines à venir, ReadWriteWeb publiera une série de billets concernant ce que nous pensons être les 5 innovations les plus prometteuses du Web et qui verront le jour en 2009. Nous rédigerons un article par jour. Puis nous publierons une importante mise à jour de notre présentation annuelle sur les innovations...
- Données et métadonnées : transfert de valeur au coeur de la stratégie des média La semaine dernière, lors de la conférence SemTech, le grand rassemblement annuel des experts des technologies sémantiques, le New York Times a fait un annonce fracassante qui a été saluée par tous. Le Times publiera sous peu son corpus sous forme de ‘Linked Data’ (données liées), une méthode qui consiste à permettre...












23 octobre 2009 à 1:13
Wow tu t’es surpassé Nicolas !
Rien à dire si ce n’est “bravo” et…que je vais revenir le lire encore 2 ou 3 fois histoire d’explorer tout ce que tu lies.
23 octobre 2009 à 9:23
Un très bel article en effet. C’est l’explication la plus claire sur le sujet!! Bravo
23 octobre 2009 à 9:36
Yep, beau boulot :-)
23 octobre 2009 à 11:02
à coté des données simples, ou la pauvreté du texte (texte brut) permettra de multiples visualistions, n’y a –t-il pas des données “riches” ou la visualisation et la données sont intimenent associés.
Dans ce dernier cas, il ne s’agirait plus de multiplier les visualisations de la même source de données (template), mais bien de faciliter la création d’une nouvelle source de données en mettant à disposition du créateur des outils de réutilisation de données existantes (recherche, copier/coller, conversion de formats)
23 octobre 2009 à 11:34
Salut Fabien,
En effet c’est un problème qui peut se poser pour les sources de données très complexes. Où il faut passer plusieurs heures (jours?) pour comprendre toute la richesse du dataset et isoler les données à visualiser.
Dans les bases de données relationnels on trouve souvant des “vues” qui permettent d’isoler une partie des données. Faciliter la création de vues dans le web des données peut être une approche intéressante. D’autant plus que qu’il serait possible d’utiliser des données provenant de plusieurs datasets en même temps (je pense au language de requête SPARQL).
Donc plus que la “création” d’un nouveau dataset, il est possible d’avoir une vision réduite et dynamique (puisque sans copie), d’une partie des données.
23 octobre 2009 à 15:02
Nicolas,
l’association datas => vues => visualisations me semble répondre au problème des page comportant une présentation complexe des informations.
reste l’autre question concernant le texte enrichi; dit autrement sous quel format faut-il stocker les informations de type texte ?
- texte brut avec comme avantage une réutilisation facile mais en ayant perdu les informations contenus dans l’enrichissement
- texte enrichi : se pose alors le problème du format (xhtml autres)
je pense par exemple au problème des capitales qui n’existent pas dans toutes les langues ou sera prefere une mise en gras ou une taille de police plus importante.
Et ici je ne parle pas du probleme de la traduction;
prenons lexemple d’un texte en japonais ou arabe dans lequel un certain nombre de mots ont été mis en gras; ces mots participent à la compréhension du sens au même titre que les saut de ligne et les elements de ponctuation. si le texte est stocké sous sa forme brute, sa réutilisation dans une autre visualisation perdra une partie de son sens.
25 octobre 2009 à 16:20
En effet Fabien, je ne pense pas non plus que la notion de “données brutes” signifie une suppression de toutes les meta-données d’un texte. Le XHTML est une solution, le HTML4 ou 5 aussi. A partir du moment où un texte est riche pourquoi supprimer des élements qui apportent du sens aux lecteurs (mise en page) et aux machines (microformats, RDFa).
Pour ce qui est de ton exemple de traduction de textes japonais ou arabes, la traduction produit déjà en elle même une perte de sens (où en tout cas une légère transformation). Après la nature d’une visualisation c’est justement d’apporter son propre sens, sa propre subjectivité. Mais là c’est un point de vu très personnel.
26 octobre 2009 à 12:18
le web de données n’apparait possible qu’avec une forte structuration des données et donc un enrigissement des datas en metadonnées.
malheuresement cela nest possible que pour une partie des datas.
en effet, aujourd’hui de plus en plus d’informations sont créés par des gens qui n’ont ni le souci ni la possibilité de renseigner et/ou structurer leurs informations.
c’est la tendance lourde des CMS (Gestion de contenus) et c’est souvent dans ces datas que reside les réelles plus values en terme d’informations.
Il existe un gouffre entre les possibilités d’exploitation d’une documentation de l’industrie aéraunotique et celles offertes par exemple par les enquêtes journalistiques,tests d’utilisateurs, ou autres.
Les moteurs de recherche à la google ont encore de beaux jours devant eux !
26 octobre 2009 à 12:44
Yep, on ne peut plus d’accord.
Ce n’est pas aux utilisateurs de structurer les données qu’ils produisent. Et je ne pense pas non plus qu’une structuration automatique soit un argument marketing pour utiliser tel ou tel service. Structurer pour structurer, à quoi bon ?
Le fait est qu’il est aujourd’hui possible de créer de la valeur et proposer de vrais bénéfices à ses clients / utilisateurs en ayant sous le capot des technologies du web sémantique. Mais encore une fois, cela ne doit pas être l’argument marketing premier (cf. Twine).
Pour ce qui est des moteurs de recherche, c’est un autre sujet ;)
29 octobre 2009 à 21:30
La question de la visualisation des données pose aussi celle des aptitudes à les lires. Je pense à un article de la revue “Reseaux” que j’ai lu à ma bibliotèque universitaire. Tout particulièrement l’article “Représentations visuelles alternatives pour les réseaux sociaux” du numéro http://www.cairn.info/revue-reseaux-2008 – 6-p-59.htm