Navigation dans le web des données (partie 1)

Que cela soit le web² de Tim O’Reilly ou le web sémantique de Tim Berners Lee, les spécialistes s'accordent aujourd'hui à dire que notre web de pages, se transforme petit à petit en web des données. Chaque personne, chaque objet, véhicule déjà dans son sillage des données, le web², tout comme le web sémantique, c'est la vision d'un web où, non pas les pages, mais directement les données sont connectées à l'échelle du web.

Même si nous avançons jour après jour vers ce fameux web des données, il existe encore de nombreuses zones d'ombres. Que cela soit la propriété privée, les droits d'auteurs, ou l'augmentation des débits sur les réseaux, de nombreuses questions se posent, ou devrais-je dire: « devront se poser un jour ». Car à l'heure actuelle le web² ou web des données est encore un doux rêve. Aujourd'hui je vous propose dans cet article de prospective de nous pencher sur une problématique bien plus pragmatique: comment naviguer dans un web de données?

Nous ne naviguons plus sur la même toile

Car il faut savoir d'où l'on vient pour comprendre ou l'on va: commençons par une petite rétrospective. Dans les premiers jours du web les pages et les données étaient plutôt copines puisqu’elles se confondaient. L’on développait directement des pages HTML, sans base de données. Très vite le divorce: les données sont enfermées dans des bases, et le rôle du HTML se retrouve limité à présenter ces données aux navigateurs webs. La valeur des sites web réside alors dans l’accumulation de données, soigneusement protégées et diffusées de manière très contrôlées, car bien souvent directement monétisées:

data1.0

Arrivée du web 2.0: 1er effet kisscool. Des millions, puis des centaines de millions, puis un milliard d’utilisateur produisent des données. Le marché est plutôt simple: les sites web permettent l’échange de données entre les internautes et en contrepartie les sites continuent de remplir leurs bases de données, augmentant ainsi leur valorisation. Finalement la relation entre données et pages webs reste quasiment inchangée : les utilisateurs créent des données pour un site, pour une base de données, et ces données sont ensuite affichées sur ce même site à travers ses pages webs. Tim O'Reilly déclara à l'époque: « les données sont l'Intel Inside du 2.0 » :

data2.0

Arrivée du web 3.0: 2ème effet kisscool. Les sites webs se sont rendus compte que leurs données avaient beaucoup plus de valeurs quand elles étaient associées avec celles du voisin. Vous connaissez les mashups? C’est peanuts à côté de ce qui nous attend avec le web des données. L’interconnexion de ces bases de données, précieusement gardées depuis la création du web, pourrait bien créer quelques changements. A cela s’ajoute notre milliard d’utilisateurs qui revendiquent la propriété et le contrôle des données qu’ils produisent, et vous obtenez quelque chose comme ça:

data3.0

La constante: dans cet environnement les pages web permettent toujours de visualiser les données. Petit changement: elles permettront bientôt de visualiser des données provenant d’autres sites ou directement des internautes. La valeur des sites web ne réside plus uniquement dans leur base de données mais aussi dans leur capacité à enrichir leurs données et à les visualiser.

La visualisation de données fait sa révolution

Le web², tout comme le web sémantique, c'est le passage d'un web de documents vers un web de données. Alors si aujourd'hui nous avons l'habitude de « lire des pages web », nous remplacerons peut être bientôt la même activité par un autre terme: celle de « visualiser des données ». Et il ne s'agit pas là de fournir des outils aux fans de chiffres et de statistiques, nous parlons ici de visualisations couvrant tout type de données. Que cela soit le profil d'une personne, le trajet d'un voyage, la consommation électrique de votre maison ou la localisation de votre voiture dans un parking, toutes ces données ont besoin de visualisations spécifiques.

Image de prévisualisation YouTubeles données aujourd'hui

Image de prévisualisation YouTubeleurs visualisations dans quelques années

Comme nous l'avons vu dans la première partie de cet article, les données et leur visualisation vont devenir des éléments indépendants. Je vois à cela trois raisons principales. Tout d'abord la multiplication des terminaux: à partir de données identiques nous devons créer aujourd'hui des visualisations différentes (ordinateur, mobile, voiture, ...). D'autre part présenter des données de différentes manières permet de souligner des points particuliers ou de s'adresser à des publics différents. Et enfin car les données sont de moins en moins cloisonnées à un seul site web, LinkedData et APIs augmentent le besoin de visualiser les données brutes qui circulent partout sur le web. Nous assistons donc à la fois à une augmentation des contenus échangés mais aussi à une multiplication des moyens de les visualiser. Si le web 3.0 est le web des données il semble aussi nécessairement être celui de la visualisation de données.

local_data_visualization

La visualisation de données a beaucoup changé ces dernières années. Nous sommes passé d'une vision très Arty, ou il s'agissait de faire du beau avec des données, à une vision bien plus pragmatique, où il s'agit de révéler au maximum la richesse des données. Ainsi la visualisation de données est devenu un vrai facteur de différenciation pour les professionnels du contenu. Le New York Times, la BBC, ou USA Today ont développés des outils interactifs pour visualiser leurs données. Ces nouveaux besoins créent alors de nouveaux business. Un exemple avec rhiza qui propose de transformer les données du monde en connaissances.

Quand on se penche sur le processus de création de ces visualisations on s'aperçoit que beaucoup sont encore développées d'une façon très 1.0. C'est par exemple le cas du Federal IT Dashboard: il y présente ses propres données d'une manière très statique. Ensuite nous avons l'école 2.0 avec timetric, iCharts et swivel où la communauté importe ses données et crée les visualisations correspondantes. Et enfin on peut facilement imaginer ce que donnerait une visualisation de données 3.0: on trouverait des services de visualisation se basant sur des schémas de données ou des ontologies. Une visualisation devient alors compatible avec plusieurs datatsets et un dataset devient explorable à travers plusieurs visualisations.

remote_data_visualization

Les cas d'indépendance entre données et visualisations ne datent pas d'aujourd'hui. Depuis l'apparition des premières APIs, qui délivrent des données brutes, nous avons vu émerger de nouveaux types de visualisation. Le terme mashup était utilisé à l'époque pour la moindre intégration avec Google Maps. Aujourd'hui même la pizzeria du coin affiche ses coordonnées géographiques via Google Maps. Google Maps est ainsi devenu le premier service de visualisation de données géographiques.

Visualiser des données caractérisées par deux éléments: latitude et longitude, est relativement simple. Mais le web grandissant, et les besoins de visualisation étant de plus en plus précis, de nouveaux services de visualisations de données sont apparus. Ce qui est étonnant c'est de voir comment la création de ces outils de visualisation est crowndsourcé. Aujourd'hui il vous suffit de mettre en ligne vos données, comme le recommande Tim Berners Lee, pour voir apparaitre une multitude de visualisations qui répondent à des besoins différents.

La maigre mise en ligne de données gouvernementales aux US a produit des visualisations tout à fait spectaculaires. Devant le succès du concours Apps for America la sunlight foundation a décidé de lancer le deuxième volet: Apps for America 2, le retour. Ce sont donc plus de 80 services de visualisations différents qui ont été crée. Dans mes préférés l'on retrouve The Tetherless World qui après avoir traduit au format LinkedData la plus part des sources de données, propose quelques prototypes de visualisation très prometteurs. Il y a aussi This We Know qui a réalisé une interface très épurée. Et puis Budget, USASpendingWatch, govpulse. Une source de données, 80 visualisations différentes.

L'API twitter est elle aussi un bel exemple. On ne compte plus les différents moyens de visualiser, filtrer et compiler d'une mannière ou d'une autre les données provenant de cette API. Et c'est d'ailleurs la visualisation de ces données que pourrait bien monétiser Twitter dans les mois à venir.

Alors si des données donnent naissance à de multiples visualisations, on pourrait bientôt voir aussi des visualisations exploiter plusieurs sources de données.

lod_500x70

En effet ça se complique... ou tout du moins, nous avons à faire à un changement radical d'échelle. Si le LinkedData est un embryon du web des données, nous pouvons commencer à imaginer quels seront les besoins de demain en terme de visualisation de données. En plus de leur capacité à traiter des informations complexes, les services  de visualisation de demain seront capables de traiter une information provenant de sources différentes. Prenons l'exemple de 2 sites internet (A) et (B) partageant,  via de bonnes vieilles APIs, des données relativement semblables.  Dans le web d'aujourd'hui  les API (A) et (B) ne  structurent pas les données autour de standards. Imaginons que l'API (A) ai deux services de visualisations dédiés et l'API (B) ai également deux services: malgré des données semblables, les visualisations sont différentes. Dans le LinkedData, le fait de structurer les données autour de schémas permettra non seulement de mettre en commun ces visualisations mais aussi de faire des visualisations croisées. Dans notre exemple ce sera alors 4 visualisations qui seront disponibles pour les API (A) et (B) ainsi que la possibilité de créer des visualisations (A+B). Améliorer l'accès à l'information en multipliant les visualisations disponibles, vous pouvez voir  cela comme un autre bénéfice de la portabilité des données.

Dans le champ des technologies webs, le LinkedData est sans aucun doute l'expérience la plus passionnante de ces dernières années. Elle laisse entrevoir la renaissance de l'écosystème sur lequel sont construits les usages d'aujourd'hui. C'est pourquoi dans la deuxième partie de cet article, à venir la semaine prochaine, nous nous pencherons sur les problématiques que posent la navigation et la visualisation des données dans le LinkedData.

Pour les curieux, la bibliographie de l'article est disponible sous forme de pearltree. Vous y retrouverez 93 sources réparties dans des thématiques tel que l'art de la visualisation de données ou la visualisation de données externes.

[PARTIE 2]


Recommandez cet article à vos amis

et rejoignez nous sur Facebook et Twitter...



11 commentaires pour cet article

  1. Romain

    Wow tu t’es surpassé Nicolas !
    Rien à dire si ce n’est « bravo » et…que je vais revenir le lire encore 2 ou 3 fois histoire d’explorer tout ce que tu lies.

  2. Triplelootz

    Un très bel article en effet. C’est l’explication la plus claire sur le sujet!! Bravo

  3. Fabrice Epelboin

    Yep, beau boulot :-)

  4. Fabien Calais

    à coté des données simples, ou la pauvreté du texte (texte brut) permettra de multiples visualistions, n’y a -t-il pas des données « riches » ou la visualisation et la données sont intimenent associés.

    Dans ce dernier cas, il ne s’agirait plus de multiplier les visualisations de la même source de données (template), mais bien de faciliter la création d’une nouvelle source de données en mettant à disposition du créateur des outils de réutilisation de données existantes (recherche, copier/coller, conversion de formats)

  5. Nicolas Cynober

    Salut Fabien,

    En effet c’est un problème qui peut se poser pour les sources de données très complexes. Où il faut passer plusieurs heures (jours?) pour comprendre toute la richesse du dataset et isoler les données à visualiser.
    Dans les bases de données relationnels on trouve souvant des « vues » qui permettent d’isoler une partie des données. Faciliter la création de vues dans le web des données peut être une approche intéressante. D’autant plus que qu’il serait possible d’utiliser des données provenant de plusieurs datasets en même temps (je pense au language de requête SPARQL).

    Donc plus que la « création » d’un nouveau dataset, il est possible d’avoir une vision réduite et dynamique (puisque sans copie), d’une partie des données.

  6. Fabien Calais

    Nicolas,

    l’association datas => vues => visualisations me semble répondre au problème des page comportant une présentation complexe des informations.

    reste l’autre question concernant le texte enrichi; dit autrement sous quel format faut-il stocker les informations de type texte ?
    - texte brut avec comme avantage une réutilisation facile mais en ayant perdu les informations contenus dans l’enrichissement
    - texte enrichi : se pose alors le problème du format (xhtml autres)

    je pense par exemple au problème des capitales qui n’existent pas dans toutes les langues ou sera prefere une mise en gras ou une taille de police plus importante.
    Et ici je ne parle pas du probleme de la traduction;

    prenons lexemple d’un texte en japonais ou arabe dans lequel un certain nombre de mots ont été mis en gras; ces mots participent à la compréhension du sens au même titre que les saut de ligne et les elements de ponctuation. si le texte est stocké sous sa forme brute, sa réutilisation dans une autre visualisation perdra une partie de son sens.

  7. Nicolas Cynober

    En effet Fabien, je ne pense pas non plus que la notion de « données brutes » signifie une suppression de toutes les meta-données d’un texte. Le XHTML est une solution, le HTML4 ou 5 aussi. A partir du moment où un texte est riche pourquoi supprimer des élements qui apportent du sens aux lecteurs (mise en page) et aux machines (microformats, RDFa).

    Pour ce qui est de ton exemple de traduction de textes japonais ou arabes, la traduction produit déjà en elle même une perte de sens (où en tout cas une légère transformation). Après la nature d’une visualisation c’est justement d’apporter son propre sens, sa propre subjectivité. Mais là c’est un point de vu très personnel.

  8. Fabien Calais

    le web de données n’apparait possible qu’avec une forte structuration des données et donc un enrigissement des datas en metadonnées.

    malheuresement cela nest possible que pour une partie des datas.
    en effet, aujourd’hui de plus en plus d’informations sont créés par des gens qui n’ont ni le souci ni la possibilité de renseigner et/ou structurer leurs informations.

    c’est la tendance lourde des CMS (Gestion de contenus) et c’est souvent dans ces datas que reside les réelles plus values en terme d’informations.

    Il existe un gouffre entre les possibilités d’exploitation d’une documentation de l’industrie aéraunotique et celles offertes par exemple par les enquêtes journalistiques,tests d’utilisateurs, ou autres.

    Les moteurs de recherche à la google ont encore de beaux jours devant eux !

  9. Nicolas Cynober

    Yep, on ne peut plus d’accord.

    Ce n’est pas aux utilisateurs de structurer les données qu’ils produisent. Et je ne pense pas non plus qu’une structuration automatique soit un argument marketing pour utiliser tel ou tel service. Structurer pour structurer, à quoi bon ?

    Le fait est qu’il est aujourd’hui possible de créer de la valeur et proposer de vrais bénéfices à ses clients / utilisateurs en ayant sous le capot des technologies du web sémantique. Mais encore une fois, cela ne doit pas être l’argument marketing premier (cf. Twine).

    Pour ce qui est des moteurs de recherche, c’est un autre sujet ;)

  10. Killy Ek'Fael

    La question de la visualisation des données pose aussi celle des aptitudes à les lires. Je pense à un article de la revue « Reseaux » que j’ai lu à ma bibliotèque universitaire. Tout particulièrement l’article « Représentations visuelles alternatives pour les réseaux sociaux » du numéro http://www.cairn.info/revue-reseaux-2008-6-p-59.htm

  11. Jon Kofa

    Thanks for the articles!

11 Trackbacks For This Post

  1. Tweets that mention Navigation dans le web des données (partie 1) | ReadWriteWeb France -- Topsy.com :

    [...] This post was mentioned on Twitter by Pierre-E. Daviet, Nicolas Cynober. Nicolas Cynober said: Navigation dans le web des données (partie 1): http://bit.ly/1fuVZT Partie 2 la semaine prochaine. Thx @Straubiz et @davidby. [...]

  2. Philippe Scoffoni (pscoffoni) 's status on Thursday, 22-Oct-09 22:25:06 UTC - Identi.ca :

    [...] http://fr.readwriteweb.com/2009/10/22/analyse/navigation-dans-web-des-donnes-partie-1/ a few seconds ago from api [...]

  3. Darklg Web (darklgweb) 's status on Friday, 23-Oct-09 13:33:21 UTC - Identi.ca :

    [...] http://fr.readwriteweb.com/2009/10/22/analyse/navigation-dans-web-des-donnes-partie-1/ a few seconds ago from web [...]

  4. Netlex FOCUS » Blog Archive » Le web, nouveau paradigme du socialisme à l’ère numérique ? :

    [...] Navigation dans le web des données (partie 1) 22 octobre 2009 par Nicolas Cynober, Read Write Web [...]

  5. Navigations | Le web et moi... Le blog d'Arnaud Vallière :

    [...] passionnants à propos du "web des données" sont parus dans ReadWriteWeb. Le premier récapitule les différentes manières ne naviguer sur internet : sites statiques [...]

  6. Navigation dans le web des données (partie 2) | ReadWriteWeb France :

    [...] clés de la partie 1. Nous assistons aujourd'hui à une augmentation des contenus échangés mais aussi à une [...]

  7. Connaissez vous des viewers ? :

    [...] me suis intéressé dernièrement à la problématique de la visualisation de données, sujet relativement proche du web sémantique (tout du moins dans sa dimension web des données). [...]

  8. XBRL pour l’échange de données financières | BorisSchapira.com :

    [...] d’en accélérer et faciliter l’analyse. Cette problématique, inhérente au Web des Données dont on parle depuis plusieurs années (plus souvent sous le nom Web Sémantique), est toujours la [...]

  9. SMOB: du micro-blogging pour le web des données :

    [...] Je dirai aussi qu’il peut être utilisé par des gens pour qui le web sémantique n’est pas une fin en soi mais un moyen élégant de rendre ses données interopérables et ouvertes. Ils peuvent très bien utiliser SMOB dans ce but puisque tout contenu publié avec SMOB reste sur le ‘hub’ de l’utilisateur, ouvertement accessible via les standards du web sémantique. Plus d’utilisateurs de ce genre serait une bonne chose pour SMOB, notamment pour leurs besoins en termes de plug-ins de visualisation. [...]

  10. 2 standards qui me manquent :

    [...] Je ne vais pas revenir sur les concepts derrière dataviewer. Mais c’est décidément une problématique que l’on rencontre et que l’on rencontrera de plus en plus. Multiplication des terminaux dans un web de donnée, bla, bla, bla, vous pouvez toujours relire l’article [...]

  11. Dataveyes : visualisations interactives de données :

    [...] effectué un plongé dans ce monde passionnant en essayant de répondre à cette question simple: Comment naviguer dans un web de données? Ma conclusion était la suivante : “c’est la visualisation de données qui permettra [...]

  • A propos
  • Best of
  • Buzzing
  • Tags

ReadWriteWeb est un blog dédié aux technologies internet qui en couvre l’actualité et se distingue par ses notes d’analyse et de prospective ainsi que par l’accent mis sur les usages et leurs impacts sur les média, la communication et la société. Il est classé parmi les blogs les plus influents de la planète par Technorati et Wikio. Publié en cinq langues, il s'appuie sur un réseau de correspondants locaux en Nouvelle-Zélande, aux Etats-Unis, en France, en Espagne, au Brésil, en Chine ainsi qu'en Afrique francophone. Ses articles sont publiés dans la rubrique technologie du New York Times.


Partenaires

hébergement infogérance Bearstech
ATLN Association Tunisienne pour les Libertés Numériques

af83



Tunisie média

Appli iPhone


 

Recommandés



Activité sur le site