Le Web des Données : Rendre l’information compréhensible par des machines

Dans les prochaines années, nous serons témoin d’une révolution dans la capacité des machines à accéder, retraiter et utiliser l’information. Cette révolution sera due essentiellement à 3 tendances liées au Web Sémantique : le Web des Données, le Web des Services et le Web des Identités. Ces Webs ont pour objectif de rendre disponibles, accessibles et utilisables le savoir sémantique concernant des données, les services sémantiques, et le savoir sémantique concernant des individus. Dans cet article, nous allons explorer le premier des ces 3 Webs, le Web des Données, et voir comment rendre l’information accessible par des machines transformera la manière de trouver l’information.

La quantité d’informations et de services disponibles croit de manière exponentielle. Chaque jour, il devient de plus en plus difficile de trouver l’information que nous essayons de chercher. Le problème est que nous devons apprendre à dire aux machines ce que nous voulons. Pourquoi une machine ne peut pas comprendre quel site, quel tweet récent, quelle photo sur Flickr, quel message sur Facebook, ou quel restaurant nous cherchons sur Internet?

Parce qu’elle ne peut pas. Elle ne le comprend pas et ne pas accéder à la plupart des sources. Il lui manque la compréhension sémantique et le sens commun pour construire des ponts entre l’information.

Il est essentiel que les machines accèdent à un niveau supérieur de compréhension. Au lieu de faire des analyses statistiques sur  la concordance entre une recherche et un document, une machine doit littéralement être capable de comprendre. C’est pourquoi, des bases de données du savoir sont nécessaires pour s’assurer que nous parlons bien la même entité. Des exemples de ces bases de données sont :

  • Une encyclopédie contenant du savoir permettant de comprendre le sens et le contexte sémantique d’un terme en particulier. Par exemple, comprendre que Berlin est une ville, combien de personnes vivent dedans, et où elle est située.
  • Les pages jaunes ou un ensemble de services pour obtenir des informations plus complexes qui changent régulièrement. Par exemple, la route entre Berlin et Porto en voiture, la température actuelle de Porto en degré Celsius.
  • Une base de donnée des personnes pour avoir accès, avec un jeu de règles de permissions, aux informations d’une personne qui pourrait permettre d’améliorer les systèmes de personnalisation et de recommandation.

Le Web de Données

L’idée du Web de Données tire son origine du Web sémantique. Des gens cherchaient à résoudre le problème de l’incapacité inhérente aux machines de comprendre une page web. Au début, le but du Web sémantique était d’annoter de manière invisible les pages web avec un ensemble de méta attributs et catégories pour permettre aux machines d’interpréter du texte et de le mettre en contexte. Cette approche n’a pas fonctionné parce qu’elle était trop compliquée à mettre en œuvre par les personnes sans savoir technique.  Des approches similaires, comme les microformats, simplifient le processus de balisage et permettent de s’en sortir avec ce problème.

Ces approches ont en commun l’effort d’améliorer l’accessibilité des machines au savoir contenu dans des pages webs qui ont été conçues pour être consultées par des hommes. D’autre part, ces sites contiennent beaucoup d’informations qui ne sont pas pertinentes pour les machines et qui doivent être filtrées. Ce dont on a besoin est une base de données faite pour être consultable par des machines, c’est-à-dire dépouillée d’informations non pertinentes. Mais attention ! Qui a dit que les machines et nous les humains devions partager un seul web ?

L’idée du Web des Données est donc apparue pour contourner les problèmes dus à cette limitation et à l’existence de bases de données structurées colossales réparties dans le monde entier et contenant tous types d’information. Ces données sont la propriété d’entreprises qui les ouvrent de plus en plus. Généralement, une base données contient des informations a propos d’un domaine en particulier, comme les livres, la musique, les données encyclopédiques, les entreprises etc… Si ces données étaient interconnectées (c’est-à-dire pointeraient entre elles comme les sites internet le font), une machine pourrait circuler dans ce web de données « sans bruit » et d’informations structurées pour réunir du savoir sémantique concernant n’importe quel entité ou domaine. Le résultat d’une telle approche pourrait être une base de données gigantesque, totalement gratuite, qui pourrait être les fondements d’une nouvelle génération d’applications et de services.

Lier des données ouvertes

Le projet Linking Open Data(LOD ou Liaison de Données Ouvertes) soutenu ar le W3C est une approche prometteuse. L’image au-dessus illustre l’ensemble des bases de données participant au projet. Les jeux de données sont fait de manière à réutiliser des ontologies existantes telles que WordNet, FOAF, et SKOS et à les interconnecter.

Les jeux de données offrent toutes un accès leur base de données et pointent vers des entrées contenues dans d’autres jeux de données. Le projet suit les principes élémentaires qui régissent le World Wide Web : simplicité, tolérance, conception modulaire et décentralisation. Le projet LOD comporte aujourd’hui plus de 2 milliards de triplets RDF, ce qui représente beaucoup d’information (un triplet est une brique d’information constituée d’un sujet, d’un prédicat et d’un objet  et qui permet de représenter les propriétés d’un objet ou ses relations avec d’autres sujets). De plus, le nombre de jeux de données participant au projet croit très vite. On peut accéder aux jeux de données par différents moyens : par exemple, via un navigateur internet sémantique, ou en étant indexés par des moteurs de recherche sémantiques.

Pour avoir un bref aperçu du Web de Data, vous pouvez cliquer sur les liens suivants :

Avec toutes les données présentes sur le Web des Données, un savoir qui va du très général au très spécifique est accessible aux machines qui permettra l’avènement d’une nouvelle génération de services. Des requêtes très sophistiquées deviendront compréhensibles par des machines et accessibles à la prochaine génération de moteurs de recherche.

Regardez la vidéo de Tim Berners-Lee lors d’une conférence TED sur le Web des Données. Qu’en pensez-vous ? Vous aussi avez-vous le sentiment d’être noyé par l’information ?

A lire également :

  1. Le Web des Identités : Permettre aux machines d’accéder à vos données ...
  2. Innovation sur le web : le web des données ...
  3. Navigation dans le web des données (partie 1) ...
  4. Navigation dans le web des données (partie 2) ...
  5. Le journalisme de données, les données ouvertes, et la dictature de la transparence ...
  6. Après Google, AOL cherche a rendre le RSS et le lifestream grand public ...
  7. Des données et des liens : le début de quelque chose de grand ...

1 commentaires pour cet article

  1. Dominique Rabeuf

    La pre­mière étape consiste à dépo­ser les don­nées dans un for­mat mani­pu­lable. Les don­nées seront enre­gis­trées sous dif­fé­rents dia­lectes d’un même méta lan­gage: XML. Bienvenue dans le monde XML. Il y a un petit bout de che­min à faire avant d’adopter les bonnes manières de ran­ger les don­nées. Certains ne semblent pas vou­loir aller dans cette direc­tion. Nous sou­hai­tons ici en France bonne chance à la bande de têtes à claques dépen­sières dont le chef de file tech­no­lo­gique est sainte Nathalie secré­taire du Numérique. Après les résul­tats catas­tro­phiques décou­verts dans les boîtes à gants de la République Nucléaire nous allons accom­pa­gner en sou­te­nant Le Grand Emprunt National de la Relance Sociale.
    Ici en France, chez mon­sieur Bananes et Douche de Luxe [Douche pas Poule]
    Nous allons rendre com­pré­hen­sibles les machines qui hantent les cer­veaux ima­gi­na­tifs des infor­ma­teurs com­mu­ni­cants sans tou­te­fois vio­ler les secrets des Défenses Immunitaires de nos Têtes à Claques préférées.

    Il ne faut pas prendre les canards sau­vages de la toile pour des enfants de Marie Salope Hadopi Pinocchio.

3 Trackbacks For This Post

  1. Tweets that mention Le Web des Données : Rendre l’information compréhensible par des machines | ReadWriteWeb France -- Topsy.com :

    […] This post was men­tio­ned on Twitter by busi­nessquests, Ecriture Web. Ecriture Web said: #ReadWriteWeb Le Web des Données : Rendre l’information com­pré­hen­sible par des machines http://bit.ly/1nnCQc […]

  2. Tweets that mention Le Web des Données : Rendre l’information compréhensible par des machines | ReadWriteWeb France -- Topsy.com :

    […] This post was men­tio­ned on Twitter by Cyroul. Cyroul said: #data­web RT @epelboin: Le Web des Données : Rendre l’information com­pré­hen­sible par des machines http://bit.ly/4BIcHJ […]

  3. Le blog d'Arnaud Vallière Navigations :

    […] le second article indique que les don­nées doivent être struc­tu­rées de manière […]

Réagissez !

Ils nous soutiennent

feedback2.0

hébergement infogérance BearstechLa Cantine

 

  • A propos
  • Best of
  • Buzzing
  • Tags

ReadWriteWeb est un blog dédié aux technologies internet qui en couvre l’actualité et se distingue par ses notes d’analyse et de prospective ainsi que par l’accent mis sur les usages et leur impact sur les média, la société et la communication.

ReadWriteWeb est classé parmi les blogs les plus influents de la planète par Technorati et Wikio.

ReadWriteWeb est publié en anglais, en français, en coréen, en portugais et en chinois. Ses articles sont publiés dans la rubrique technologie du New York Times.


eBooks

Lawrence Lessig
Culture Libre



Pierre Bellanger
La Radio IP



Nous y serons