Dans les prochaines années, nous serons témoin d’une révolution dans la capacité des machines à accéder, retraiter et utiliser l’information. Cette révolution sera due essentiellement à 3 tendances liées au Web Sémantique : le Web des Données, le Web des Services et le Web des Identités. Ces Webs ont pour objectif de rendre disponibles, accessibles et utilisables le savoir sémantique concernant des données, les services sémantiques, et le savoir sémantique concernant des individus. Dans cet article, nous allons explorer le premier des ces 3 Webs, le Web des Données, et voir comment rendre l’information accessible par des machines transformera la manière de trouver l’information.
La quantité d’informations et de services disponibles croit de manière exponentielle. Chaque jour, il devient de plus en plus difficile de trouver l’information que nous essayons de chercher. Le problème est que nous devons apprendre à dire aux machines ce que nous voulons. Pourquoi une machine ne peut pas comprendre quel site, quel tweet récent, quelle photo sur Flickr, quel message sur Facebook, ou quel restaurant nous cherchons sur Internet?
Parce qu’elle ne peut pas. Elle ne le comprend pas et ne pas accéder à la plupart des sources. Il lui manque la compréhension sémantique et le sens commun pour construire des ponts entre l’information.
Il est essentiel que les machines accèdent à un niveau supérieur de compréhension. Au lieu de faire des analyses statistiques sur la concordance entre une recherche et un document, une machine doit littéralement être capable de comprendre. C’est pourquoi, des bases de données du savoir sont nécessaires pour s’assurer que nous parlons bien la même entité. Des exemples de ces bases de données sont :
- Une encyclopédie contenant du savoir permettant de comprendre le sens et le contexte sémantique d’un terme en particulier. Par exemple, comprendre que Berlin est une ville, combien de personnes vivent dedans, et où elle est située.
- Les pages jaunes ou un ensemble de services pour obtenir des informations plus complexes qui changent régulièrement. Par exemple, la route entre Berlin et Porto en voiture, la température actuelle de Porto en degré Celsius.
- Une base de donnée des personnes pour avoir accès, avec un jeu de règles de permissions, aux informations d’une personne qui pourrait permettre d’améliorer les systèmes de personnalisation et de recommandation.
Le Web de Données
L’idée du Web de Données tire son origine du Web sémantique. Des gens cherchaient à résoudre le problème de l’incapacité inhérente aux machines de comprendre une page web. Au début, le but du Web sémantique était d’annoter de manière invisible les pages web avec un ensemble de méta attributs et catégories pour permettre aux machines d’interpréter du texte et de le mettre en contexte. Cette approche n’a pas fonctionné parce qu’elle était trop compliquée à mettre en œuvre par les personnes sans savoir technique. Des approches similaires, comme les microformats, simplifient le processus de balisage et permettent de s’en sortir avec ce problème.
Ces approches ont en commun l’effort d’améliorer l’accessibilité des machines au savoir contenu dans des pages webs qui ont été conçues pour être consultées par des hommes. D’autre part, ces sites contiennent beaucoup d’informations qui ne sont pas pertinentes pour les machines et qui doivent être filtrées. Ce dont on a besoin est une base de données faite pour être consultable par des machines, c’est-à-dire dépouillée d’informations non pertinentes. Mais attention ! Qui a dit que les machines et nous les humains devions partager un seul web ?
L’idée du Web des Données est donc apparue pour contourner les problèmes dus à cette limitation et à l’existence de bases de données structurées colossales réparties dans le monde entier et contenant tous types d’information. Ces données sont la propriété d’entreprises qui les ouvrent de plus en plus. Généralement, une base données contient des informations a propos d’un domaine en particulier, comme les livres, la musique, les données encyclopédiques, les entreprises etc… Si ces données étaient interconnectées (c’est-à-dire pointeraient entre elles comme les sites internet le font), une machine pourrait circuler dans ce web de données « sans bruit » et d’informations structurées pour réunir du savoir sémantique concernant n’importe quel entité ou domaine. Le résultat d’une telle approche pourrait être une base de données gigantesque, totalement gratuite, qui pourrait être les fondements d’une nouvelle génération d’applications et de services.
Lier des données ouvertes
Le projet Linking Open Data(LOD ou Liaison de Données Ouvertes) soutenu ar le W3C est une approche prometteuse. L’image au-dessus illustre l’ensemble des bases de données participant au projet. Les jeux de données sont fait de manière à réutiliser des ontologies existantes telles que WordNet, FOAF, et SKOS et à les interconnecter.
Les jeux de données offrent toutes un accès leur base de données et pointent vers des entrées contenues dans d’autres jeux de données. Le projet suit les principes élémentaires qui régissent le World Wide Web : simplicité, tolérance, conception modulaire et décentralisation. Le projet LOD comporte aujourd’hui plus de 2 milliards de triplets RDF, ce qui représente beaucoup d’information (un triplet est une brique d’information constituée d’un sujet, d’un prédicat et d’un objet et qui permet de représenter les propriétés d’un objet ou ses relations avec d’autres sujets). De plus, le nombre de jeux de données participant au projet croit très vite. On peut accéder aux jeux de données par différents moyens : par exemple, via un navigateur internet sémantique, ou en étant indexés par des moteurs de recherche sémantiques.
Pour avoir un bref aperçu du Web de Data, vous pouvez cliquer sur les liens suivants :
- L’entreprise Yahoo sur CrunchBase,
- La ville de Berlin ou le jeu Tetris sur DBpedia,
- Le livre iPhone : Le manuel manquant sur O’Reilly Media
Avec toutes les données présentes sur le Web des Données, un savoir qui va du très général au très spécifique est accessible aux machines qui permettra l’avènement d’une nouvelle génération de services. Des requêtes très sophistiquées deviendront compréhensibles par des machines et accessibles à la prochaine génération de moteurs de recherche.
Regardez la vidéo de Tim Berners-Lee lors d’une conférence TED sur le Web des Données. Qu’en pensez-vous ? Vous aussi avez-vous le sentiment d’être noyé par l’information ?
A lire également :
- Le Web des Identités : Permettre aux machines d’accéder à vos données ...
- Innovation sur le web : le web des données ...
- Navigation dans le web des données (partie 1) ...
- Navigation dans le web des données (partie 2) ...
- Le journalisme de données, les données ouvertes, et la dictature de la transparence ...
- Après Google, AOL cherche a rendre le RSS et le lifestream grand public ...
- Des données et des liens : le début de quelque chose de grand ...











29 octobre 2009 à 9:27
La première étape consiste à déposer les données dans un format manipulable. Les données seront enregistrées sous différents dialectes d’un même méta langage: XML. Bienvenue dans le monde XML. Il y a un petit bout de chemin à faire avant d’adopter les bonnes manières de ranger les données. Certains ne semblent pas vouloir aller dans cette direction. Nous souhaitons ici en France bonne chance à la bande de têtes à claques dépensières dont le chef de file technologique est sainte Nathalie secrétaire du Numérique. Après les résultats catastrophiques découverts dans les boîtes à gants de la République Nucléaire nous allons accompagner en soutenant Le Grand Emprunt National de la Relance Sociale.
Ici en France, chez monsieur Bananes et Douche de Luxe [Douche pas Poule]
Nous allons rendre compréhensibles les machines qui hantent les cerveaux imaginatifs des informateurs communicants sans toutefois violer les secrets des Défenses Immunitaires de nos Têtes à Claques préférées.
Il ne faut pas prendre les canards sauvages de la toile pour des enfants de Marie Salope Hadopi Pinocchio.