Depuis peu, on trouve de curieuses réponses dans les résultats de recherche de Google, notamment quand on l’interroge sur des dates de naissances ou les liens familiaux. Google répond désormais à la question posé plutôt que de pointer vers des pages contenant éventuellement une réponse. Pour l’instant, cela fonctionne avec l’anglais, et, dans une moindre mesure, avec le Français (c’est nettement moins impressionnant avec le Français, il faut le reconnaître).

Quel est le nom de la femme de Johnny Hallyday ? Quel est la capitale de la France ? Désormais, ces questions posées à Google obtiennent une réponse simple, articulée dans le classique ‘sujet-prédicat-objet’ (le célèbre ‘triplet’ du web sémantique), le tout accompagné de la source justifiant la réponse. Bien sûr, le tout est suivit des traditionnels résultats de recherche propres à Google.


Les informations ne sont pas structurées de la sorte sur le web, en particulier dans les sources qu’utilise Google pour justifier ses réponses, celui-ci semble analyser des données semi structurées, voir pas structurées du tout. C’est une fonctionnalité qui a coûté 100 millions de dollars à Microsoft et qui à justifié le rachat l’an dernier de Powerset, qui, rappelons-le, n’est capable de tels résultats que sur un corpus réduit (Wikipedia en l’occurrence), en en aucun cas sur l’ensemble du web (ou en tout cas sur une large palette de sources) comme semble le faire Google.
Il est clair que Google expérimente de tels analyses sémantiques sur des données non structurés depuis déjà pas mal de temps, mais à notre connaissance, c’est la première fois que cette capacité est ainsi exposée au public. (un programme de Google appelé “Direct Answers” explore l’analyse sémantique de données non structurés depuis quelques années, mais il n’était pas accessible au public).
La fonctionnalité n’est pas accessible en permanence et sur tous les territoires, il nous a fallu, en France, passer par un proxy anonyme américain pour y avoir accès. Il n’est par ailleurs pas évident que cette fonctionnalité soit accessible à des tiers, mais cela ne semble pas impossible à faire, même si – et c’est fort dommage – les données fournies par Google ne sont pas structurées en RDF au sein du HTML des résultats de Google.
Google structure-t-il les données non structurées ?
Bruno Haid, de la startup sémantique Australienne System One qui nous a fourni cette information, l’a commenté de la façon suivante :
“Ce qui est intéressant c’est que, bien que les données concernant la mère de Justin Timberlake, parmi d’autres, soient issues de http://www.celebritywonder.com/html/justintimberlake.html, il n’y a aucune donnée structurée de façon sémantique qui permet d’identifier Lynne comme étant la mère de Britney Spears. Donc soit Google utilise une source d’information structurée qu’il ne révèle pas dans ses résultats, soit ils arrivent réellement à extraire cette information du texte non structuré qu’ils affichent comme source (http://ububu.com/BritneySpears.html). Si c’est la cas, c’est énorme.
Toute la question est là. Conclure que Google fait de l’analyse sémantique simplement parce qu’ils affichent des résultats sous la forme “sujet-prédicat-objet” serait aller un peu vite en besogne, mais si cette structure résulte d’une analyse automatique de la part de Google, et qu’ils s’avéraient capable de structurer sémantiquement des données non structurées, qui n’existent nulle part sous une forme structurée sémantiquement, alors on pourrait conclure que Google est capable de faire cela. Et cela semble bien être le cas.
Pourquoi est-ce important ?
Comme nous avons désormais coutume de le dire au sujet du web sémantique, une fois que la machine sera capable d’extraire du savoir d’une page web à notre place, une large partie du travail des ‘knowledge worker’ sera déjà réalisé par la machine, donnant aux humains la possibilité d’aller bien plus loin encore, les gain de productivité de tous ceux qui travaillent quotidiennement avec comme matière première de l’information seraient phénoménaux.

Certes, pour l’instant, les réponses ne sont pas toujours très pertinentes, et tout cela n’est qu’un début. Quand on demande la date de naissance de Jésus, le résultat est plutôt surprenant, et la date de naissance de Laeticia Hallyday, à en croire Google (voir copie d’écran au début de l’article), mènerait notre Johnny national tout droit en prison si elle était exacte. Yahoo, de son coté, a exposé une vision bien plus claire sur ses intentions face au web sémantique, mais malgré tout, Google semble faire quelque chose que personne jusqu’ici n’a réussi a faire. Encore une fois, la création de valeur qu’apporterait une telle technologie, une fois mature, est tout simplement phénoménale.
A lire également :
- Ce que Google donne, Google peut le reprendre ou la fermeture de Google Video, Notebook, Catalog Search, Jaiku et Dodgeball Un certain nombre de services Google ont annoncé mercredi leur fermeture imminente. L’équipe de Google Video a notamment informé ses utilisateurs de la fin des uploads, prévue dans quelques mois. L’équipe de Google Notebook officialise pour sa part l’arrêt de tout forme de développement (le service restera néamoins actif). Jaiku passera...
- Cognition lance la “plus grande carte sémantique au monde” Cognition Technologies, une société du web sémantique spécialisée dans les moteurs de recherche en langage naturel (Natural Language Processing, NLP) annonce aujourd’hui la sortie de ce qu’elle revendique comme la plus grande carte sémantique de la langue anglaise. En tant que fan de tout ce qui touche au web sémantique,...
- SematicProxy : le signal de départ du web sémantique ? Malgré son immense potentiel, le web sémantique n’a pas pour l’instant donné grand chose. L’une des raisons au problème, à en croire Thomson Reuters, est que les développeurs n’ajouterons pas de fonctions sémantiques à leurs produits tant que les éditeurs de contenus ne publieront pas de données sémantiques. Une affaire...
- Avec Chrome, Google s’attaque à Explorer, Firefox… et Windows ? C’est LA nouvelle du jour, du mois, et peut être même de l’année, et si Google réussi ce coup là, c’est un évènement d’importance dans l’histoire de l’informatique (et pas seulement de l’internet). Aujourd’hui (dans les heures qui viennent, au moment où j’écris ces lignes), Google devrait sortir Chrome, un...
- Google Flu trends : un apercu du futur de Google ? Il semblerait qu’il y ait un lien entre la grippe et le taux de recherche sur le thème de la grippe chez Google. C’est en tout cas ce que le moteur de recherche tente de prouver en proposant Google Flu Trends. Basé sur la comparaison entre les statistiques des personnes touchées...
- 11 mises au point à propos du web sémantique 1. Inutile de s’excuser de l’appeler Web 3.0. Bien sûr, le web ne se met pas à jour à la façon d’une entreprise qui passerait sous Vista, mais il y a une claire transition par rapport aux technologies en usage aujourd’hui. Pour faire simple, on pourrait dire que le Web...
- Google passe à la vitesse HTML 5 Le futur se prépare aujourd’hui. Google est bien placé pour le savoir et s’en va déjà essuyer les plâtres de ce que sera le web de 2010, en présentant dès à présent des fonctionnalités qui seront notre quotidien d’ici quelques années, et qui utiliseront la technologie en cours de développement...








07 janvier 2009 à 15:21
La date indiquée pour Laetica Hallyday c’est la date de leur mariage. Donc c’est pas une fausse réponse ;)
Impressionnant ces modifications de Google en tout cas.
07 janvier 2009 à 15:23
@Bactéries bien vu… décidément, il est fort ce Google…
07 janvier 2009 à 15:41
“quelle est le meilleur blogueur de France ?”
Je pensais voir ton nom … !
07 janvier 2009 à 15:45
@guim vil flatteur :) T’es dans le top10 français, toi ;)
07 janvier 2009 à 20:57
Trop fou ce truc ! Tout le monde va se battre pour acheter son set “question-réponse” !! Genre : qui fait les meilleurs sandwichs du monde ? Réponse : Mac donald’s, etc en liens sponsorisés ou en référencement sémantique naturel…Cela ouvre tout simplement de nouvelles voies au web !
07 janvier 2009 à 20:58
En tous cas “Qui est le moins cher ?” C’est pris !
07 janvier 2009 à 23:37
“Donc soit Google utilise une source d’information structurée qu’il ne révèle pas dans ses résultats…”
Probablement Freebase, base de données de faits alimentées par les utilisateurs. Par exemple les données relatives à Bryteny Spears : http://www.freebase.com/view/en/britney_spears
08 janvier 2009 à 10:58
@lovny
Attention, attention, à mon avis cette approche est très risquée dans le monde dans lequel nous vivons aujourd’hui. Jusqu’à présent Google proposait une liste de réponses, contenant parfois plusieurs millions de résultat. La position de Google était clair: “voila tous les points de vu, toutes les sources d’infomation, triée par notre algorithme”. Le fait de mettre en avant une seule réponse, c’est mettre en avant un seul point de vu, une seule vérité. Nous savons déjà que les utilisateurs de Google ne consulte que les premiers résultats d’une recherche. Cette nouvelle fonctionnalité à mon sens drive encore plus les internaute vers “le monde selon Google”. C’est une machine qui décide pour vous, c’est une machine qui vous donne son point de vu.
Ce qui m’effraie un peu ce n’est pas que les données soient structurées ou non, mais que leur interprétation est faite par Google et lui seul (à défaut d’avoir des ontologies liées aux données qu’il exploite).
@Denis
Personnellement je préférerais que ces données soient extraites de DBPedia: http://dbpedia.org/page/Britney_Spears. L’information y est mieux structurée et fait partie du projet LinkedData (http://linkeddata.org).
@Fabrice
Super article. C’est une excellente nouvelle. J’attendais depuis longtemps un mouvement de Google, j’espère qu’ils feront le choix de la standardisation. Il y a de nombreuses façon de faire du web sémantique, j’espère que la voie du W3C sera choisie. Malheureusement les moteurs de recherche leader n’ont pas forcément intérêt à pousser à une standardisation. Car l’émergence de données structurées et d’ontologies spécialisées pourrait précipiter l’émergence de moteurs de recherches spécialisés avec des capacités d’analyse, de synthèse et de présentation des résultats bien supérieurs à celle de Google, limité à diffuser de l’information généraliste.
D’ailleurs le même constat s’applique très bien aux communautés et aux réseaux sociaux. A terme, le web sémantique et l’ouverture des données ne fera que du bien à Facebook.
Un sujet passionnant, et on sent l’article de passionné.
08 janvier 2009 à 11:10
Dans ma dernière phrase il fallait bien entendu comprendre “pas que du bien à Facebook”. Voir mon article sur la verticalisation des SNS: http://nicolas.cynober.fr/blog/53,la-verticalisation-geographique-des-sns.html qui s’accélérerait avec une migration facilitée des comptes utilisateurs grâce au web sémantique.
08 janvier 2009 à 14:10
Intéressant, j’ai essayé aussi les phrases suivantes:
Quelle est la langue officielle en France?
Quelle est la langue officielle en Belgique?
Quelle est la langue officielle en Roumanie?
Aucun problème, bonne réponse et puis j’ai essayé:
Quelle est la langue officielle au Canada?
Là échec…
J’ai fait une petite reformulation:
Quelle est la langue officielle du Canada?
Bonne réponse cette fois.
Plus surprenant:
Quelle est la langue officielle en Canada?
marche aussi…
Donc, il semblerait qu’il y ait une vraie analyse linguistique en arrière-plan, malheureusement incomplète…
08 janvier 2009 à 14:43
il semble que google utilise uniquement les données de wikipedia (cf. commentaire#44 de article version anglaise / pense aussi cela http://www.readwriteweb.com/archives/google_semantic_data.php)
pour les pays, dans wikipedia il y a un encart à droite de la page présentant des informations un peu structurées (info media)
on y trouve la capitale, la plus grande ville, le président, …, la gentilé, ..idh, … le fuseau horaire
et google répond “sémantiquement”
si on lui pose la question avec l’une de ces infos
http://www.google.fr/search?hl=fr&q=plus+grande+ville+france
http://www.google.fr/search?hl=fr&q=gentil%C3%A9+france
http://www.google.fr/search?hl=fr&q=idh+france
…
idem pour johnny
http://www.google.fr/search?hl=fr&q=naissance+johnny+hallyday
on regarde dans sa fiche wikipedia dans l’encart
si je pose la question en anglais
http://www.google.com/search?hl=en&q=prime+minister+france
ou en français http://www.google.fr/search?hl=fr&q=premier+ministre+france
le according to (selon) n’est pas le même …
à mon avis les according viennent tous de wikipedia … c’est juste pour embrouiller tout le monde ;-)
google remonte plus finement les infos de wikipedia … c’est tout
08 janvier 2009 à 16:32
je l’avais remarqué y a quelques jours quand j’ai recherché la superficie de la France.
la requete que j’avais faites : densité france
la 1ere réponse : France — Superficie — Totale: 675 417 km2
08 janvier 2009 à 16:34
pardon la requete c’etait superficie france
et la réponse etait bonne.
densité france ne fonctionne pas, mais densité suisse oui
08 janvier 2009 à 17:00
@albertine De toutes évidence, d’autres sources sont utilisées, témoin l’erreur faite sur le président de la Suisse : Wikipedia ne comporte pas d’erreur, le CIA World Factbook, lui, contient l’erreur…
08 janvier 2009 à 18:29
@fabrice … ah oui peut être bien que il y a d’autres sources…hummm … je ne suis pas convaincue
j’avoue que je ne sais plus que croire. si on focalise sur la suisse, c’est y pas possible que j’arrive pas à savoir qui est le président …
Mais qui est donc le president de la suisse ?
en anglais cela donne cela
http://www.google.com/search?hl=en&q=president+swiss
en français cela donne cela
http://www.google.fr/search?hl=fr&q=président+suisse
oh zut c’est pas le même en français et en anglais
et en plus en français la source déclarée de la réponse “sémantisée” est wikipedia mais le président proposé dans wikipedia n’est pas le même président que dans la réponse “sémantisée” affichée par google
car si je regarde wikipedia, http://fr.wikipedia.org/wiki/Suisse , j’ai un autre président encore.
comme je ne suis pas spécialiste de la suisse, je ne m’avancerais pas … mais google n’afficherait pas une erreur quelque part ?
ou dans le nom du président, ou dans le nom de la source, …
une erreur si haut dans sa page… google n’est pourtant pas en beta ;-) à moins que cela soit à cause du fromage
09 janvier 2009 à 12:08
@albertine et @Fabrice, la Suisse change de président chaque année, c’est une rotation annuel entre les membres du gouvernement appellé Conseil Fédéral. Le président n’a aucun pouvoir important. En l’occurence les réponses données par Google tirées de Wikipedia ou la CIA sont fausses en 2009. Mais elle était juste en 2007 et 2008 respectivement. La bonne réponse ne se trouve pas sur Google mais sur la page Wikipedia sur la Suisse. Mais on les excusera, très peu de suisse eux-même savent qui est le président en exercice dans une année donnée…
De toute façon, l’exemple Suisse n’est pas très important en soi. Mais il illustre un point beaucoup plus important: on ne peut pas faire confiance à une source unique pour répondre à une question. Hors si l’approche sémantique de Google est de ne donner qu’une réponse à une question, il se pose en “champion” de la connaissance.
Ce qui m’inquiète plus avec ce type d’approche, c’est qu’une question ne peut jamais appelé à une seule réponse. Il y a des différences de perspectives, d’opinions, etc. Une réponse n’est qu’une des représentations possible de la réalité dans un des contextes possibles de cette même réalité. Pour prendre un exemple brulant de l’actualité: comment donner une seule réponse synthétique à la question “qui a commencé la guerre à Gaza?”. Impossible.
Seul l’homme peut réellement tirer la richesse des informations, en tirer des conclusions non-triviales, en extraire des interprétations nouvelles, montrer des nuances, etc. La machine ne peut qu’organiser l’information au mieux et les technologies sémantiques amélioreront cette organisation.
13 janvier 2009 à 18:03
Ca va devenir de plus en plus précis les recherches.
Ce qu’il faut savoir si les réponses soient bonnes
29 mai 2009 à 4:05
bonsoir, apparemment Google est en phase de développement, mais se qu’est sert c’est que les résultats sont bien propre a Wikipedia.
pour la notion de la semantique c t une question de temps pour google.
16 janvier 2010 à 18:12
Ca ressemble pas mal à Wolfram Alpha. Mais ceux-ci ne sont-ils pas maqués avec Bing ?
Par ailleurs, ça ressemble plutôt à l’interrogation d’une base de données structurées classique. Toute la question est de savoir comment cette base est remplie: à la main, fusion de bases existantes, ou automatiquemnt à partir d’analyses de documents.
Enfin, ce qui est amusant, c’est que Tim Berners Lee ne croit plus au Web Sémantique, mais dit que c’est un Web de Données …
A ce sujet, voir:
http://plexus-logos-calx.blogspot.com/2009/11/a0032.html
De toutes façons, le destin du Web Sémantique est évidemment entre les mains de Google.
16 janvier 2010 à 22:01
Derrière Bing c’est d’abord PowerSet, un moteur de recherche sémantique lui aussi, mais oui, ils ont fait un partenariat avec Wolfram Alpha dans le but de proposer des fonctionnalités similaires…
http://www.readwriteweb.com/archives/bing_teams_up_with_wolfram_alpha.php
Si vous vous intéressez à Wolfram Alpha, je vous conseille les nombreux billets que Richard MacManus, Frédéric Lardinois et Alex Iskold ont écrit dessus sur RWW US et que l’on a pas eu le temps de traduire :-)
http://www.readwriteweb.com/archives/hands-on_with_wolfram_alpha.php
http://www.readwriteweb.com/archives/wolframalpha_our_first_impressions.php
http://www.readwriteweb.com/archives/see_wolfram_alpha_in_action_-_video_and_screenshots.php
http://www.readwriteweb.com/archives/does_microsoft_powerset_beat_google.php
http://www.readwriteweb.com/archives/redux_wolframalpha_the_use_cases.php
http://www.readwriteweb.com/archives/wolframalpha_the_use_cases.php