Google se met-il au web sémantique ?

Depuis peu, on trouve de curieuses réponses dans les résultats de recherche de Google, notamment quand on l’interroge sur des dates de naissances ou les liens familiaux. Google répond désormais à la question posé plutôt que de pointer vers des pages contenant éventuellement une réponse. Pour l’instant, cela fonctionne avec l’anglais, et, dans une moindre mesure, avec le Français (c’est nettement moins impressionnant avec le Français, il faut le reconnaître).

google web sémantique

Quel est le nom de la femme de Johnny Hallyday ? Quel est la capitale de la France ? Désormais, ces questions posées à Google obtiennent une réponse simple, articulée dans le classique ‘sujet-prédicat-objet’ (le célèbre ‘triplet’ du web sémantique), le tout accompagné de la source justifiant la réponse. Bien sûr, le tout est suivit des traditionnels résultats de recherche propres à Google.

google web sémantique

google web sémantique

Les informations ne sont pas structurées de la sorte sur le web, en particulier dans les sources qu’utilise Google pour justifier ses réponses, celui-ci semble analyser des données semi structurées, voir pas structurées du tout. C’est une fonctionnalité qui a coûté 100 millions de dollars à Microsoft et qui à justifié le rachat l’an dernier de Powerset, qui, rappelons-le, n’est capable de tels résultats que sur un corpus réduit (Wikipedia en l’occurrence), en en aucun cas sur l’ensemble du web (ou en tout cas sur une large palette de sources) comme semble le faire Google.

Il est clair que Google expérimente de tels analyses sémantiques sur des données non structurés depuis déjà pas mal de temps, mais à notre connaissance, c’est la première fois que cette capacité est ainsi exposée au public. (un programme de Google appelé “Direct Answers” explore l’analyse sémantique de données non structurés depuis quelques années, mais il n’était pas accessible au public).

La fonctionnalité n’est pas accessible en permanence et sur tous les territoires, il nous a fallu, en France, passer par un proxy anonyme américain pour y avoir accès. Il n’est par ailleurs pas évident que cette fonctionnalité soit accessible à des tiers, mais cela ne semble pas impossible à faire, même si – et c’est fort dommage – les données fournies par Google ne sont pas structurées en RDF au sein du HTML des résultats de Google.

Google structure-t-il les données non structurées ?

Bruno Haid, de la startup sémantique Australienne System One qui nous a fourni cette information, l’a commenté de la façon suivante :

“Ce qui est intéressant c’est que, bien que les données concernant la mère de Justin Timberlake, parmi d’autres, soient issues de http://www.celebritywonder.com/html/justintimberlake.html, il n’y a aucune donnée structurée de façon sémantique qui permet d’identifier Lynne comme étant la mère de Britney Spears. Donc soit Google utilise une source d’information structurée qu’il ne révèle pas dans ses résultats, soit ils arrivent réellement à extraire cette information du texte non structuré qu’ils affichent comme source (http://ububu.com/BritneySpears.html). Si c’est la cas, c’est énorme.

Toute la question est là. Conclure que Google fait de l’analyse sémantique simplement parce qu’ils affichent des résultats sous la forme “sujet-prédicat-objet” serait aller un peu vite en besogne, mais si cette structure résulte d’une analyse automatique de la part de Google, et qu’ils s’avéraient capable de structurer sémantiquement des données non structurées, qui n’existent nulle part sous une forme structurée sémantiquement, alors on pourrait conclure que Google est capable de faire cela. Et cela semble bien être le cas.

Pourquoi est-ce important ?

Comme nous avons désormais coutume de le dire au sujet du web sémantique, une fois que la machine sera capable d’extraire du savoir d’une page web à notre place, une large partie du travail des ‘knowledge worker’ sera déjà réalisé par la machine, donnant aux humains la possibilité d’aller bien plus loin encore, les gain de productivité de tous ceux qui travaillent quotidiennement avec comme matière première de l’information seraient phénoménaux.

google web sémantique

Certes, pour l’instant, les réponses ne sont pas toujours très pertinentes, et tout cela n’est qu’un début. Quand on demande la date de naissance de Jésus, le résultat est plutôt surprenant, et la date de naissance de Laeticia Hallyday, à en croire Google (voir copie d’écran au début de l’article), mènerait notre Johnny national tout droit en prison si elle était exacte. Yahoo, de son coté, a exposé une vision bien plus claire sur ses intentions face au web sémantique, mais malgré tout, Google semble faire quelque chose que personne jusqu’ici n’a réussi a faire. Encore une fois, la création de valeur qu’apporterait une telle technologie, une fois mature, est tout simplement phénoménale.

A lire également :

  1. Ce que Google donne, Google peut le reprendre ou la fermeture de Google Video, Notebook, Catalog Search, Jaiku et Dodgeball Un cer­tain nombre de ser­vices Google ont annoncé mer­credi leur fer­me­ture immi­nente. L’équipe de Google Video a notam­ment informé ses uti­li­sa­teurs de la fin des uploads, pré­vue dans quelques mois. L’équipe de Google Notebook offi­cia­lise pour sa part l’arrêt de tout forme de déve­lop­pe­ment (le ser­vice res­tera néa­moins actif). Jaiku pas­sera...
  2. Cognition lance la “plus grande carte sémantique au monde” Cognition Technologies, une société du web séman­tique spé­cia­li­sée dans les moteurs de recherche en lan­gage natu­rel (Natural Language Processing, NLP) annonce aujourd’hui la sor­tie de ce qu’elle reven­dique comme la plus grande carte séman­tique de la langue anglaise. En tant que fan de tout ce qui touche au web séman­tique,...
  3. SematicProxy : le signal de départ du web sémantique ? Malgré son immense poten­tiel, le web séman­tique n’a pas pour l’instant donné grand chose. L’une des rai­sons au pro­blème, à en croire Thomson Reuters, est que les déve­lop­peurs n’ajouterons pas de fonc­tions séman­tiques à leurs pro­duits tant que les éditeurs de conte­nus ne publie­ront pas de don­nées séman­tiques. Une affaire...
  4. Avec Chrome, Google s’attaque à Explorer, Firefox… et Windows ? C’est LA nou­velle du jour, du mois, et peut être même de l’année, et si Google réussi ce coup là, c’est un évène­ment d’importance dans l’histoire de l’informatique (et pas seule­ment de l’internet). Aujourd’hui (dans les heures qui viennent, au moment où j’écris ces lignes), Google devrait sor­tir Chrome, un...
  5. Google Flu trends : un apercu du futur de Google ? Il sem­ble­rait qu’il y ait un lien entre la grippe et le taux de recherche sur le thème de la grippe chez Google. C’est en tout cas ce que le moteur de recherche tente de prou­ver en pro­po­sant Google Flu Trends. Basé sur la com­pa­rai­son entre les sta­tis­tiques des per­sonnes tou­chées...
  6. 11 mises au point à propos du web sémantique 1. Inutile de s’excuser de l’appeler Web 3.0. Bien sûr, le web ne se met pas à jour à la façon d’une entre­prise qui pas­se­rait sous Vista, mais il y a une claire tran­si­tion par rap­port aux tech­no­lo­gies en usage aujourd’hui. Pour faire simple, on pour­rait dire que le Web...
  7. Google passe à la vitesse HTML 5 Le futur se pré­pare aujourd’hui. Google est bien placé pour le savoir et s’en va déjà essuyer les plâtres de ce que sera le web de 2010, en pré­sen­tant dès à pré­sent des fonc­tion­na­li­tés qui seront notre quo­ti­dien d’ici quelques années, et qui uti­li­se­ront la tech­no­lo­gie en cours de déve­lop­pe­ment...

20 commentaires pour cet article

  1. Bacteries

    La date indiquée pour Laetica Hallyday c’est la date de leur mariage. Donc c’est pas une fausse réponse ;)

    Impressionnant ces modi­fi­ca­tions de Google en tout cas.

  2. Fabrice Epelboin

    @Bactéries bien vu… déci­dé­ment, il est fort ce Google…

  3. GuiM

    “quelle est le meilleur blo­gueur de France ?”
    Je pen­sais voir ton nom … !

  4. Fabrice Epelboin

    @guim vil flat­teur :) T’es dans le top10 français, toi ;)

  5. lovny

    Trop fou ce truc ! Tout le monde va se battre pour ache­ter son set “question-réponse” !! Genre : qui fait les meilleurs sand­wichs du monde ? Réponse : Mac donald’s, etc en liens spon­so­ri­sés ou en réfé­ren­ce­ment séman­tique naturel…Cela ouvre tout sim­ple­ment de nou­velles voies au web !

  6. lovny

    En tous cas “Qui est le moins cher ?” C’est pris !

  7. Denis

    “Donc soit Google uti­lise une source d’information struc­tu­rée qu’il ne révèle pas dans ses résultats…”

    Probablement Freebase, base de don­nées de faits ali­men­tées par les uti­li­sa­teurs. Par exemple les don­nées rela­tives à Bryteny Spears : http://www.freebase.com/view/en/britney_spears

  8. Nicolas Cynober

    @lovny
    Attention, atten­tion, à mon avis cette approche est très risquée dans le monde dans lequel nous vivons aujourd’hui. Jusqu’à pré­sent Google pro­po­sait une liste de réponses, conte­nant par­fois plu­sieurs mil­lions de résul­tat. La posi­tion de Google était clair: “voila tous les points de vu, toutes les sources d’infomation, triée par notre algo­rithme”. Le fait de mettre en avant une seule réponse, c’est mettre en avant un seul point de vu, une seule vérité. Nous savons déjà que les uti­li­sa­teurs de Google ne consulte que les pre­miers résul­tats d’une recherche. Cette nou­velle fonc­tion­na­lité à mon sens drive encore plus les inter­naute vers “le monde selon Google”. C’est une machine qui décide pour vous, c’est une machine qui vous donne son point de vu.
    Ce qui m’effraie un peu ce n’est pas que les don­nées soient struc­tu­rées ou non, mais que leur inter­pré­ta­tion est faite par Google et lui seul (à défaut d’avoir des onto­lo­gies liées aux don­nées qu’il exploite). 

    @Denis
    Personnellement je pré­fé­re­rais que ces don­nées soient extraites de DBPedia: http://dbpedia.org/page/Britney_Spears. L’information y est mieux struc­tu­rée et fait par­tie du projet LinkedData (http://linkeddata.org).

    @Fabrice
    Super article. C’est une excel­lente nou­velle. J’attendais depuis long­temps un mou­ve­ment de Google, j’espère qu’ils feront le choix de la stan­dar­di­sa­tion. Il y a de nom­breuses façon de faire du web séman­tique, j’espère que la voie du W3C sera choi­sie. Malheureusement les moteurs de recherche lea­der n’ont pas for­cé­ment inté­rêt à pous­ser à une stan­dar­di­sa­tion. Car l’émergence de don­nées struc­tu­rées et d’ontologies spé­cia­li­sées pour­rait pré­ci­pi­ter l’émergence de moteurs de recherches spé­cia­li­sés avec des capa­ci­tés d’analyse, de syn­thèse et de pré­sen­ta­tion des résul­tats bien supé­rieurs à celle de Google, limité à dif­fu­ser de l’information généraliste.

    D’ailleurs le même constat s’applique très bien aux com­mu­nau­tés et aux réseaux sociaux. A terme, le web séman­tique et l’ouverture des don­nées ne fera que du bien à Facebook.

    Un sujet pas­sion­nant, et on sent l’article de passionné.

  9. Nicolas Cynober

    Dans ma der­nière phrase il fal­lait bien entendu com­prendre “pas que du bien à Facebook”. Voir mon article sur la ver­ti­ca­li­sa­tion des SNS: http://nicolas.cynober.fr/blog/53,la-verticalisation-geographique-des-sns.html qui s’accélérerait avec une migra­tion faci­li­tée des comptes uti­li­sa­teurs grâce au web sémantique.

  10. Claude

    Intéressant, j’ai essayé aussi les phrases suivantes:

    Quelle est la langue offi­cielle en France?
    Quelle est la langue offi­cielle en Belgique?
    Quelle est la langue offi­cielle en Roumanie?

    Aucun pro­blème, bonne réponse et puis j’ai essayé:
    Quelle est la langue offi­cielle au Canada?

    Là échec…
    J’ai fait une petite refor­mu­la­tion:
    Quelle est la langue offi­cielle du Canada?

    Bonne réponse cette fois.

    Plus sur­pre­nant:

    Quelle est la langue offi­cielle en Canada?

    marche aussi…

    Donc, il sem­ble­rait qu’il y ait une vraie ana­lyse lin­guis­tique en arrière-plan, mal­heu­reu­se­ment incomplète…

  11. albertine meunier

    il semble que google uti­lise unique­ment les don­nées de wiki­pe­dia (cf. commentaire#44 de article ver­sion anglaise / pense aussi cela http://www.readwriteweb.com/archives/google_semantic_data.php)

    pour les pays, dans wiki­pe­dia il y a un encart à droite de la page pré­sen­tant des infor­ma­tions un peu struc­tu­rées (info media)
    on y trouve la capi­tale, la plus grande ville, le pré­sident, …, la gen­tilé, ..idh, … le fuseau horaire

    et google répond “séman­tique­ment”
    si on lui pose la ques­tion avec l’une de ces infos
    http://www.google.fr/search?hl=fr&q=plus+grande+ville+france
    http://www.google.fr/search?hl=fr&q=gentil%C3%A9+france
    http://www.google.fr/search?hl=fr&q=idh+france

    idem pour johnny
    http://www.google.fr/search?hl=fr&q=naissance+johnny+hallyday
    on regarde dans sa fiche wiki­pe­dia dans l’encart

    si je pose la ques­tion en anglais
    http://www.google.com/search?hl=en&q=prime+minister+france
    ou en français http://www.google.fr/search?hl=fr&q=premier+ministre+france

    le accor­ding to (selon) n’est pas le même …
    à mon avis les accor­ding viennent tous de wiki­pe­dia … c’est juste pour embrouiller tout le monde ;-)

    google remonte plus fine­ment les infos de wiki­pe­dia … c’est tout

  12. Pierre-Henri

    je l’avais remarqué y a quelques jours quand j’ai recher­ché la super­fi­cie de la France.

    la requete que j’avais faites : den­sité france
    la 1ere réponse : France — Superficie — Totale: 675 417 km2

  13. Pierre-Henri

    par­don la requete c’etait super­fi­cie france
    et la réponse etait bonne.
    den­sité france ne fonc­tionne pas, mais den­sité suisse oui

  14. Fabrice Epelboin

    @albertine De toutes évidence, d’autres sources sont uti­li­sées, témoin l’erreur faite sur le pré­sident de la Suisse : Wikipedia ne com­porte pas d’erreur, le CIA World Factbook, lui, contient l’erreur…

  15. albertine meunier

    @fabrice … ah oui peut être bien que il y a d’autres sources…hummm … je ne suis pas convaincue

    j’avoue que je ne sais plus que croire. si on foca­lise sur la suisse, c’est y pas pos­sible que j’arrive pas à savoir qui est le président …

    Mais qui est donc le pre­sident de la suisse ?

    en anglais cela donne cela
    http://www.google.com/search?hl=en&q=president+swiss

    en français cela donne cela
    http://www.google.fr/search?hl=fr&q=président+suisse

    oh zut c’est pas le même en français et en anglais

    et en plus en français la source décla­rée de la réponse “séman­ti­sée” est wiki­pe­dia mais le pré­sident pro­posé dans wiki­pe­dia n’est pas le même pré­sident que dans la réponse “séman­ti­sée” affi­chée par google

    car si je regarde wiki­pe­dia, http://fr.wikipedia.org/wiki/Suisse , j’ai un autre pré­sident encore.

    comme je ne suis pas spé­cia­liste de la suisse, je ne m’avancerais pas … mais google n’afficherait pas une erreur quelque part ?
    ou dans le nom du pré­sident, ou dans le nom de la source, …

    une erreur si haut dans sa page… google n’est pour­tant pas en beta ;-) à moins que cela soit à cause du fromage

  16. Wallen's

    @albertine et @Fabrice, la Suisse change de pré­sident chaque année, c’est une rota­tion annuel entre les membres du gou­ver­ne­ment appellé Conseil Fédéral. Le pré­sident n’a aucun pou­voir impor­tant. En l’occurence les réponses don­nées par Google tirées de Wikipedia ou la CIA sont fausses en 2009. Mais elle était juste en 2007 et 2008 res­pec­ti­ve­ment. La bonne réponse ne se trouve pas sur Google mais sur la page Wikipedia sur la Suisse. Mais on les excu­sera, très peu de suisse eux-même savent qui est le pré­sident en exer­cice dans une année don­née…
    De toute façon, l’exemple Suisse n’est pas très impor­tant en soi. Mais il illustre un point beau­coup plus impor­tant: on ne peut pas faire confiance à une source unique pour répondre à une ques­tion. Hors si l’approche séman­tique de Google est de ne don­ner qu’une réponse à une ques­tion, il se pose en “cham­pion” de la connais­sance.
    Ce qui m’inquiète plus avec ce type d’approche, c’est qu’une ques­tion ne peut jamais appelé à une seule réponse. Il y a des dif­fé­rences de pers­pec­tives, d’opinions, etc. Une réponse n’est qu’une des repré­sen­ta­tions pos­sible de la réa­lité dans un des contextes pos­sibles de cette même réa­lité. Pour prendre un exemple bru­lant de l’actualité: com­ment don­ner une seule réponse syn­thé­tique à la ques­tion “qui a com­mencé la guerre à Gaza?”. Impossible.
    Seul l’homme peut réel­le­ment tirer la richesse des infor­ma­tions, en tirer des conclu­sions non-triviales, en extraire des inter­pré­ta­tions nou­velles, mon­trer des nuances, etc. La machine ne peut qu’organiser l’information au mieux et les tech­no­lo­gies séman­tiques amé­lio­re­ront cette organisation.

  17. carl

    Ca va deve­nir de plus en plus pré­cis les recherches.
    Ce qu’il faut savoir si les réponses soient bonnes

  18. Ahmed_ISI

    bon­soir, appa­rem­ment Google est en phase de déve­lop­pe­ment, mais se qu’est sert c’est que les résul­tats sont bien propre a Wikipedia.
    pour la notion de la seman­tique c t une ques­tion de temps pour google.

  19. Jean Rohmer

    Ca res­semble pas mal à Wolfram Alpha. Mais ceux-ci ne sont-ils pas maqués avec Bing ?

    Par ailleurs, ça res­semble plu­tôt à l’interrogation d’une base de don­nées struc­tu­rées clas­sique. Toute la ques­tion est de savoir com­ment cette base est rem­plie: à la main, fusion de bases exis­tantes, ou auto­ma­tiquemnt à par­tir d’analyses de documents.

    Enfin, ce qui est amu­sant, c’est que Tim Berners Lee ne croit plus au Web Sémantique, mais dit que c’est un Web de Données …

    A ce sujet, voir:
    http://plexus-logos-calx.blogspot.com/2009/11/a0032.html

    De toutes façons, le des­tin du Web Sémantique est évidem­ment entre les mains de Google.

  20. Fabrice Epelboin

    Derrière Bing c’est d’abord PowerSet, un moteur de recherche séman­tique lui aussi, mais oui, ils ont fait un par­te­na­riat avec Wolfram Alpha dans le but de pro­po­ser des fonc­tion­na­li­tés similaires…

    http://www.readwriteweb.com/archives/bing_teams_up_with_wolfram_alpha.php

    Si vous vous inté­res­sez à Wolfram Alpha, je vous conseille les nom­breux billets que Richard MacManus, Frédéric Lardinois et Alex Iskold ont écrit des­sus sur RWW US et que l’on a pas eu le temps de traduire :-)

    http://www.readwriteweb.com/archives/hands-on_with_wolfram_alpha.php
    http://www.readwriteweb.com/archives/wolframalpha_our_first_impressions.php
    http://www.readwriteweb.com/archives/see_wolfram_alpha_in_action_-_video_and_screenshots.php
    http://www.readwriteweb.com/archives/does_microsoft_powerset_beat_google.php
    http://www.readwriteweb.com/archives/redux_wolframalpha_the_use_cases.php
    http://www.readwriteweb.com/archives/wolframalpha_the_use_cases.php

15 Trackbacks For This Post

  1. Web 3.0. : le web sémantique ? « Guilmain’s Weblog :

    […] Source http://fr.readwriteweb.com/2009/01/07/a-la-une/google-web-semantique/ […]

  2. Qui est le Président de la Suisse ? | Cmic Blog :

    […] Président de la Suisse (Confédération Helvétique)? Suite à la lec­ture d’un article sur Read Write Web à pro­pos de l’apparition du web séman­tique sur Google, j’ai effec­tué le test. […]

  3. Web en Vrac du 7 janvier 2009 - Darklg Blog :

    […] Google se met-il au web sémantique ? […]

  4. Revue des blogs #104 : Une liste de news très Geek ! :

    […] Google se met-il au web séman­tique ? Abonnez-vous à ces revues par ou par Découvrez les anciennes revues […]

  5. Google se met-il au web sémantique ? :

    […] C’est ce qu’on peut lire aujourd’hui sur ReadWriteWeb France. Je vous laisse lire ce très bon article. […]

  6. Entracte 82 | Mind Overflow :

    […] Google se met-il au web séman­tique ?, sur ReadWriteWeb France A les­son in pass­word secu­rity, sur Geeks are sexy BeBoomer : le réseau social des jeunes séniors, sur Mashable France L’album le plus vendu sur Amazon en 2008 était aussi offert gra­tui­te­ment, sur Numérama Transformer Windows XP en Windows 7, chez Papy Geek Il suf­fit qu’on parte cinq minutes en vacances…, chez Eolas Grandir avec Star Wars, sur Ecrans TweetVeillance, sur Fluctuat […]

  7. Google et le web sémantique (readwriteweb com) :

    […] L’article : Google se met-il au web sémantique ? […]

  8. Jean-Marie Gall.com » Blog Archive » Melting Pot de News 2.0 No. 11 :

    […] Google se met-il au web séman­tique ? by Fabrice de fr.ReadWriteWeb.com […]

  9. Pour passer un bon week-end #8 | Vemeo Blog :

    […] Une approche inté­res­sante du web séman­tique de la part de Google Catégorie : Un oeil sur le web | Tags: e-commerce, google, […]

  10. Exalead se met-il au web sémantique | MonBouquet | Le Blog des Fleurs :

    […] Cet article est un écho à celui de RWW fr : Google se met-il au Web sémantique […]

  11. Nouvelles fonctionnalités dans Google Images ? (et le Web sémantique) | Bostral News :

    […] Hello there! If you are new here, you might want to sub­scribe to the RSS feed for updates on this topic.Powered by WP Greet BoxAprès le réfé­ren­ce­ment natu­rel, le réfé­ren­ce­ment du lan­gage natu­rel ? Google a l’air de tra­vailler sérieu­se­ment sur cette ques­tion, et ReadWriteWeb s’était posé la ques­tion récemment, […]

  12. Contenu, Référencement naturel et Web sémantique | LE BLOG DU CONCEPTEUR-REDACTEUR :

    […] du Web séman­tique à la Google. Plus récem­ment, le moteur de recherche a com­mencé à VRAIMENT répondre aux ques­tions qui lui sont posées. On y arrive bien­tôt ! Et le contenu n’aura jamais représenté […]

  13. blog test via un flux rss google reader » Archives du Blog » Google est-il est le meilleur moteur de recherche en langue naturelle ? :

    […] y a déjà un petit moment, suite à ce billet de ReadWriteWeb que je vou­lais abor­der le sujet des “recherches séman­tiques” de Google. Ce sera donc […]

  14. Google est-il est le meilleur moteur de recherche en langue naturelle ? | motrech :

    […] y a déjà un petit moment, suite à ce billet de ReadWriteWeb que je vou­lais abor­der le sujet des “recherches séman­tiques” de Google. Ce sera donc […]

  15. Google lance la recherche sociale | Actualités réseaux sociaux, rédaction & référencement | Florian Karmen :

    […] Prochaine étape, Google tra­vaille­rait sur une nou­velle évolu­tion de la recherche sur le web : la recherche sémantique. […]

Réagissez !

  • A propos
  • Best of
  • Buzzing
  • Tags

ReadWriteWeb est un blog dédié aux technologies internet qui en couvre l’actualité et se distingue par ses notes d’analyse et de prospective ainsi que par l’accent mis sur les usages et leur impact sur les média, la communication et la société.

ReadWriteWeb est classé parmi les blogs les plus influents de la planète par Technorati et Wikio, il est publié en anglais, en français, en coréen, en espagnol, en portugais et en chinois. Ses articles sont publiés dans la rubrique technologie du New York Times.

Partenaires

hébergement infogérance Bearstech
af83



Publications

Lawrence Lessig
Culture Libre



Pierre Bellanger
La Radio IP