Google se met-il au web sémantique ?

Depuis peu, on trouve de curieuses réponses dans les résultats de recherche de Google, notamment quand on l’interroge sur des dates de naissances ou les liens familiaux. Google répond désormais à la question posé plutôt que de pointer vers des pages contenant éventuellement une réponse. Pour l’instant, cela fonctionne avec l’anglais, et, dans une moindre mesure, avec le Français (c’est nettement moins impressionnant avec le Français, il faut le reconnaître).

google web sémantique

Quel est le nom de la femme de Johnny Hallyday ? Quel est la capitale de la France ? Désormais, ces questions posées à Google obtiennent une réponse simple, articulée dans le classique ‘sujet-prédicat-objet’ (le célèbre ‘triplet’ du web sémantique), le tout accompagné de la source justifiant la réponse. Bien sûr, le tout est suivit des traditionnels résultats de recherche propres à Google.

google web sémantique

google web sémantique

Les informations ne sont pas structurées de la sorte sur le web, en particulier dans les sources qu’utilise Google pour justifier ses réponses, celui-ci semble analyser des données semi structurées, voir pas structurées du tout. C’est une fonctionnalité qui a coûté 100 millions de dollars à Microsoft et qui à justifié le rachat l’an dernier de Powerset, qui, rappelons-le, n’est capable de tels résultats que sur un corpus réduit (Wikipedia en l’occurrence), en en aucun cas sur l’ensemble du web (ou en tout cas sur une large palette de sources) comme semble le faire Google.

Il est clair que Google expérimente de tels analyses sémantiques sur des données non structurés depuis déjà pas mal de temps, mais à notre connaissance, c’est la première fois que cette capacité est ainsi exposée au public. (un programme de Google appelé “Direct Answers” explore l’analyse sémantique de données non structurés depuis quelques années, mais il n’était pas accessible au public).

La fonctionnalité n’est pas accessible en permanence et sur tous les territoires, il nous a fallu, en France, passer par un proxy anonyme américain pour y avoir accès. Il n’est par ailleurs pas évident que cette fonctionnalité soit accessible à des tiers, mais cela ne semble pas impossible à faire, même si – et c’est fort dommage – les données fournies par Google ne sont pas structurées en RDF au sein du HTML des résultats de Google.

Google structure-t-il les données non structurées ?

Bruno Haid, de la startup sémantique Australienne System One qui nous a fourni cette information, l’a commenté de la façon suivante :

“Ce qui est intéressant c’est que, bien que les données concernant la mère de Justin Timberlake, parmi d’autres, soient issues de http://www.celebritywonder.com/html/justintimberlake.html, il n’y a aucune donnée structurée de façon sémantique qui permet d’identifier Lynne comme étant la mère de Britney Spears. Donc soit Google utilise une source d’information structurée qu’il ne révèle pas dans ses résultats, soit ils arrivent réellement à extraire cette information du texte non structuré qu’ils affichent comme source (http://ububu.com/BritneySpears.html). Si c’est la cas, c’est énorme.

Toute la question est là. Conclure que Google fait de l’analyse sémantique simplement parce qu’ils affichent des résultats sous la forme “sujet-prédicat-objet” serait aller un peu vite en besogne, mais si cette structure résulte d’une analyse automatique de la part de Google, et qu’ils s’avéraient capable de structurer sémantiquement des données non structurées, qui n’existent nulle part sous une forme structurée sémantiquement, alors on pourrait conclure que Google est capable de faire cela. Et cela semble bien être le cas.

Pourquoi est-ce important ?

Comme nous avons désormais coutume de le dire au sujet du web sémantique, une fois que la machine sera capable d’extraire du savoir d’une page web à notre place, une large partie du travail des ‘knowledge worker’ sera déjà réalisé par la machine, donnant aux humains la possibilité d’aller bien plus loin encore, les gain de productivité de tous ceux qui travaillent quotidiennement avec comme matière première de l’information seraient phénoménaux.

google web sémantique

Certes, pour l’instant, les réponses ne sont pas toujours très pertinentes, et tout cela n’est qu’un début. Quand on demande la date de naissance de Jésus, le résultat est plutôt surprenant, et la date de naissance de Laeticia Hallyday, à en croire Google (voir copie d’écran au début de l’article), mènerait notre Johnny national tout droit en prison si elle était exacte. Yahoo, de son coté, a exposé une vision bien plus claire sur ses intentions face au web sémantique, mais malgré tout, Google semble faire quelque chose que personne jusqu’ici n’a réussi a faire. Encore une fois, la création de valeur qu’apporterait une telle technologie, une fois mature, est tout simplement phénoménale.

A lire également :

  1. Cognition lance la “plus grande carte sémantique au monde” Cognition Technologies, une société du web séman­tique spé­cia­li­sée dans les moteurs de recherche en lan­gage natu­rel (Natural Language Processing, NLP) annonce aujourd’hui la sor­tie de ce qu’elle reven­dique comme la plus grande carte séman­tique de la langue anglaise. En tant que fan de tout ce qui touche au web séman­tique,...
  2. SematicProxy : le signal de départ du web sémantique ? Malgré son immense poten­tiel, le web séman­tique n’a pas pour l’instant donné grand chose. L’une des rai­sons au pro­blème, à en croire Thomson Reuters, est que les déve­lop­peurs n’ajouterons pas de fonc­tions séman­tiques à leurs pro­duits tant que les éditeurs de conte­nus ne publie­ront pas de don­nées séman­tiques. Une affaire...
  3. Les moteurs de recherche sémantiques ont-ils besoin d’une carte sémantique ? Cette semaine, nous annon­cions la sor­tie par Cognition de la « plus grande carte séman­tique de la langue anglaise ». Au cours de l’interview que nous a accordé Scott Janus, le CEO de Cognition, nous lui avons demandé de com­pa­rer sa tech­no­lo­gie avec celle de Hakia et PowerSet, deux autres acteurs de la...
  4. 11 mises au point à propos du web sémantique 1. Inutile de s’excuser de l’appeler Web 3.0. Bien sûr, le web ne se met pas à jour à la façon d’une entre­prise qui pas­se­rait sous Vista, mais il y a une claire tran­si­tion par rap­port aux tech­no­lo­gies en usage aujourd’hui. Pour faire simple, on pour­rait dire que le Web...
  5. Le manifeste du Web 3.0 est sorti Project10X vient de publier le « Web 3.0 Manifesto ». Un suite, en quelque sorte, de leur Semantic Wave 2008 report sorti en jan­vier der­nier. Mills Davis, le Directeur de Project10X nous par­lait de ce mani­feste par email de la façon suivante : [ce mani­feste] révèle com­ment les tech­no­lo­gies séman­tiques vont faire appa­raître...
  6. Ce que Google donne, Google peut le reprendre ou la fermeture de Google Video, Notebook, Catalog Search, Jaiku et Dodgeball Un cer­tain nombre de ser­vices Google ont annoncé mer­credi leur fer­me­ture immi­nente. L’équipe de Google Video a notam­ment informé ses uti­li­sa­teurs de la fin des uploads, pré­vue dans quelques mois. L’équipe de Google Notebook offi­cia­lise pour sa part l’arrêt de tout forme de déve­lop­pe­ment (le ser­vice res­tera néa­moins actif). Jaiku pas­sera...
  7. Un ciblage plus précis de la pub grâce à la sémantique Amiad Solomon, le CEO de Peer39, a fait l’introduction de la Web 3.0 Conference à Santa Clara en Californie avec une key­note expliquant le rap­port entre le web séman­tique et la publi­cité. Selon lui, c’est l’une des oppor­tu­ni­tés les plus évidentes de l’ère du Web 3.0 qui s’annonce. ‘Je pense que...

18 commentaires pour cet article

  1. Bacteries

    La date indiquée pour Laetica Hallyday c’est la date de leur mariage. Donc c’est pas une fausse réponse ;)

    Impressionnant ces modi­fi­ca­tions de Google en tout cas.

  2. Fabrice Epelboin

    @Bactéries bien vu… déci­dé­ment, il est fort ce Google…

  3. GuiM

    “quelle est le meilleur blo­gueur de France ?”
    Je pen­sais voir ton nom … !

  4. Fabrice Epelboin

    @guim vil flat­teur :) T’es dans le top10 français, toi ;)

  5. lovny

    Trop fou ce truc ! Tout le monde va se battre pour ache­ter son set “question-réponse” !! Genre : qui fait les meilleurs sand­wichs du monde ? Réponse : Mac donald’s, etc en liens spon­so­ri­sés ou en réfé­ren­ce­ment séman­tique naturel…Cela ouvre tout sim­ple­ment de nou­velles voies au web !

  6. lovny

    En tous cas “Qui est le moins cher ?” C’est pris !

  7. Denis

    “Donc soit Google uti­lise une source d’information struc­tu­rée qu’il ne révèle pas dans ses résultats…”

    Probablement Freebase, base de don­nées de faits ali­men­tées par les uti­li­sa­teurs. Par exemple les don­nées rela­tives à Bryteny Spears : http://www.freebase.com/view/en/britney_spears

  8. Nicolas Cynober

    @lovny
    Attention, atten­tion, à mon avis cette approche est très risquée dans le monde dans lequel nous vivons aujourd’hui. Jusqu’à pré­sent Google pro­po­sait une liste de réponses, conte­nant par­fois plu­sieurs mil­lions de résul­tat. La posi­tion de Google était clair: “voila tous les points de vu, toutes les sources d’infomation, triée par notre algo­rithme”. Le fait de mettre en avant une seule réponse, c’est mettre en avant un seul point de vu, une seule vérité. Nous savons déjà que les uti­li­sa­teurs de Google ne consulte que les pre­miers résul­tats d’une recherche. Cette nou­velle fonc­tion­na­lité à mon sens drive encore plus les inter­naute vers “le monde selon Google”. C’est une machine qui décide pour vous, c’est une machine qui vous donne son point de vu.
    Ce qui m’effraie un peu ce n’est pas que les don­nées soient struc­tu­rées ou non, mais que leur inter­pré­ta­tion est faite par Google et lui seul (à défaut d’avoir des onto­lo­gies liées aux don­nées qu’il exploite). 

    @Denis
    Personnellement je pré­fé­re­rais que ces don­nées soient extraites de DBPedia: http://dbpedia.org/page/Britney_Spears. L’information y est mieux struc­tu­rée et fait par­tie du projet LinkedData (http://linkeddata.org).

    @Fabrice
    Super article. C’est une excel­lente nou­velle. J’attendais depuis long­temps un mou­ve­ment de Google, j’espère qu’ils feront le choix de la stan­dar­di­sa­tion. Il y a de nom­breuses façon de faire du web séman­tique, j’espère que la voie du W3C sera choi­sie. Malheureusement les moteurs de recherche lea­der n’ont pas for­cé­ment inté­rêt à pous­ser à une stan­dar­di­sa­tion. Car l’émergence de don­nées struc­tu­rées et d’ontologies spé­cia­li­sées pour­rait pré­ci­pi­ter l’émergence de moteurs de recherches spé­cia­li­sés avec des capa­ci­tés d’analyse, de syn­thèse et de pré­sen­ta­tion des résul­tats bien supé­rieurs à celle de Google, limité à dif­fu­ser de l’information généraliste.

    D’ailleurs le même constat s’applique très bien aux com­mu­nau­tés et aux réseaux sociaux. A terme, le web séman­tique et l’ouverture des don­nées ne fera que du bien à Facebook.

    Un sujet pas­sion­nant, et on sent l’article de passionné.

  9. Nicolas Cynober

    Dans ma der­nière phrase il fal­lait bien entendu com­prendre “pas que du bien à Facebook”. Voir mon article sur la ver­ti­ca­li­sa­tion des SNS: http://nicolas.cynober.fr/blog/53,la-verticalisation-geographique-des-sns.html qui s’accélérerait avec une migra­tion faci­li­tée des comptes uti­li­sa­teurs grâce au web sémantique.

  10. Claude

    Intéressant, j’ai essayé aussi les phrases suivantes:

    Quelle est la langue offi­cielle en France?
    Quelle est la langue offi­cielle en Belgique?
    Quelle est la langue offi­cielle en Roumanie?

    Aucun pro­blème, bonne réponse et puis j’ai essayé:
    Quelle est la langue offi­cielle au Canada?

    Là échec…
    J’ai fait une petite refor­mu­la­tion:
    Quelle est la langue offi­cielle du Canada?

    Bonne réponse cette fois.

    Plus sur­pre­nant:

    Quelle est la langue offi­cielle en Canada?

    marche aussi…

    Donc, il sem­ble­rait qu’il y ait une vraie ana­lyse lin­guis­tique en arrière-plan, mal­heu­reu­se­ment incomplète…

  11. albertine meunier

    il semble que google uti­lise unique­ment les don­nées de wiki­pe­dia (cf. commentaire#44 de article ver­sion anglaise / pense aussi cela http://www.readwriteweb.com/archives/google_semantic_data.php)

    pour les pays, dans wiki­pe­dia il y a un encart à droite de la page pré­sen­tant des infor­ma­tions un peu struc­tu­rées (info media)
    on y trouve la capi­tale, la plus grande ville, le pré­sident, …, la gen­tilé, ..idh, … le fuseau horaire

    et google répond “séman­tique­ment”
    si on lui pose la ques­tion avec l’une de ces infos
    http://www.google.fr/search?hl=fr&q=plus+grande+ville+france
    http://www.google.fr/search?hl=fr&q=gentil%C3%A9+france
    http://www.google.fr/search?hl=fr&q=idh+france

    idem pour johnny
    http://www.google.fr/search?hl=fr&q=naissance+johnny+hallyday
    on regarde dans sa fiche wiki­pe­dia dans l’encart

    si je pose la ques­tion en anglais
    http://www.google.com/search?hl=en&q=prime+minister+france
    ou en français http://www.google.fr/search?hl=fr&q=premier+ministre+france

    le accor­ding to (selon) n’est pas le même …
    à mon avis les accor­ding viennent tous de wiki­pe­dia … c’est juste pour embrouiller tout le monde ;-)

    google remonte plus fine­ment les infos de wiki­pe­dia … c’est tout

  12. Pierre-Henri

    je l’avais remarqué y a quelques jours quand j’ai recher­ché la super­fi­cie de la France.

    la requete que j’avais faites : den­sité france
    la 1ere réponse : France — Superficie — Totale: 675 417 km2

  13. Pierre-Henri

    par­don la requete c’etait super­fi­cie france
    et la réponse etait bonne.
    den­sité france ne fonc­tionne pas, mais den­sité suisse oui

  14. Fabrice Epelboin

    @albertine De toutes évidence, d’autres sources sont uti­li­sées, témoin l’erreur faite sur le pré­sident de la Suisse : Wikipedia ne com­porte pas d’erreur, le CIA World Factbook, lui, contient l’erreur…

  15. albertine meunier

    @fabrice … ah oui peut être bien que il y a d’autres sources…hummm … je ne suis pas convaincue

    j’avoue que je ne sais plus que croire. si on foca­lise sur la suisse, c’est y pas pos­sible que j’arrive pas à savoir qui est le président …

    Mais qui est donc le pre­sident de la suisse ?

    en anglais cela donne cela
    http://www.google.com/search?hl=en&q=president+swiss

    en français cela donne cela
    http://www.google.fr/search?hl=fr&q=président+suisse

    oh zut c’est pas le même en français et en anglais

    et en plus en français la source décla­rée de la réponse “séman­ti­sée” est wiki­pe­dia mais le pré­sident pro­posé dans wiki­pe­dia n’est pas le même pré­sident que dans la réponse “séman­ti­sée” affi­chée par google

    car si je regarde wiki­pe­dia, http://fr.wikipedia.org/wiki/Suisse , j’ai un autre pré­sident encore.

    comme je ne suis pas spé­cia­liste de la suisse, je ne m’avancerais pas … mais google n’afficherait pas une erreur quelque part ?
    ou dans le nom du pré­sident, ou dans le nom de la source, …

    une erreur si haut dans sa page… google n’est pour­tant pas en beta ;-) à moins que cela soit à cause du fromage

  16. Wallen's

    @albertine et @Fabrice, la Suisse change de pré­sident chaque année, c’est une rota­tion annuel entre les membres du gou­ver­ne­ment appellé Conseil Fédéral. Le pré­sident n’a aucun pou­voir impor­tant. En l’occurence les réponses don­nées par Google tirées de Wikipedia ou la CIA sont fausses en 2009. Mais elle était juste en 2007 et 2008 res­pec­ti­ve­ment. La bonne réponse ne se trouve pas sur Google mais sur la page Wikipedia sur la Suisse. Mais on les excu­sera, très peu de suisse eux-même savent qui est le pré­sident en exer­cice dans une année don­née…
    De toute façon, l’exemple Suisse n’est pas très impor­tant en soi. Mais il illustre un point beau­coup plus impor­tant: on ne peut pas faire confiance à une source unique pour répondre à une ques­tion. Hors si l’approche séman­tique de Google est de ne don­ner qu’une réponse à une ques­tion, il se pose en “cham­pion” de la connais­sance.
    Ce qui m’inquiète plus avec ce type d’approche, c’est qu’une ques­tion ne peut jamais appelé à une seule réponse. Il y a des dif­fé­rences de pers­pec­tives, d’opinions, etc. Une réponse n’est qu’une des repré­sen­ta­tions pos­sible de la réa­lité dans un des contextes pos­sibles de cette même réa­lité. Pour prendre un exemple bru­lant de l’actualité: com­ment don­ner une seule réponse syn­thé­tique à la ques­tion “qui a com­mencé la guerre à Gaza?”. Impossible.
    Seul l’homme peut réel­le­ment tirer la richesse des infor­ma­tions, en tirer des conclu­sions non-triviales, en extraire des inter­pré­ta­tions nou­velles, mon­trer des nuances, etc. La machine ne peut qu’organiser l’information au mieux et les tech­no­lo­gies séman­tiques amé­lio­re­ront cette organisation.

  17. carl

    Ca va deve­nir de plus en plus pré­cis les recherches.
    Ce qu’il faut savoir si les réponses soient bonnes

  18. Ahmed_ISI

    bon­soir, appa­rem­ment Google est en phase de déve­lop­pe­ment, mais se qu’est sert c’est que les résul­tats sont bien propre a Wikipedia.
    pour la notion de la seman­tique c t une ques­tion de temps pour google.

14 Trackbacks For This Post

  1. Web 3.0. : le web sémantique ? « Guilmain’s Weblog :

    […] Source http://fr.readwriteweb.com/2009/01/07/a-la-une/google-web-semantique/ […]

  2. Qui est le Président de la Suisse ? | Cmic Blog :

    […] Président de la Suisse (Confédération Helvétique)? Suite à la lec­ture d’un article sur Read Write Web à pro­pos de l’apparition du web séman­tique sur Google, j’ai effec­tué le test. […]

  3. Web en Vrac du 7 janvier 2009 - Darklg Blog :

    […] Google se met-il au web sémantique ? […]

  4. Revue des blogs #104 : Une liste de news très Geek ! :

    […] Google se met-il au web séman­tique ? Abonnez-vous à ces revues par ou par Découvrez les anciennes revues […]

  5. Google se met-il au web sémantique ? :

    […] C’est ce qu’on peut lire aujourd’hui sur ReadWriteWeb France. Je vous laisse lire ce très bon article. […]

  6. Entracte 82 | Mind Overflow :

    […] Google se met-il au web séman­tique ?, sur ReadWriteWeb France A les­son in pass­word secu­rity, sur Geeks are sexy BeBoomer : le réseau social des jeunes séniors, sur Mashable France L’album le plus vendu sur Amazon en 2008 était aussi offert gra­tui­te­ment, sur Numérama Transformer Windows XP en Windows 7, chez Papy Geek Il suf­fit qu’on parte cinq minutes en vacances…, chez Eolas Grandir avec Star Wars, sur Ecrans TweetVeillance, sur Fluctuat […]

  7. Google et le web sémantique (readwriteweb com) :

    […] L’article : Google se met-il au web sémantique ? […]

  8. Jean-Marie Gall.com » Blog Archive » Melting Pot de News 2.0 No. 11 :

    […] Google se met-il au web séman­tique ? by Fabrice de fr.ReadWriteWeb.com […]

  9. Pour passer un bon week-end #8 | Vemeo Blog :

    […] Une approche inté­res­sante du web séman­tique de la part de Google Catégorie : Un oeil sur le web | Tags: e-commerce, google, […]

  10. Exalead se met-il au web sémantique | MonBouquet | Le Blog des Fleurs :

    […] Cet article est un écho à celui de RWW fr : Google se met-il au Web sémantique […]

  11. Nouvelles fonctionnalités dans Google Images ? (et le Web sémantique) | Bostral News :

    […] Hello there! If you are new here, you might want to sub­scribe to the RSS feed for updates on this topic.Powered by WP Greet BoxAprès le réfé­ren­ce­ment natu­rel, le réfé­ren­ce­ment du lan­gage natu­rel ? Google a l’air de tra­vailler sérieu­se­ment sur cette ques­tion, et ReadWriteWeb s’était posé la ques­tion récemment, […]

  12. Contenu, Référencement naturel et Web sémantique | LE BLOG DU CONCEPTEUR-REDACTEUR :

    […] du Web séman­tique à la Google. Plus récem­ment, le moteur de recherche a com­mencé à VRAIMENT répondre aux ques­tions qui lui sont posées. On y arrive bien­tôt ! Et le contenu n’aura jamais représenté […]

  13. blog test via un flux rss google reader » Archives du Blog » Google est-il est le meilleur moteur de recherche en langue naturelle ? :

    […] y a déjà un petit moment, suite à ce billet de ReadWriteWeb que je vou­lais abor­der le sujet des “recherches séman­tiques” de Google. Ce sera donc […]

  14. Google est-il est le meilleur moteur de recherche en langue naturelle ? | motrech :

    […] y a déjà un petit moment, suite à ce billet de ReadWriteWeb que je vou­lais abor­der le sujet des “recherches séman­tiques” de Google. Ce sera donc […]

Réagissez !

Ils nous soutiennent

feedback2.0

hébergement infogérance BearstechLa Cantine

 

  • A propos
  • Best of
  • Buzzing
  • Tags

ReadWriteWeb est un blog dédié aux technologies internet qui en couvre l’actualité et se distingue par ses notes d’analyse et de prospective ainsi que par l’accent mis sur les usages et leur impact sur les média, la société et la communication.

ReadWriteWeb est classé parmi les blogs les plus influents de la planète par Technorati et Wikio.

ReadWriteWeb est publié en anglais, en français, en coréen, en portugais et en chinois. Ses articles sont publiés dans la rubrique technologie du New York Times.


eBooks

Lawrence Lessig
Culture Libre



Pierre Bellanger
La Radio IP



Nous y serons