Google se met-il au web sémantique ?

Depuis peu, on trouve de curieuses réponses dans les résultats de recherche de Google, notamment quand on l’interroge sur des dates de naissances ou les liens familiaux. Google répond désormais à la question posé plutôt que de pointer vers des pages contenant éventuellement une réponse. Pour l’instant, cela fonctionne avec l’anglais, et, dans une moindre mesure, avec le Français (c’est nettement moins impressionnant avec le Français, il faut le reconnaître).

google web sémantique

Quel est le nom de la femme de Johnny Hallyday ? Quel est la capitale de la France ? Désormais, ces questions posées à Google obtiennent une réponse simple, articulée dans le classique ‘sujet-prédicat-objet’ (le célèbre ‘triplet’ du web sémantique), le tout accompagné de la source justifiant la réponse. Bien sûr, le tout est suivit des traditionnels résultats de recherche propres à Google.

google web sémantique

google web sémantique

Les informations ne sont pas structurées de la sorte sur le web, en particulier dans les sources qu’utilise Google pour justifier ses réponses, celui-ci semble analyser des données semi structurées, voir pas structurées du tout. C’est une fonctionnalité qui a coûté 100 millions de dollars à Microsoft et qui à justifié le rachat l’an dernier de Powerset, qui, rappelons-le, n’est capable de tels résultats que sur un corpus réduit (Wikipedia en l’occurrence), en en aucun cas sur l’ensemble du web (ou en tout cas sur une large palette de sources) comme semble le faire Google.

Il est clair que Google expérimente de tels analyses sémantiques sur des données non structurés depuis déjà pas mal de temps, mais à notre connaissance, c’est la première fois que cette capacité est ainsi exposée au public. (un programme de Google appelé “Direct Answers” explore l’analyse sémantique de données non structurés depuis quelques années, mais il n’était pas accessible au public).

La fonctionnalité n’est pas accessible en permanence et sur tous les territoires, il nous a fallu, en France, passer par un proxy anonyme américain pour y avoir accès. Il n’est par ailleurs pas évident que cette fonctionnalité soit accessible à des tiers, mais cela ne semble pas impossible à faire, même si – et c’est fort dommage – les données fournies par Google ne sont pas structurées en RDF au sein du HTML des résultats de Google.

Google structure-t-il les données non structurées ?

Bruno Haid, de la startup sémantique Australienne System One qui nous a fourni cette information, l’a commenté de la façon suivante :

“Ce qui est intéressant c’est que, bien que les données concernant la mère de Justin Timberlake, parmi d’autres, soient issues de http://www.celebritywonder.com/html/justintimberlake.html, il n’y a aucune donnée structurée de façon sémantique qui permet d’identifier Lynne comme étant la mère de Britney Spears. Donc soit Google utilise une source d’information structurée qu’il ne révèle pas dans ses résultats, soit ils arrivent réellement à extraire cette information du texte non structuré qu’ils affichent comme source (http://ububu.com/BritneySpears.html). Si c’est la cas, c’est énorme.

Toute la question est là. Conclure que Google fait de l’analyse sémantique simplement parce qu’ils affichent des résultats sous la forme “sujet-prédicat-objet” serait aller un peu vite en besogne, mais si cette structure résulte d’une analyse automatique de la part de Google, et qu’ils s’avéraient capable de structurer sémantiquement des données non structurées, qui n’existent nulle part sous une forme structurée sémantiquement, alors on pourrait conclure que Google est capable de faire cela. Et cela semble bien être le cas.

Pourquoi est-ce important ?

Comme nous avons désormais coutume de le dire au sujet du web sémantique, une fois que la machine sera capable d’extraire du savoir d’une page web à notre place, une large partie du travail des ‘knowledge worker’ sera déjà réalisé par la machine, donnant aux humains la possibilité d’aller bien plus loin encore, les gain de productivité de tous ceux qui travaillent quotidiennement avec comme matière première de l’information seraient phénoménaux.

google web sémantique

Certes, pour l’instant, les réponses ne sont pas toujours très pertinentes, et tout cela n’est qu’un début. Quand on demande la date de naissance de Jésus, le résultat est plutôt surprenant, et la date de naissance de Laeticia Hallyday, à en croire Google (voir copie d’écran au début de l’article), mènerait notre Johnny national tout droit en prison si elle était exacte. Yahoo, de son coté, a exposé une vision bien plus claire sur ses intentions face au web sémantique, mais malgré tout, Google semble faire quelque chose que personne jusqu’ici n’a réussi a faire. Encore une fois, la création de valeur qu’apporterait une telle technologie, une fois mature, est tout simplement phénoménale.


Recommandez cet article à vos amis

et rejoignez nous sur Facebook et Twitter...



20 commentaires pour cet article

  1. Bacteries

    La date indiquée pour Laetica Hallyday c’est la date de leur mariage. Donc c’est pas une fausse réponse ;)

    Impressionnant ces modifications de Google en tout cas.

  2. Fabrice Epelboin

    @Bactéries bien vu… décidément, il est fort ce Google…

  3. GuiM

    « quelle est le meilleur blogueur de France ? »
    Je pensais voir ton nom … !

  4. Fabrice Epelboin

    @guim vil flatteur :) T’es dans le top10 français, toi ;)

  5. lovny

    Trop fou ce truc ! Tout le monde va se battre pour acheter son set « question-réponse » !! Genre : qui fait les meilleurs sandwichs du monde ? Réponse : Mac donald’s, etc en liens sponsorisés ou en référencement sémantique naturel…Cela ouvre tout simplement de nouvelles voies au web !

  6. lovny

    En tous cas « Qui est le moins cher ? » C’est pris !

  7. Denis

    « Donc soit Google utilise une source d’information structurée qu’il ne révèle pas dans ses résultats… »

    Probablement Freebase, base de données de faits alimentées par les utilisateurs. Par exemple les données relatives à Bryteny Spears : http://www.freebase.com/view/en/britney_spears

  8. Nicolas Cynober

    @lovny
    Attention, attention, à mon avis cette approche est très risquée dans le monde dans lequel nous vivons aujourd’hui. Jusqu’à présent Google proposait une liste de réponses, contenant parfois plusieurs millions de résultat. La position de Google était clair: « voila tous les points de vu, toutes les sources d’infomation, triée par notre algorithme ». Le fait de mettre en avant une seule réponse, c’est mettre en avant un seul point de vu, une seule vérité. Nous savons déjà que les utilisateurs de Google ne consulte que les premiers résultats d’une recherche. Cette nouvelle fonctionnalité à mon sens drive encore plus les internaute vers « le monde selon Google ». C’est une machine qui décide pour vous, c’est une machine qui vous donne son point de vu.
    Ce qui m’effraie un peu ce n’est pas que les données soient structurées ou non, mais que leur interprétation est faite par Google et lui seul (à défaut d’avoir des ontologies liées aux données qu’il exploite).

    @Denis
    Personnellement je préférerais que ces données soient extraites de DBPedia: http://dbpedia.org/page/Britney_Spears. L’information y est mieux structurée et fait partie du projet LinkedData (http://linkeddata.org).

    @Fabrice
    Super article. C’est une excellente nouvelle. J’attendais depuis longtemps un mouvement de Google, j’espère qu’ils feront le choix de la standardisation. Il y a de nombreuses façon de faire du web sémantique, j’espère que la voie du W3C sera choisie. Malheureusement les moteurs de recherche leader n’ont pas forcément intérêt à pousser à une standardisation. Car l’émergence de données structurées et d’ontologies spécialisées pourrait précipiter l’émergence de moteurs de recherches spécialisés avec des capacités d’analyse, de synthèse et de présentation des résultats bien supérieurs à celle de Google, limité à diffuser de l’information généraliste.

    D’ailleurs le même constat s’applique très bien aux communautés et aux réseaux sociaux. A terme, le web sémantique et l’ouverture des données ne fera que du bien à Facebook.

    Un sujet passionnant, et on sent l’article de passionné.

  9. Nicolas Cynober

    Dans ma dernière phrase il fallait bien entendu comprendre « pas que du bien à Facebook ». Voir mon article sur la verticalisation des SNS: http://nicolas.cynober.fr/blog/53,la-verticalisation-geographique-des-sns.html qui s’accélérerait avec une migration facilitée des comptes utilisateurs grâce au web sémantique.

  10. Claude

    Intéressant, j’ai essayé aussi les phrases suivantes:

    Quelle est la langue officielle en France?
    Quelle est la langue officielle en Belgique?
    Quelle est la langue officielle en Roumanie?

    Aucun problème, bonne réponse et puis j’ai essayé:
    Quelle est la langue officielle au Canada?

    Là échec…
    J’ai fait une petite reformulation:
    Quelle est la langue officielle du Canada?

    Bonne réponse cette fois.

    Plus surprenant:

    Quelle est la langue officielle en Canada?

    marche aussi…

    Donc, il semblerait qu’il y ait une vraie analyse linguistique en arrière-plan, malheureusement incomplète…

  11. albertine meunier

    il semble que google utilise uniquement les données de wikipedia (cf. commentaire#44 de article version anglaise / pense aussi cela http://www.readwriteweb.com/archives/google_semantic_data.php)

    pour les pays, dans wikipedia il y a un encart à droite de la page présentant des informations un peu structurées (info media)
    on y trouve la capitale, la plus grande ville, le président, …, la gentilé, ..idh, … le fuseau horaire

    et google répond « sémantiquement »
    si on lui pose la question avec l’une de ces infos
    http://www.google.fr/search?hl=fr&q=plus+grande+ville+france
    http://www.google.fr/search?hl=fr&q=gentil%C3%A9+france
    http://www.google.fr/search?hl=fr&q=idh+france

    idem pour johnny
    http://www.google.fr/search?hl=fr&q=naissance+johnny+hallyday
    on regarde dans sa fiche wikipedia dans l’encart

    si je pose la question en anglais
    http://www.google.com/search?hl=en&q=prime+minister+france
    ou en français http://www.google.fr/search?hl=fr&q=premier+ministre+france

    le according to (selon) n’est pas le même …
    à mon avis les according viennent tous de wikipedia … c’est juste pour embrouiller tout le monde ;-)

    google remonte plus finement les infos de wikipedia … c’est tout

  12. Pierre-Henri

    je l’avais remarqué y a quelques jours quand j’ai recherché la superficie de la France.

    la requete que j’avais faites : densité france
    la 1ere réponse : France — Superficie – Totale: 675 417 km2

  13. Pierre-Henri

    pardon la requete c’etait superficie france
    et la réponse etait bonne.
    densité france ne fonctionne pas, mais densité suisse oui

  14. Fabrice Epelboin

    @albertine De toutes évidence, d’autres sources sont utilisées, témoin l’erreur faite sur le président de la Suisse : Wikipedia ne comporte pas d’erreur, le CIA World Factbook, lui, contient l’erreur…

  15. albertine meunier

    @fabrice … ah oui peut être bien que il y a d’autres sources…hummm … je ne suis pas convaincue

    j’avoue que je ne sais plus que croire. si on focalise sur la suisse, c’est y pas possible que j’arrive pas à savoir qui est le président …

    Mais qui est donc le president de la suisse ?

    en anglais cela donne cela
    http://www.google.com/search?hl=en&q=president+swiss

    en français cela donne cela
    http://www.google.fr/search?hl=fr&q=président+suisse

    oh zut c’est pas le même en français et en anglais

    et en plus en français la source déclarée de la réponse « sémantisée » est wikipedia mais le président proposé dans wikipedia n’est pas le même président que dans la réponse « sémantisée » affichée par google

    car si je regarde wikipedia, http://fr.wikipedia.org/wiki/Suisse , j’ai un autre président encore.

    comme je ne suis pas spécialiste de la suisse, je ne m’avancerais pas … mais google n’afficherait pas une erreur quelque part ?
    ou dans le nom du président, ou dans le nom de la source, …

    une erreur si haut dans sa page… google n’est pourtant pas en beta ;-) à moins que cela soit à cause du fromage

  16. Wallen's

    @albertine et @Fabrice, la Suisse change de président chaque année, c’est une rotation annuel entre les membres du gouvernement appellé Conseil Fédéral. Le président n’a aucun pouvoir important. En l’occurence les réponses données par Google tirées de Wikipedia ou la CIA sont fausses en 2009. Mais elle était juste en 2007 et 2008 respectivement. La bonne réponse ne se trouve pas sur Google mais sur la page Wikipedia sur la Suisse. Mais on les excusera, très peu de suisse eux-même savent qui est le président en exercice dans une année donnée…
    De toute façon, l’exemple Suisse n’est pas très important en soi. Mais il illustre un point beaucoup plus important: on ne peut pas faire confiance à une source unique pour répondre à une question. Hors si l’approche sémantique de Google est de ne donner qu’une réponse à une question, il se pose en « champion » de la connaissance.
    Ce qui m’inquiète plus avec ce type d’approche, c’est qu’une question ne peut jamais appelé à une seule réponse. Il y a des différences de perspectives, d’opinions, etc. Une réponse n’est qu’une des représentations possible de la réalité dans un des contextes possibles de cette même réalité. Pour prendre un exemple brulant de l’actualité: comment donner une seule réponse synthétique à la question « qui a commencé la guerre à Gaza? ». Impossible.
    Seul l’homme peut réellement tirer la richesse des informations, en tirer des conclusions non-triviales, en extraire des interprétations nouvelles, montrer des nuances, etc. La machine ne peut qu’organiser l’information au mieux et les technologies sémantiques amélioreront cette organisation.

  17. carl

    Ca va devenir de plus en plus précis les recherches.
    Ce qu’il faut savoir si les réponses soient bonnes

  18. Ahmed_ISI

    bonsoir, apparemment Google est en phase de développement, mais se qu’est sert c’est que les résultats sont bien propre a Wikipedia.
    pour la notion de la semantique c t une question de temps pour google.

  19. Jean Rohmer

    Ca ressemble pas mal à Wolfram Alpha. Mais ceux-ci ne sont-ils pas maqués avec Bing ?

    Par ailleurs, ça ressemble plutôt à l’interrogation d’une base de données structurées classique. Toute la question est de savoir comment cette base est remplie: à la main, fusion de bases existantes, ou automatiquemnt à partir d’analyses de documents.

    Enfin, ce qui est amusant, c’est que Tim Berners Lee ne croit plus au Web Sémantique, mais dit que c’est un Web de Données …

    A ce sujet, voir:
    http://plexus-logos-calx.blogspot.com/2009/11/a0032.html

    De toutes façons, le destin du Web Sémantique est évidemment entre les mains de Google.

  20. Fabrice Epelboin

    Derrière Bing c’est d’abord PowerSet, un moteur de recherche sémantique lui aussi, mais oui, ils ont fait un partenariat avec Wolfram Alpha dans le but de proposer des fonctionnalités similaires…

    http://www.readwriteweb.com/archives/bing_teams_up_with_wolfram_alpha.php

    Si vous vous intéressez à Wolfram Alpha, je vous conseille les nombreux billets que Richard MacManus, Frédéric Lardinois et Alex Iskold ont écrit dessus sur RWW US et que l’on a pas eu le temps de traduire :-)

    http://www.readwriteweb.com/archives/hands-on_with_wolfram_alpha.php
    http://www.readwriteweb.com/archives/wolframalpha_our_first_impressions.php
    http://www.readwriteweb.com/archives/see_wolfram_alpha_in_action_-_video_and_screenshots.php
    http://www.readwriteweb.com/archives/does_microsoft_powerset_beat_google.php
    http://www.readwriteweb.com/archives/redux_wolframalpha_the_use_cases.php
    http://www.readwriteweb.com/archives/wolframalpha_the_use_cases.php

16 Trackbacks For This Post

  1. Web 3.0. : le web sémantique ? « Guilmain’s Weblog :

    [...] Source http://fr.readwriteweb.com/2009/01/07/a-la-une/google-web-semantique/ [...]

  2. Qui est le Président de la Suisse ? | Cmic Blog :

    [...] Président de la Suisse (Confédération Helvétique)? Suite à la lecture d’un article sur Read Write Web à propos de l’apparition du web sémantique sur Google, j’ai effectué le test. [...]

  3. Web en Vrac du 7 janvier 2009 - Darklg Blog :

    [...] Google se met-il au web sémantique ? [...]

  4. Revue des blogs #104 : Une liste de news très Geek ! :

    [...] Google se met-il au web sémantique ? Abonnez-vous à ces revues par ou par Découvrez les anciennes revues [...]

  5. Google se met-il au web sémantique ? :

    [...] C’est ce qu’on peut lire aujourd’hui sur ReadWriteWeb France. Je vous laisse lire ce très bon article. [...]

  6. Entracte 82 | Mind Overflow :

    [...] Google se met-il au web sémantique ?, sur ReadWriteWeb France A lesson in password security, sur Geeks are sexy BeBoomer : le réseau social des jeunes séniors, sur Mashable France L’album le plus vendu sur Amazon en 2008 était aussi offert gratuitement, sur Numérama Transformer Windows XP en Windows 7, chez Papy Geek Il suffit qu’on parte cinq minutes en vacances…, chez Eolas Grandir avec Star Wars, sur Ecrans TweetVeillance, sur Fluctuat [...]

  7. Google et le web sémantique (readwriteweb com) :

    [...] L’article : Google se met-il au web sémantique ? [...]

  8. Jean-Marie Gall.com » Blog Archive » Melting Pot de News 2.0 No. 11 :

    [...] Google se met-il au web sémantique ? by Fabrice de fr.ReadWriteWeb.com [...]

  9. Pour passer un bon week-end #8 | Vemeo Blog :

    [...] Une approche intéressante du web sémantique de la part de Google Catégorie : Un oeil sur le web | Tags: e-commerce, google, [...]

  10. Exalead se met-il au web sémantique | MonBouquet | Le Blog des Fleurs :

    [...] Cet article est un écho à celui de RWW fr : Google se met-il au Web sémantique [...]

  11. Nouvelles fonctionnalités dans Google Images ? (et le Web sémantique) | Bostral News :

    [...] Hello there! If you are new here, you might want to subscribe to the RSS feed for updates on this topic.Powered by WP Greet BoxAprès le référencement naturel, le référencement du langage naturel ? Google a l’air de travailler sérieusement sur cette question, et ReadWriteWeb s’était posé la question récemment, [...]

  12. Contenu, Référencement naturel et Web sémantique | LE BLOG DU CONCEPTEUR-REDACTEUR :

    [...] du Web sémantique à la Google. Plus récemment, le moteur de recherche a commencé à VRAIMENT répondre aux questions qui lui sont posées. On y arrive bientôt ! Et le contenu n’aura jamais représenté [...]

  13. blog test via un flux rss google reader » Archives du Blog » Google est-il est le meilleur moteur de recherche en langue naturelle ? :

    [...] y a déjà un petit moment, suite à ce billet de ReadWriteWeb que je voulais aborder le sujet des “recherches sémantiques” de Google. Ce sera donc [...]

  14. Google est-il est le meilleur moteur de recherche en langue naturelle ? | motrech :

    [...] y a déjà un petit moment, suite à ce billet de ReadWriteWeb que je voulais aborder le sujet des “recherches sémantiques” de Google. Ce sera donc [...]

  15. Google lance la recherche sociale | Actualités réseaux sociaux, rédaction & référencement | Florian Karmen :

    [...] Prochaine étape, Google travaillerait sur une nouvelle évolution de la recherche sur le web : la recherche sémantique. [...]

  16. Google lance la recherche sociale :

    [...] Prochaine étape, Google travaillerait sur une nouvelle évolution de la recherche sur le web : la recherche sémantique. Articles similaires : Dis moi où : le réseau de géolocalisation [...]

  • A propos
  • Best of
  • Buzzing
  • Tags

ReadWriteWeb est un blog dédié aux technologies internet qui en couvre l’actualité et se distingue par ses notes d’analyse et de prospective ainsi que par l’accent mis sur les usages et leurs impacts sur les média, la communication et la société. Il est classé parmi les blogs les plus influents de la planète par Technorati et Wikio. Publié en cinq langues, il s'appuie sur un réseau de correspondants locaux en Nouvelle-Zélande, aux Etats-Unis, en France, en Espagne, au Brésil, en Chine ainsi qu'en Afrique francophone. Ses articles sont publiés dans la rubrique technologie du New York Times.


Partenaires

hébergement infogérance Bearstech
ATLN Association Tunisienne pour les Libertés Numériques

af83



Tunisie média

Appli iPhone


 

Recommandés



Activité sur le site