Depuis peu, on trouve de curieuses réponses dans les résultats de recherche de Google, notamment quand on l’interroge sur des dates de naissances ou les liens familiaux. Google répond désormais à la question posé plutôt que de pointer vers des pages contenant éventuellement une réponse. Pour l’instant, cela fonctionne avec l’anglais, et, dans une moindre mesure, avec le Français (c’est nettement moins impressionnant avec le Français, il faut le reconnaître).

Quel est le nom de la femme de Johnny Hallyday ? Quel est la capitale de la France ? Désormais, ces questions posées à Google obtiennent une réponse simple, articulée dans le classique ‘sujet-prédicat-objet’ (le célèbre ‘triplet’ du web sémantique), le tout accompagné de la source justifiant la réponse. Bien sûr, le tout est suivit des traditionnels résultats de recherche propres à Google.


Les informations ne sont pas structurées de la sorte sur le web, en particulier dans les sources qu’utilise Google pour justifier ses réponses, celui-ci semble analyser des données semi structurées, voir pas structurées du tout. C’est une fonctionnalité qui a coûté 100 millions de dollars à Microsoft et qui à justifié le rachat l’an dernier de Powerset, qui, rappelons-le, n’est capable de tels résultats que sur un corpus réduit (Wikipedia en l’occurrence), en en aucun cas sur l’ensemble du web (ou en tout cas sur une large palette de sources) comme semble le faire Google.
Il est clair que Google expérimente de tels analyses sémantiques sur des données non structurés depuis déjà pas mal de temps, mais à notre connaissance, c’est la première fois que cette capacité est ainsi exposée au public. (un programme de Google appelé “Direct Answers” explore l’analyse sémantique de données non structurés depuis quelques années, mais il n’était pas accessible au public).
La fonctionnalité n’est pas accessible en permanence et sur tous les territoires, il nous a fallu, en France, passer par un proxy anonyme américain pour y avoir accès. Il n’est par ailleurs pas évident que cette fonctionnalité soit accessible à des tiers, mais cela ne semble pas impossible à faire, même si - et c’est fort dommage - les données fournies par Google ne sont pas structurées en RDF au sein du HTML des résultats de Google.
Google structure-t-il les données non structurées ?
Bruno Haid, de la startup sémantique Australienne System One qui nous a fourni cette information, l’a commenté de la façon suivante :
“Ce qui est intéressant c’est que, bien que les données concernant la mère de Justin Timberlake, parmi d’autres, soient issues de http://www.celebritywonder.com/html/justintimberlake.html, il n’y a aucune donnée structurée de façon sémantique qui permet d’identifier Lynne comme étant la mère de Britney Spears. Donc soit Google utilise une source d’information structurée qu’il ne révèle pas dans ses résultats, soit ils arrivent réellement à extraire cette information du texte non structuré qu’ils affichent comme source (http://ububu.com/BritneySpears.html). Si c’est la cas, c’est énorme.
Toute la question est là. Conclure que Google fait de l’analyse sémantique simplement parce qu’ils affichent des résultats sous la forme “sujet-prédicat-objet” serait aller un peu vite en besogne, mais si cette structure résulte d’une analyse automatique de la part de Google, et qu’ils s’avéraient capable de structurer sémantiquement des données non structurées, qui n’existent nulle part sous une forme structurée sémantiquement, alors on pourrait conclure que Google est capable de faire cela. Et cela semble bien être le cas.
Pourquoi est-ce important ?
Comme nous avons désormais coutume de le dire au sujet du web sémantique, une fois que la machine sera capable d’extraire du savoir d’une page web à notre place, une large partie du travail des ‘knowledge worker’ sera déjà réalisé par la machine, donnant aux humains la possibilité d’aller bien plus loin encore, les gain de productivité de tous ceux qui travaillent quotidiennement avec comme matière première de l’information seraient phénoménaux.

Certes, pour l’instant, les réponses ne sont pas toujours très pertinentes, et tout cela n’est qu’un début. Quand on demande la date de naissance de Jésus, le résultat est plutôt surprenant, et la date de naissance de Laeticia Hallyday, à en croire Google (voir copie d’écran au début de l’article), mènerait notre Johnny national tout droit en prison si elle était exacte. Yahoo, de son coté, a exposé une vision bien plus claire sur ses intentions face au web sémantique, mais malgré tout, Google semble faire quelque chose que personne jusqu’ici n’a réussi a faire. Encore une fois, la création de valeur qu’apporterait une telle technologie, une fois mature, est tout simplement phénoménale.
No related posts.
Related posts brought to you by Yet Another Related Posts Plugin.
URL Trackback pour cet article : http://fr.readwriteweb.com/2009/01/07/a-la-une/google-web-semantique/
Commentaires
Abonnement au flux de commentaires de cet article OR Abonnement au flux de commentaires de ReadWriteWeb
[...] Source http://fr.readwriteweb.com/2009/01/07/a-la-une/google-web-semantique/ [...]
Ecrit par : Web 3.0. : le web sémantique ? « Guilmain’s Weblog | 7 janvier 2009 à 14:34
La date indiquée pour Laetica Hallyday c’est la date de leur mariage. Donc c’est pas une fausse réponse ;)
Impressionnant ces modifications de Google en tout cas.
Ecrit par : Bacteries | 7 janvier 2009 à 15:21
@Bactéries bien vu… décidément, il est fort ce Google…
Ecrit par : Fabrice Epelboin | 7 janvier 2009 à 15:23
[...] Président de la Suisse (Confédération Helvétique)? Suite à la lecture d’un article sur Read Write Web à propos de l’apparition du web sémantique sur Google, j’ai effectué le test. [...]
Ecrit par : Qui est le Président de la Suisse ? | Cmic Blog | 7 janvier 2009 à 15:24
“quelle est le meilleur blogueur de France ?”
Je pensais voir ton nom … !
Ecrit par : GuiM | 7 janvier 2009 à 15:41
@guim vil flatteur :) T’es dans le top10 français, toi ;)
Ecrit par : Fabrice Epelboin | 7 janvier 2009 à 15:45
[...] Google se met-il au web sémantique ? [...]
Ecrit par : Web en Vrac du 7 janvier 2009 - Darklg Blog | 7 janvier 2009 à 18:03
Trop fou ce truc ! Tout le monde va se battre pour acheter son set “question-réponse” !! Genre : qui fait les meilleurs sandwichs du monde ? Réponse : Mac donald’s, etc en liens sponsorisés ou en référencement sémantique naturel…Cela ouvre tout simplement de nouvelles voies au web !
Ecrit par : lovny | 7 janvier 2009 à 20:57
En tous cas “Qui est le moins cher ?” C’est pris !
Ecrit par : lovny | 7 janvier 2009 à 20:58
“Donc soit Google utilise une source d’information structurée qu’il ne révèle pas dans ses résultats…”
Probablement Freebase, base de données de faits alimentées par les utilisateurs. Par exemple les données relatives à Bryteny Spears : http://www.freebase.com/view/en/britney_spears
Ecrit par : Denis | 7 janvier 2009 à 23:37
[...] Google se met-il au web sémantique ? Abonnez-vous à ces revues par ou par Découvrez les anciennes revues [...]
Ecrit par : Revue des blogs #104 : Une liste de news très Geek ! | 8 janvier 2009 à 1:24
@lovny
Attention, attention, à mon avis cette approche est très risquée dans le monde dans lequel nous vivons aujourd’hui. Jusqu’à présent Google proposait une liste de réponses, contenant parfois plusieurs millions de résultat. La position de Google était clair: “voila tous les points de vu, toutes les sources d’infomation, triée par notre algorithme”. Le fait de mettre en avant une seule réponse, c’est mettre en avant un seul point de vu, une seule vérité. Nous savons déjà que les utilisateurs de Google ne consulte que les premiers résultats d’une recherche. Cette nouvelle fonctionnalité à mon sens drive encore plus les internaute vers “le monde selon Google”. C’est une machine qui décide pour vous, c’est une machine qui vous donne son point de vu.
Ce qui m’effraie un peu ce n’est pas que les données soient structurées ou non, mais que leur interprétation est faite par Google et lui seul (à défaut d’avoir des ontologies liées aux données qu’il exploite).
@Denis
Personnellement je préférerais que ces données soient extraites de DBPedia: http://dbpedia.org/page/Britney_Spears. L’information y est mieux structurée et fait partie du projet LinkedData (http://linkeddata.org).
@Fabrice
Super article. C’est une excellente nouvelle. J’attendais depuis longtemps un mouvement de Google, j’espère qu’ils feront le choix de la standardisation. Il y a de nombreuses façon de faire du web sémantique, j’espère que la voie du W3C sera choisie. Malheureusement les moteurs de recherche leader n’ont pas forcément intérêt à pousser à une standardisation. Car l’émergence de données structurées et d’ontologies spécialisées pourrait précipiter l’émergence de moteurs de recherches spécialisés avec des capacités d’analyse, de synthèse et de présentation des résultats bien supérieurs à celle de Google, limité à diffuser de l’information généraliste.
D’ailleurs le même constat s’applique très bien aux communautés et aux réseaux sociaux. A terme, le web sémantique et l’ouverture des données ne fera que du bien à Facebook.
Un sujet passionnant, et on sent l’article de passionné.
Ecrit par : Nicolas Cynober | 8 janvier 2009 à 10:58
Dans ma dernière phrase il fallait bien entendu comprendre “pas que du bien à Facebook”. Voir mon article sur la verticalisation des SNS: http://nicolas.cynober.fr/blog/53,la-verticalisation-geographique-des-sns.html qui s’accélérerait avec une migration facilitée des comptes utilisateurs grâce au web sémantique.
Ecrit par : Nicolas Cynober | 8 janvier 2009 à 11:10
[...] C’est ce qu’on peut lire aujourd’hui sur ReadWriteWeb France. Je vous laisse lire ce très bon article. [...]
Ecrit par : Google se met-il au web sémantique ? | 8 janvier 2009 à 11:14
[...] Google se met-il au web sémantique ?, sur ReadWriteWeb France A lesson in password security, sur Geeks are sexy BeBoomer : le réseau social des jeunes séniors, sur Mashable France L’album le plus vendu sur Amazon en 2008 était aussi offert gratuitement, sur Numérama Transformer Windows XP en Windows 7, chez Papy Geek Il suffit qu’on parte cinq minutes en vacances…, chez Eolas Grandir avec Star Wars, sur Ecrans TweetVeillance, sur Fluctuat [...]
Ecrit par : Entracte 82 | Mind Overflow | 8 janvier 2009 à 13:34
Intéressant, j’ai essayé aussi les phrases suivantes:
Quelle est la langue officielle en France?
Quelle est la langue officielle en Belgique?
Quelle est la langue officielle en Roumanie?
Aucun problème, bonne réponse et puis j’ai essayé:
Quelle est la langue officielle au Canada?
Là échec…
J’ai fait une petite reformulation:
Quelle est la langue officielle du Canada?
Bonne réponse cette fois.
Plus surprenant:
Quelle est la langue officielle en Canada?
marche aussi…
Donc, il semblerait qu’il y ait une vraie analyse linguistique en arrière-plan, malheureusement incomplète…
Ecrit par : Claude | 8 janvier 2009 à 14:10
il semble que google utilise uniquement les données de wikipedia (cf. commentaire#44 de article version anglaise / pense aussi cela http://www.readwriteweb.com/archives/google_semantic_data.php)
pour les pays, dans wikipedia il y a un encart à droite de la page présentant des informations un peu structurées (info media)
on y trouve la capitale, la plus grande ville, le président, …, la gentilé, ..idh, … le fuseau horaire
et google répond “sémantiquement”
si on lui pose la question avec l’une de ces infos
http://www.google.fr/search?hl=fr&q=plus+grande+ville+france
http://www.google.fr/search?hl=fr&q=gentil%C3%A9+france
http://www.google.fr/search?hl=fr&q=idh+france
…
idem pour johnny
http://www.google.fr/search?hl=fr&q=naissance+johnny+hallyday
on regarde dans sa fiche wikipedia dans l’encart
si je pose la question en anglais
http://www.google.com/search?hl=en&q=prime+minister+france
ou en français http://www.google.fr/search?hl=fr&q=premier+ministre+france
le according to (selon) n’est pas le même …
à mon avis les according viennent tous de wikipedia … c’est juste pour embrouiller tout le monde ;-)
google remonte plus finement les infos de wikipedia … c’est tout
Ecrit par : albertine meunier | 8 janvier 2009 à 14:43
je l’avais remarqué y a quelques jours quand j’ai recherché la superficie de la France.
la requete que j’avais faites : densité france
la 1ere réponse : France — Superficie - Totale: 675 417 km2
Ecrit par : Pierre-Henri | 8 janvier 2009 à 16:32
pardon la requete c’etait superficie france
et la réponse etait bonne.
densité france ne fonctionne pas, mais densité suisse oui
Ecrit par : Pierre-Henri | 8 janvier 2009 à 16:34
@albertine De toutes évidence, d’autres sources sont utilisées, témoin l’erreur faite sur le président de la Suisse : Wikipedia ne comporte pas d’erreur, le CIA World Factbook, lui, contient l’erreur…
Ecrit par : Fabrice Epelboin | 8 janvier 2009 à 17:00
@fabrice … ah oui peut être bien que il y a d’autres sources…hummm … je ne suis pas convaincue
j’avoue que je ne sais plus que croire. si on focalise sur la suisse, c’est y pas possible que j’arrive pas à savoir qui est le président …
Mais qui est donc le president de la suisse ?
en anglais cela donne cela
http://www.google.com/search?hl=en&q=president+swiss
en français cela donne cela
http://www.google.fr/search?hl=fr&q=président+suisse
oh zut c’est pas le même en français et en anglais
et en plus en français la source déclarée de la réponse “sémantisée” est wikipedia mais le président proposé dans wikipedia n’est pas le même président que dans la réponse “sémantisée” affichée par google
car si je regarde wikipedia, http://fr.wikipedia.org/wiki/Suisse , j’ai un autre président encore.
comme je ne suis pas spécialiste de la suisse, je ne m’avancerais pas … mais google n’afficherait pas une erreur quelque part ?
ou dans le nom du président, ou dans le nom de la source, …
une erreur si haut dans sa page… google n’est pourtant pas en beta ;-) à moins que cela soit à cause du fromage
Ecrit par : albertine meunier | 8 janvier 2009 à 18:29
[...] L’article : Google se met-il au web sémantique ? [...]
Ecrit par : Google et le web sémantique (readwriteweb com) | 8 janvier 2009 à 18:59
@albertine et @Fabrice, la Suisse change de président chaque année, c’est une rotation annuel entre les membres du gouvernement appellé Conseil Fédéral. Le président n’a aucun pouvoir important. En l’occurence les réponses données par Google tirées de Wikipedia ou la CIA sont fausses en 2009. Mais elle était juste en 2007 et 2008 respectivement. La bonne réponse ne se trouve pas sur Google mais sur la page Wikipedia sur la Suisse. Mais on les excusera, très peu de suisse eux-même savent qui est le président en exercice dans une année donnée…
De toute façon, l’exemple Suisse n’est pas très important en soi. Mais il illustre un point beaucoup plus important: on ne peut pas faire confiance à une source unique pour répondre à une question. Hors si l’approche sémantique de Google est de ne donner qu’une réponse à une question, il se pose en “champion” de la connaissance.
Ce qui m’inquiète plus avec ce type d’approche, c’est qu’une question ne peut jamais appelé à une seule réponse. Il y a des différences de perspectives, d’opinions, etc. Une réponse n’est qu’une des représentations possible de la réalité dans un des contextes possibles de cette même réalité. Pour prendre un exemple brulant de l’actualité: comment donner une seule réponse synthétique à la question “qui a commencé la guerre à Gaza?”. Impossible.
Seul l’homme peut réellement tirer la richesse des informations, en tirer des conclusions non-triviales, en extraire des interprétations nouvelles, montrer des nuances, etc. La machine ne peut qu’organiser l’information au mieux et les technologies sémantiques amélioreront cette organisation.
Ecrit par : Wallen's | 9 janvier 2009 à 12:08
[...] Google se met-il au web sémantique ? by Fabrice de fr.ReadWriteWeb.com [...]
Ecrit par : Jean-Marie Gall.com » Blog Archive » Melting Pot de News 2.0 No. 11 | 10 janvier 2009 à 22:25
[...] Une approche intéressante du web sémantique de la part de Google Catégorie : Un oeil sur le web | Tags: e-commerce, google, [...]
Ecrit par : Pour passer un bon week-end #8 | Vemeo Blog | 12 janvier 2009 à 18:04
Ca va devenir de plus en plus précis les recherches.
Ce qu’il faut savoir si les réponses soient bonnes
Ecrit par : carl | 13 janvier 2009 à 18:03
[...] Cet article est un écho à celui de RWW fr : Google se met-il au Web sémantique [...]
Ecrit par : Exalead se met-il au web sémantique | MonBouquet | Le Blog des Fleurs | 15 janvier 2009 à 14:43
[...] Hello there! If you are new here, you might want to subscribe to the RSS feed for updates on this topic.Powered by WP Greet BoxAprès le référencement naturel, le référencement du langage naturel ? Google a l’air de travailler sérieusement sur cette question, et ReadWriteWeb s’était posé la question récemment, [...]
Ecrit par : Nouvelles fonctionnalités dans Google Images ? (et le Web sémantique) | Bostral News | 15 janvier 2009 à 18:18
[...] du Web sémantique à la Google. Plus récemment, le moteur de recherche a commencé à VRAIMENT répondre aux questions qui lui sont posées. On y arrive bientôt ! Et le contenu n’aura jamais représenté [...]
Ecrit par : Contenu, Référencement naturel et Web sémantique | LE BLOG DU CONCEPTEUR-REDACTEUR | 21 mars 2009 à 7:04
[...] y a déjà un petit moment, suite à ce billet de ReadWriteWeb que je voulais aborder le sujet des “recherches sémantiques” de Google. Ce sera donc [...]
Ecrit par : blog test via un flux rss google reader » Archives du Blog » Google est-il est le meilleur moteur de recherche en langue naturelle ? | 22 mars 2009 à 11:07
[...] y a déjà un petit moment, suite à ce billet de ReadWriteWeb que je voulais aborder le sujet des “recherches sémantiques” de Google. Ce sera donc [...]
Ecrit par : Google est-il est le meilleur moteur de recherche en langue naturelle ? | motrech | 24 avril 2009 à 9:39
bonsoir, apparemment Google est en phase de développement, mais se qu’est sert c’est que les résultats sont bien propre a Wikipedia.
pour la notion de la semantique c t une question de temps pour google.
Ecrit par : Ahmed_ISI | 29 mai 2009 à 4:05