Cognition Technologies, une société du web sémantique spécialisée dans les moteurs de recherche en langage naturel (Natural Language Processing, NLP) annonce aujourd’hui la sortie de ce qu’elle revendique comme la plus grande carte sémantique de la langue anglaise. En tant que fan de tout ce qui touche au web sémantique, nous avons interviewé aussitôt Scott Janus, le PDG de Cognition pour comprendre ce qui se cachait derrière cette annonce pour le moins obscure.
Nous avons découvert au passage que Cognition, qui pour le moment vend des licences de sa technologie à diverses sociétés, compte construire un moteur de recherche grand public et se lancer à l’assaut de Google et des autres géants de la recherche.
Qu’est ce qu’une carte sémantique ?
Une carte sémantique, c’est une sorte de dictionnaire, en cela que c’est une représentation de la capacité de Cognition de définir des « choses ». Cognition affirme que sa carte sémantique contient plus de 10 millions de connections sémantiques, 4 millions contextes sémantiques (des mots qui, contextuellement, impactent la signification d’autres mots environnants); 536000 sens (de mots et de phrases); 7500 nœuds dans l’ontologie et 506000 racines de mots pour la langue anglaise.

(image de Cognition)
La société affirme que la taille de sa carte sémantique est plus de deux fois plus grande que tout dictionnaire linguistique anglais informatisé existant aujourd’hui.
Cognition a travaillé sur cette technologie depuis 24 ans, en collaboration avec des lexicographes et des linguistes. Grâce à ce mix entre algorithmes et travail humain, Cognition dit être capable de discerner la pertinence, le sens, et les synonymes. Scott Janus nous a confié que l’un des points forts de sa technologies est sa capacité à lever les ambiguïtés, ce qui la différencie d’algorithmes statistiques à base de mots clés qui sont derrière les technologies de Google, Yahoo et autres moteurs de recherche.
Par exemple, selon Janus, Cognition peut trouver des résultats même sans la présence de mot clés cruciaux dans la requête, quelque chose dont Google est incapable.
Cognition prévoit un moteur de recherche grand public
La comparaison répétée avec Google ne peut qu’amener un question évidente : au delà de licences B2B, Cognition a-t-il dans ses cartons une application grand public de sa technologie ? En d’autres mots, Cognition a-t-il l’intention de se lancer à l’attaque de Google sur le terrain des moteurs de recherche ?
Scott Janus réplique qu’ils comptent ‘un jour’ sortir un moteur de recherche généraliste pour le web. Cependant, s’empresse-t-il d’ajouter, « nous avons besoin de plus de financements pour indexer la totalité du web, mettre en place l’infrastructure, etc. » Pour le moment, Cognition continuera à vendre des licences de sa technologie sémantique dans des domaines verticaux comme le juridique ou le législatif. Janus soulignait à quel point Cognition est « excellent dans des contenus complexes où foisonnent les synonymes », et pour l’instant, l’industrie des contenus est sa cible prioritaire.
Les produits de Cognition se limitent aujourd’hui au législatif (e.g. LexisNexix Concordance’s case management) et à la santé (e.g. Medline), ainsi qu’à une version enrichie sémantiquement de Wikipedia.

Cognition vs. Powerset et Hakia
Les deux autres moteurs de recherche sémantiques qui ont retenus notre attention à ReadWriteWeb sont Powerset et Hakia. La comparaison s’impose et nous avons posé la question à Scott Janus, le PDG de Cognition Technologies.
Pour faire court, Janus affirme que sa carte sémantique est plus grande et meilleure.
Plus précisément, il considère que Powerset n’est « pas vraiment comparable » à Cognition. Selon Janus, Powerset fait du parsing – un technologie sous licence du Xerox Parc – ce qui représente 20-25% du problème, tout au plus, mais Powerset « n’a pas de bonne carte sémantique ». Cognition est même allé jusqu’à écrire un livre blanc (pdf) pour expliquer en quoi ils pensent que Powerset « a raté le coche ».
Quant à Hakia, Janus estime que – d’après ce qu’il en a vu – Hakia se focalise les classification ontologiques (classifier et organiser ensemble les mots et les concepts). Mais là encore, Hakia n’a pas de carte sémantique complète. Au final, selon lui, Cognition a « une meilleure compréhension » comparé à Hakia.
Au final, Janus se dit persuadé que les société dans le secteur de la recherche sémantique se doivent d’avoir une carte sémantique complète pour rencontrer un quelconque succès. Nul doute que Powerset et Hakia auront une vision différente du problème, mais cela donne à Cognition un point de différentiation évident.
[UPDATE] Hakia, par l’intermédiaire de Riza C. Berkan, précise que leur produit OntoSem ne classifie pas les mots et concepts mais les organise en réseaux reflétant une ontologie. Leur carte conceptuelle n’est par ailleurs pas liée à une langue précise, même si pour l’instant elle n’est disponible qu’en anglais, ce qui pourrait s’avérer un point crutial tant l’anglais pert de plus en plus de sa dominance sur le web.[/UPDATE]
[NOTE PERSONNELLE] Pour un secteur qui n’est pas, c’est le moins que l’on puisse dire, particulièrement encombré pour l’instant – le recherche sémantique en langage naturel – l’approche de Cognition semble tout de même bien aggressive. Sans être au royaume des Bisounours, le web sémantique est encore peuplé et dominé par des chercheurs et des geeks, et il y a largement de la place pour la vingtaine d’acteurs présents sur la planète, que ce soit dans les technologies B2B – qui représentent l’essentiel des offres actuelles, dont celle de Cognition – ou celui, plus utopique, du saint Graal du moteur de recherche sémantique, où pour l’instant, tout reste à prouver.[/NOTE PERSONNELLE]
(adapté d’un article de Richard MacManus)












