Depuis dejà quelques années, le tagging est entré dans les mœurs de bon nombre d’internautes. On trouve des tags partout : sur les blogs, sur YouTube, sur Flickr… Mais un problème de taille subsiste : quand vous mettez en ligne les photos de vos dernières vacances en Bretagne, les tagguez-vous “Saint Malo” ou “st malo” ? Comment s’assurer dès lors que vos contenus seront correctement identifiés, que d’autres contenus pertinents pourrons lui être associés ? Et quand vous rencontrez le tag “Orange”, comment savoir s’il s’agit de France Télécom ou d’un fruit ?
Common Tag est un nouveau format pour le tagging qui crée des références à des concepts définis de façon concrète explicite, qui ont leur propre metadonées et leurs URLs URIs. Avec Common Tag, les éditeurs peuvent facilement créer des groupes thématiques de contenus, créer des liens entre leurs contenus, enrichir des pages avec des données extérieurs à celle-ci, etc…
Common Tag est une initiative qui regroupe une sélection de sociétés parmi les plus en pointe dans la sémantique : AdaptiveBlue, DERI (NUI Galway), Faviki, Freebase, Yahoo!, Zemanta et Zigtag.
Sur le site de Common Tag, on peut lire que le format a été développé pour dépasser les limitations du tagging et pour aider tout le monde, les utilisateurs finaux, les éditeurs, et les développeurs, à mieux profiter de leurs contenus. Avec Common Tag, le contenus est taggué avec un concept unique et bien défini. Tout ce qui se rapporte à Saint Malo est taggué avec le concept de Saint Malo, et tout ce qui se rapporte à une orange est taggué avec l’orange en tant que fruit. Common Tag donne également accès à des métadonnées utiles qui définissent chaque concept et décrivent comment les concepts sont liés les uns aux autres. Les métadonnées pour le tag Nicolas Sarkozy indiquent par exemple qu’il est président de l’Etat Français et qu’il est marié à Carla Bruni Sarkozy.
Le projet se donne pour but de permettre aux contenus d’être faciles à trouver et autant connectés les uns aux autres que possible. Ses initiateurs espèrent également rendre ainsi les contenus plus attractifs pour les lecteurs. Quand une application web arrive à déterminer à quel contenu elle a à faire, l’interface utilisateur peut faire des progrès fantastiques.
Le site donne l’exemple d’un développeurs créant une application qui utilise un article concernant le dernier film de Star Trek qui propose le DVD à l’achat sur la même page (culture geek oblige). “Si l’éditeur et le marchand utilisent Common Tag, l’application est en mesure de créer facilement un lien entre les deux, sans avoir besoin de deviner (avec plus ou moins de succès) le sens des contenus proposés par les deux services.”

Les tags sont en RDFa, un format standard pour définir les données au sein de HTML. Le code nécessaire peut se trouver dans le guide utilisateur de Common Tag, et pour en savoir plus, un groupe ad hoc a été créé chez Yahoo!.
Andraz Tori, le directeur de la technologie de Zemanta, avec lequel nous avions échangé longuement sur les avancées à venir dans le secteur de la sémantique lors de son dernier passage à Paris, raconte que l’idée de Common Tag est venu lors d’une conversation informelle avec Peter Mika de Yahoo! sur la façon la plus simple pour les éditeurs d’utiliser au mieux leurs contenus en les taggant sémantiquement”. “Nous avons vu dans Common Tag un moyen de rendre les contenus plus faciles à trouver, à interconnecter, afin d’en proposer une lecture plus engageante”.
“L’expérience nous a montré que nous avions besoin d’un écosystème riche dès le départ, pas seulement d’un projet universitaire, mais d’un véritable effort industriel. De toutes évidences, l’idée a été bien reçue.”
Concernant l’adoption par les éditeurs et les developpeurs de Common Tag, Tori ajoute que “c’est la première fois qu’autan de sociétés se sont réunies pour proposer un standard en matière de tagging. Nous avons construit ce travail sur la base de travaux universitaires existants, sur lesquel nous avons ajouté un intérêt pour les entrepreneurs à se saisir du sujet”.
Initialement développé pour la langue anglaise, le projet n’est en rien fermé à d’autres langues, comme le souligne Andraz Tori : “imaginez qu’un article soit taggué avec le ville de Vienne via dbpedia, si vous regardez sur la page dbpedia vous constaterez que l’abstract du tag est disponible en différentes langues, vous pouvez dès lors choisir celle qui vous convient. Le même dbpedia ne le propose pas encore, mais si vous utilisez une autre ressource libre comme Wikipedia, vous y trouverez en bas à gauche de la page sur Vienne sa traduction en différentes langues. On peut ainsi passer du tag Vienne à son équivalent en arabe ou en chinois (et bien sûr en Français). Comme ces données sont accessibles dans des bases de données ouvertes, nous pouvons très bien ajouter des fonctionnalités supplémentaires afin de s’adapter à la langue de l’utilisateur ou des contenus.”
Zemanta, la société qu’à fondé Andraz Tori, a développé une technologie fantastique, proche, d’une certaine façon de Open Calais mais avec une approche radicalement différente en termes d’usages. Mais celle-ci ne sait manipuler que la langue anglaise. Lors d’interminables conversations, Andraz a toujours insisté sur le fait qu’il était hors de question qu’il en soit autrement, pour de simples questions de coûts.
Open Calais, qui dispose d’infiniment plus de moyens (c’est Reuters qui est derrière et qui – IMHO – base une large partie de sa stratégie, si ce n’est de son avenir, sur le web sémantique) sait manipuler d’autres langues mais s’avère pour l’instant assez décevant dès qu’il traite autre chose que la langue de Shakespeare. D’une façon générale, la sémantique, le jours où elle rendra de réels service aux utilisateurs (c’est déjà le cas avec Zemanta ou adaptativeBlue par exemple), sera un service offert aux anglophones.
Avec Common Tag (qui n’a rien à voir avec les technos précités, c’est un standard ouvert), on a à faire à une approche qui peut facilement s’internationaliser. Il serait bon que des Français participent à cet effort collectif afin de s’assurer que la langue de Molière ne soit pas le parent pauvre de la sémantique, tant ce secteur est à coup sûr un immense gisement de croissance et de création de valeur pour le web de demain. Pour l’instant, on ne peut pas dire que l’on soit très bien partis, mais il n’est pas trop tard.
Dans le courant de l’été, nous reviendrons sur Common Tag à travers une longue interview avec Andraz Tori, alors si vous avez des questions, n’hésitez pas, les commentaires sont là pour ça.
A lire également :








12 juin 2009 à 1:57
Merci pour cet article. J’utilise déjà Zemanta sur mon Blog Wordpress. C’est vrai que cet outil est génial et il ne lui manque la langue française pour être parfait. Je suis déçu d’apprendre que cela n’arrivera pas…
Est ce que j’ai besoin d’installer un plugin wordpress particulier pour utiliser Common Tag ou Zemanta suffit?
12 juin 2009 à 5:34
Non, mais je rêve ou quoi ? Y’a déjà RDFs et OWL pour ça ! allez, multipliez les normes incompatibles ! c’est cool !
12 juin 2009 à 7:11
Je crois que Common Tag a vocation de devenir un élément extrêmement important de l’architecture du Web sémantique, car il permet la jointure entre le marquage (et la recherche) en langage naturel et le marquage formel (et les requêtes du même métal) utilisant concepts définis par des URI, et décrits en RDF.
” … un nouveau format pour le tagging qui crée des références à des concepts définis de façon concrète, qui ont leur propre metadonnées et leurs URLs.” Pour des lecteurs non avertis des standards sémantiques, ce n’est pas forcément très clair. Si on pouvait éviter “URL” et employer “URI”, et remplacer “concrète” par “explicite” ou “formel” on y verrait plus clair.
Pour répondre à Kane, Tag Common ne remplace par OWL ou RDFS ou RDFa, il les complète. Regardez faviki par exemple pour comprendre comment poser des tags sémantiques.
Et le fait que Zemanta ne fonctionne qu’en anglais pour le moment n’a rien à voir avec la puissance de ce standard. Sur faviki, si je pose un tag avec mes mots français, un utilisateur japonais le verra en japonais …
12 juin 2009 à 8:07
@Kane Tu t’emportes ;-) Ca vient en plus, pas à la place…
@Bernard Oui, absolument, ma comparaison en terme de langue se limite au parallèle OpenCalais/Zemanta, des technos proches (bien que, en tout cas vu de l’extérieur), et au fait que les autres langues que l’anglais vont se retrouver le bec dans l’eau. Common Tag, je crois avoir été clair là dessus (dis moi si ce n’est pas le cas), n’a rien a voir avec ce genre de techno, c’est tout autre chose, et la première chose que m’a dit Tori quand je l’ai interrogé hier sur le sujet c’est “si, si, cette fois ci, on a pensé à d’autres langues” (Tori est Slovène à la base).
12 juin 2009 à 8:46
A lire aussi chez le Dr. Passant:
http://apassant.net/node/288
12 juin 2009 à 13:11
Bref, je peux me tromper, en lisant rapidement et en diagonale cet article de présentation, il s’agit, par exemple, d’articuler et faire correspondre deux folksonomies ensembles par l’intermédiaire d’un langage documentaire de plus bas niveau de type thesaurus…
Ou comment réinventer le fil à couper le beurre.
Je précise bien que c’est la première impression à chaud que cela me donne, je relirais tranquillement cet article ainsi que les différents liens donnés un peu plus tard. Cela fera probablement évoluer mon premier avis, dans un sens comme dans l’autre.
12 juin 2009 à 14:37
Trop en diagonale… imprime et relis ca à tête reposé ;-)
Pas rapport à une folksonomie, c’est plutôt une proposition d’ontologie inter-reliée à des bases ouvertes, avec la possibilité de suggérer des tag (via Zemanta)…
12 juin 2009 à 18:03
Beaucoup de choses critiquables. Quick start quide? Are you serious about the quick part?
Facile de critiquer… Mais bon soyons sérieux, on va pas cracher dans la soupe. Pour moi les points importants:
- Une bonne utilisation de RDFa qui me rappel les expériences de Got et qui UNE FOIS DE PLUS montre sa supériorité sur les microformats.
- Le web sémantique continue de sortir du cadre académique. ComonTag n’est pas une initiative du W3C.
- Le web sémantique crée pleins d’opportunité de biz-dev. Zementa intègre des tags RDFa que le moteur de recherche Yahoo exploitera mieux que Google. Le tout basé sur le LinkedData (DBPedia) pour identifier les concepts.
- On commence à se rendre compte que les tags c’est vraiment tout pourri. C’est pas trop tôt ;)
- Zementa et Yahoo ont une vraie vision derrière ce projet, ce n’est donc pas simplement une spec balancé en l’air. On peut penser qu’il y aura vraiment une utilisation et des données générées.
Bref un gros +1 sur cette news. A suivre…
12 juin 2009 à 23:49
Ça fait peu de temps que je m’intéresse au web sémantique. Donc, je vais peut-être dire des conn… Via le (très bon site) les petites cases j’avais déjà entendu parlé des tags sémantiques du projet http://moat-project.org/ et/ou http://lodr.info/ du Dr. Passant cité plus haut. Il semble donc que ce ne soit pas une première, sauf que cette fois ça a l’air plus solide en terme d’acteurs y participant (ce qui est fondamentale pour pérenniser l’idée). Je dois dire que je suis assez septique en ce qui concerne le web sémantique (vu le boulot que ça demande en rapport des bénéfices apportés à l’auteur du site, car c’est un peu offrir son contenu aux autres, qui plus malins et mieux armés seront en tirer plus profit que vous même, peut-être…). Mais trêve de paranoïa et voyons-y un moyen de partage positif qu’il ne faudrait pas loupé.
Et de tout ce que j’ai lu, c’est bien dans le projet moat que j’ai vu le principal intérêt de passer à RDFa, et je me suis même dit que “RDFa-iser” juste ses tags, son profil (foaf) sa vCard et ses produits/commentaires (pour Google) dans un premier temps c’était largement suffisant.
13 juin 2009 à 12:40
Investir sur des techno dans le web sémantique, c’est faire un pari sur l’avenir du web, ca demande d’avoir une vision et un sérieux patrimoine, ou d’être capable de faire partager cette vision à un investisseur. Pas évident, mais tous les VCs n’ont pas un spectre limité à l’eCommerce à la papa, c’est faisable.
Sinon, c’est clair que c’est bien plus cher que de mettre en place un simple tagging sous forme de folksonomy (et ce n’est pas forcément contradictoire avec cette approche qui peut etre complémentaire). Mais là, on a le moyen de relier un écosystème informationel local avec des bases ouvertes multiples, avec toutes les données qui s’y lien déjà. Qui plus est, on a des passerelles linguistique pour les tags, ce qui permet de faire beaucoup de choses en matière de systèmes multilingue. Le fait que Zemanta soit une startup Slovène dirigé par des gens qui travaillent en anglais et se balladent aux quatres coins du monde est un plus pour la culture qui va germer dans ce projet.
Je vous fais grace du couplet sur le web des données et des liens et le web sémantique. Allez jeter un oeil du coté de chez Nicolas, là, par exemple : http://nicolas.cynober.fr/blog/240,linkeddata-un-ecosysteme-pour-le-web-semantique.html
Avec Common Tag, comme le souligne Hubert, la véritable innovation provient avant tout de la stature des acteurs réunis autour du projet Common Tag, c’est une étape importante d’un point de vue Biz, même si ce type de projet n’est pas une première, celui ci à infiniment plus de chances de survivre que les autres précités.
Il ne faut pas perdre de vue non plus qu’à ce jeu, en face, il y a essentiellement OpenCalais de Reuters, c’est donc à une confrontation Yahoo! & friends vs. Reuters & le monde de l’information (et par extension, des média) à laquelle nous avons à faire. Si le web de demain est sémantique, c’est une bataille majeure qui est en train de se mener. Si la sémantique est juste un truc de geeks excités, c’est juste un truc parmi d’autre. Inutile de vous dire de quel coté je penche. Le fait que Reuters investisse lourdement le secteur me conforte dans mon opinion.
(disclaimer : OpenCalais est partenaire de RWW, et Zemanta, qui fait parti de Common Tag, a été fondé par Andraz Tori qui est un ami)
11 août 2009 à 13:17
Ce serait un plus pour s’y retrouver.
Ce genre de classement existe pour les livres en bibliothèque et il ne serait pas compliqué de l’étendre aux documents présents sur le net. Voici les bases : http://www.mrugala.net/Divers/Dewey.html
De plus, il suffirait de transformer chaque indice en une icône pour visualiser d’un regard.
11 août 2009 à 14:11
La classification type Dewey, c’est encore autre chose, rien à voir. Le niveau d’abstraction est plus elevé.
Et plutôt que d’utiliser Dewey ou la CDU par exemple, dans le contexte d’Internet et de documents numériques, une classification à facettes, comme l’a imaginé Ranganathan, est beaucoup plus pertinente.
11 août 2009 à 14:41
@Vincent
Non, non, ce n’est pas autre chose. Qui peut le plus peut le moins.
La classification à facette est pertinente pour des livres qu’on ne peut placer physiquement qu’à un seul endroit, par contre des documents virtuels peuvent être classés en de multiple endroits. L’important n’est pas là. Comment taguer, on saura toujours trouver. Mais qui taguera ? Pour que ce genre de tags envahisse le web, il faudra l’automatiser, sinon ce fastidieux travail de signalisation restera à un faible (en quantité et qualité) niveau de précision. Et pour l’instant l’entité qui tague à sa façon… et sans nous le montrer, c’est Google, encore une fois. :(