Common Tag apporte un standard aux métadonnées

Depuis dejà quelques années, le tagging est entré dans les mœurs de bon nombre d’internautes. On trouve des tags partout : sur les blogs, sur YouTube, sur Flickr… Mais un problème de taille subsiste : quand vous mettez en ligne les photos de vos dernières vacances en Bretagne, les tagguez-vous “Saint Malo” ou “st malo” ? Comment s’assurer dès lors que vos contenus seront correctement identifiés, que d’autres contenus pertinents pourrons lui être associés ? Et quand vous rencontrez le tag “Orange”, comment savoir s’il s’agit de France Télécom ou d’un fruit ?

Common Tag est un nouveau format pour le tagging qui crée des références à des concepts définis de façon concrète explicite, qui ont leur propre metadonées et leurs URLs URIs. Avec Common Tag, les éditeurs peuvent facilement créer des groupes thématiques de contenus, créer des liens entre leurs contenus, enrichir des pages avec des données extérieurs à celle-ci, etc…

Common Tag est une initiative qui regroupe une sélection de sociétés parmi les plus en pointe dans la sémantique : AdaptiveBlue, DERI (NUI Galway), Faviki, Freebase, Yahoo!, Zemanta et Zigtag.

Sur le site de Common Tag, on peut lire que le format a été développé pour dépasser les limitations du tagging et pour aider tout le monde, les utilisateurs finaux, les éditeurs, et les développeurs, à mieux profiter de leurs contenus. Avec Common Tag, le contenus est taggué avec un concept unique et bien défini. Tout ce qui se rapporte à Saint Malo est taggué avec le concept de Saint Malo, et tout ce qui se rapporte à une orange est taggué avec l’orange en tant que fruit. Common Tag donne également accès à des métadonnées utiles qui définissent chaque concept et décrivent comment les concepts sont liés les uns aux autres. Les métadonnées pour le tag Nicolas Sarkozy indiquent par exemple qu’il est président de l’Etat Français et qu’il est marié à Carla Bruni Sarkozy.

Le projet se donne pour but de permettre aux contenus d’être faciles à trouver et autant connectés les uns aux autres que possible. Ses initiateurs espèrent également rendre ainsi les contenus plus attractifs pour les lecteurs.  Quand une application web arrive à déterminer à quel contenu elle a à faire, l’interface utilisateur peut faire des progrès fantastiques.

Le site donne l’exemple d’un développeurs créant une application qui utilise un article concernant le dernier film de Star Trek qui propose le DVD à l’achat sur la même page (culture geek oblige). “Si l’éditeur et le marchand utilisent Common Tag, l’application est en mesure de créer facilement un lien entre les deux, sans avoir besoin de deviner (avec plus ou moins de succès) le sens des contenus proposés par les deux services.”

commontag

Les tags sont en RDFa, un format standard pour définir les données au sein de HTML. Le code nécessaire peut se trouver dans le guide utilisateur de Common Tag, et pour en savoir plus, un groupe ad hoc a été créé chez Yahoo!.

Andraz Tori, le directeur de la technologie de Zemanta, avec lequel nous avions échangé longuement sur les avancées à venir dans le secteur de la sémantique lors de son dernier passage à Paris, raconte que l’idée de Common Tag est venu lors d’une conversation informelle avec Peter Mika de Yahoo! sur la façon la plus simple pour les éditeurs d’utiliser au mieux leurs contenus en les taggant sémantiquement”. “Nous avons vu dans Common Tag un moyen de rendre les contenus plus faciles à trouver, à interconnecter, afin d’en proposer une lecture plus engageante”.

“L’expérience nous a montré que nous avions besoin d’un écosystème riche dès le départ, pas seulement d’un projet universitaire, mais d’un véritable effort industriel. De toutes évidences, l’idée a été bien reçue.”

Concernant l’adoption par les éditeurs et les developpeurs de Common Tag, Tori ajoute que “c’est la première fois qu’autan de sociétés se sont réunies pour proposer un standard en matière de tagging. Nous avons construit ce travail sur la base de travaux universitaires existants, sur lesquel nous avons ajouté un intérêt pour les entrepreneurs à se saisir du sujet”.

Initialement développé pour la langue anglaise, le projet n’est en rien fermé à d’autres langues, comme le souligne Andraz Tori : “imaginez qu’un article soit taggué avec le ville de Vienne via dbpedia,  si vous regardez sur la page dbpedia vous constaterez que l’abstract du tag est disponible en différentes langues, vous pouvez dès lors choisir celle qui vous convient. Le même dbpedia ne le propose pas encore, mais si vous utilisez une autre ressource libre comme Wikipedia, vous y trouverez en bas à gauche de la page sur Vienne sa traduction en différentes langues. On peut ainsi passer du tag Vienne à son équivalent en arabe ou en chinois (et bien sûr en Français). Comme ces données sont accessibles dans des bases de données ouvertes, nous pouvons très bien ajouter des fonctionnalités supplémentaires afin de s’adapter à la langue de l’utilisateur ou des contenus.”

Zemanta, la société qu’à fondé Andraz Tori, a développé une technologie fantastique, proche, d’une certaine façon de Open Calais mais avec une approche radicalement différente en termes d’usages. Mais celle-ci ne sait manipuler que la langue anglaise. Lors d’interminables conversations, Andraz a toujours insisté sur le fait qu’il était hors de question qu’il en soit autrement, pour de simples questions de coûts.

Open Calais, qui dispose d’infiniment plus de moyens (c’est Reuters qui est derrière et qui – IMHO – base une large partie de sa stratégie, si ce n’est de son avenir, sur le web sémantique) sait manipuler d’autres langues mais s’avère pour l’instant assez décevant dès qu’il traite autre chose que la langue de Shakespeare. D’une façon générale, la sémantique, le jours où elle rendra de réels service aux utilisateurs (c’est déjà le cas avec Zemanta ou adaptativeBlue par exemple), sera un service offert aux anglophones.

Avec Common Tag (qui n’a rien à voir avec les technos précités, c’est un standard ouvert), on a à faire à une approche qui peut facilement s’internationaliser. Il serait bon que des Français participent à cet effort collectif afin de s’assurer que la langue de Molière ne soit pas le parent pauvre de la sémantique, tant ce secteur est à coup sûr un immense gisement de croissance et de création de valeur pour le web de demain. Pour l’instant, on ne peut pas dire que l’on soit très bien partis, mais il n’est pas trop tard.

Dans le courant de l’été, nous reviendrons sur Common Tag à travers une longue interview avec Andraz Tori, alors si vous avez des questions, n’hésitez pas, les commentaires sont là pour ça.

A lire également :

  1. Données et métadonnées : transfert de valeur au coeur de la stratégie des média ...

13 commentaires pour cet article

  1. Nicolas

    Merci pour cet article. J’utilise déjà Zemanta sur mon Blog Wordpress. C’est vrai que cet outil est génial et il ne lui manque la langue française pour être par­fait. Je suis déçu d’apprendre que cela n’arrivera pas…

    Est ce que j’ai besoin d’installer un plu­gin word­press par­ti­cu­lier pour uti­li­ser Common Tag ou Zemanta suffit?

  2. Kane

    Non, mais je rêve ou quoi ? Y’a déjà RDFs et OWL pour ça ! allez, mul­ti­pliez les normes incom­pa­tibles ! c’est cool !

  3. Bernard Vatant

    Je crois que Common Tag a voca­tion de deve­nir un élément extrê­me­ment impor­tant de l’architecture du Web séman­tique, car il per­met la join­ture entre le marquage (et la recherche) en lan­gage natu­rel et le marquage for­mel (et les requêtes du même métal) uti­li­sant concepts défi­nis par des URI, et décrits en RDF. 

    ” … un nou­veau for­mat pour le tag­ging qui crée des réfé­rences à des concepts défi­nis de façon concrète, qui ont leur propre meta­don­nées et leurs URLs.” Pour des lec­teurs non aver­tis des stan­dards séman­tiques, ce n’est pas for­cé­ment très clair. Si on pou­vait éviter “URL” et employer “URI”, et rem­pla­cer “concrète” par “expli­cite” ou “for­mel” on y ver­rait plus clair.

    Pour répondre à Kane, Tag Common ne rem­place par OWL ou RDFS ou RDFa, il les com­plète. Regardez faviki par exemple pour com­prendre com­ment poser des tags sémantiques.

    Et le fait que Zemanta ne fonc­tionne qu’en anglais pour le moment n’a rien à voir avec la puis­sance de ce stan­dard. Sur faviki, si je pose un tag avec mes mots français, un uti­li­sa­teur japo­nais le verra en japonais …

  4. Fabrice Epelboin

    @Kane Tu t’emportes ;-) Ca vient en plus, pas à la place…

    @Bernard Oui, abso­lu­ment, ma com­pa­rai­son en terme de langue se limite au paral­lèle OpenCalais/Zemanta, des tech­nos proches (bien que, en tout cas vu de l’extérieur), et au fait que les autres langues que l’anglais vont se retrou­ver le bec dans l’eau. Common Tag, je crois avoir été clair là des­sus (dis moi si ce n’est pas le cas), n’a rien a voir avec ce genre de techno, c’est tout autre chose, et la pre­mière chose que m’a dit Tori quand je l’ai inter­rogé hier sur le sujet c’est “si, si, cette fois ci, on a pensé à d’autres langues” (Tori est Slovène à la base).

  5. Nicolas Cynober

    A lire aussi chez le Dr. Passant:
    http://apassant.net/node/288

  6. Vincent

    Bref, je peux me trom­per, en lisant rapi­de­ment et en dia­go­nale cet article de pré­sen­ta­tion, il s’agit, par exemple, d’articuler et faire cor­res­pondre deux folk­so­no­mies ensembles par l’intermédiaire d’un lan­gage docu­men­taire de plus bas niveau de type thesaurus…

    Ou com­ment réin­ven­ter le fil à cou­per le beurre.

    Je pré­cise bien que c’est la pre­mière impres­sion à chaud que cela me donne, je reli­rais tranquille­ment cet article ainsi que les dif­fé­rents liens don­nés un peu plus tard. Cela fera pro­ba­ble­ment évoluer mon pre­mier avis, dans un sens comme dans l’autre.

  7. Fabrice Epelboin

    Trop en dia­go­nale… imprime et relis ca à tête reposé ;-)

    Pas rap­port à une folk­so­no­mie, c’est plu­tôt une pro­po­si­tion d’ontologie inter-reliée à des bases ouvertes, avec la pos­si­bi­lité de sug­gé­rer des tag (via Zemanta)…

  8. Nicolas Cynober

    Beaucoup de choses cri­tiquables. Quick start quide? Are you serious about the quick part?

    Facile de cri­tiquer… Mais bon soyons sérieux, on va pas cra­cher dans la soupe. Pour moi les points importants:

    - Une bonne uti­li­sa­tion de RDFa qui me rap­pel les expé­riences de Got et qui UNE FOIS DE PLUS montre sa supé­rio­rité sur les microformats. 

    - Le web séman­tique conti­nue de sor­tir du cadre aca­dé­mique. ComonTag n’est pas une ini­tia­tive du W3C.

    - Le web séman­tique crée pleins d’opportunité de biz-dev. Zementa intègre des tags RDFa que le moteur de recherche Yahoo exploi­tera mieux que Google. Le tout basé sur le LinkedData (DBPedia) pour iden­ti­fier les concepts.

    - On com­mence à se rendre compte que les tags c’est vrai­ment tout pourri. C’est pas trop tôt ;)

    - Zementa et Yahoo ont une vraie vision der­rière ce projet, ce n’est donc pas sim­ple­ment une spec balancé en l’air. On peut pen­ser qu’il y aura vrai­ment une uti­li­sa­tion et des don­nées générées.

    Bref un gros +1 sur cette news. A suivre…

  9. Hubert

    Ça fait peu de temps que je m’intéresse au web séman­tique. Donc, je vais peut-être dire des conn… Via le (très bon site) les petites cases j’avais déjà entendu parlé des tags séman­tiques du projet http://moat-project.org/ et/ou http://lodr.info/ du Dr. Passant cité plus haut. Il semble donc que ce ne soit pas une pre­mière, sauf que cette fois ça a l’air plus solide en terme d’acteurs y par­ti­ci­pant (ce qui est fon­da­men­tale pour péren­ni­ser l’idée). Je dois dire que je suis assez sep­tique en ce qui concerne le web séman­tique (vu le bou­lot que ça demande en rap­port des béné­fices appor­tés à l’auteur du site, car c’est un peu offrir son contenu aux autres, qui plus malins et mieux armés seront en tirer plus pro­fit que vous même, peut-être…). Mais trêve de para­noïa et voyons-y un moyen de par­tage posi­tif qu’il ne fau­drait pas loupé.
    Et de tout ce que j’ai lu, c’est bien dans le projet moat que j’ai vu le prin­ci­pal inté­rêt de pas­ser à RDFa, et je me suis même dit que “RDFa-iser” juste ses tags, son pro­fil (foaf) sa vCard et ses produits/commentaires (pour Google) dans un pre­mier temps c’était lar­ge­ment suffisant.

  10. Fabrice Epelboin

    Investir sur des techno dans le web séman­tique, c’est faire un pari sur l’avenir du web, ca demande d’avoir une vision et un sérieux patri­moine, ou d’être capable de faire par­ta­ger cette vision à un inves­tis­seur. Pas évident, mais tous les VCs n’ont pas un spectre limité à l’eCommerce à la papa, c’est faisable.

    Sinon, c’est clair que c’est bien plus cher que de mettre en place un simple tag­ging sous forme de folk­so­nomy (et ce n’est pas for­cé­ment contra­dic­toire avec cette approche qui peut etre com­plé­men­taire). Mais là, on a le moyen de relier un écosys­tème infor­ma­tio­nel local avec des bases ouvertes mul­tiples, avec toutes les don­nées qui s’y lien déjà. Qui plus est, on a des pas­se­relles lin­guis­tique pour les tags, ce qui per­met de faire beau­coup de choses en matière de sys­tèmes mul­ti­lingue. Le fait que Zemanta soit une star­tup Slovène dirigé par des gens qui tra­vaillent en anglais et se bal­ladent aux quatres coins du monde est un plus pour la culture qui va ger­mer dans ce projet.

    Je vous fais grace du cou­plet sur le web des don­nées et des liens et le web séman­tique. Allez jeter un oeil du coté de chez Nicolas, là, par exemple : http://nicolas.cynober.fr/blog/240,linkeddata-un-ecosysteme-pour-le-web-semantique.html

    Avec Common Tag, comme le sou­ligne Hubert, la véri­table inno­va­tion pro­vient avant tout de la sta­ture des acteurs réunis autour du projet Common Tag, c’est une étape impor­tante d’un point de vue Biz, même si ce type de projet n’est pas une pre­mière, celui ci à infi­ni­ment plus de chances de sur­vivre que les autres précités.

    Il ne faut pas perdre de vue non plus qu’à ce jeu, en face, il y a essen­tiel­le­ment OpenCalais de Reuters, c’est donc à une confron­ta­tion Yahoo! & friends vs. Reuters & le monde de l’information (et par exten­sion, des média) à laquelle nous avons à faire. Si le web de demain est séman­tique, c’est une bataille majeure qui est en train de se mener. Si la séman­tique est juste un truc de geeks exci­tés, c’est juste un truc parmi d’autre. Inutile de vous dire de quel coté je penche. Le fait que Reuters inves­tisse lour­de­ment le sec­teur me conforte dans mon opinion.

    (dis­clai­mer : OpenCalais est par­te­naire de RWW, et Zemanta, qui fait parti de Common Tag, a été fondé par Andraz Tori qui est un ami)

  11. Desman

    Ce serait un plus pour s’y retrouver.

    Ce genre de clas­se­ment existe pour les livres en biblio­thèque et il ne serait pas com­pliqué de l’étendre aux docu­ments pré­sents sur le net. Voici les bases : http://www.mrugala.net/Divers/Dewey.html

    De plus, il suf­fi­rait de trans­for­mer chaque indice en une icône pour visua­li­ser d’un regard.

  12. Vincent

    La clas­si­fi­ca­tion type Dewey, c’est encore autre chose, rien à voir. Le niveau d’abstraction est plus elevé.

    Et plu­tôt que d’utiliser Dewey ou la CDU par exemple, dans le contexte d’Internet et de docu­ments numé­riques, une clas­si­fi­ca­tion à facettes, comme l’a ima­giné Ranganathan, est beau­coup plus pertinente.

  13. Desman

    @Vincent
    Non, non, ce n’est pas autre chose. Qui peut le plus peut le moins.
    La clas­si­fi­ca­tion à facette est per­ti­nente pour des livres qu’on ne peut pla­cer phy­sique­ment qu’à un seul endroit, par contre des docu­ments vir­tuels peuvent être clas­sés en de mul­tiple endroits. L’important n’est pas là. Comment taguer, on saura toujours trou­ver. Mais qui taguera ? Pour que ce genre de tags enva­hisse le web, il fau­dra l’automatiser, sinon ce fas­ti­dieux tra­vail de signa­li­sa­tion res­tera à un faible (en quan­tité et qua­lité) niveau de pré­ci­sion. Et pour l’instant l’entité qui tague à sa façon… et sans nous le mon­trer, c’est Google, encore une fois. :(

5 Trackbacks For This Post

  1. Jean-Marie Gall.com :

    […] Common Tag apporte un stan­dard aux méta­don­nées by Fabrice de fr.ReadWriteWeb.com […]

  2. du jour 16 juin 2009 « Josechezjose's Blog :

    […] http://fr.readwriteweb.com/2009/06/12/nouveautes/common-tag-apporte-standard-aux-mtadonnes/ : c’est la suite des tags et mots-clés, avec une volonté d’organisation. Heu, Rameau et Dewey, où êtes-vous ? Lizzard et Luc, Psylvia … art égyp­tien [XVIIème dynas­tie -] attendez-moi […]

  3. Common Tag Standard : un standard sémantique pour le tagging | bertrandkeller :

    […] Common Tag apporte un stan­dard aux méta­don­nées S’abonner aux com­men­taires Commentaire | Trackback | Tags : ges­tion de contenu, web sémantique […]

  4. Web Squared, transition vers le web 3.0 ou nouveau paradigme ? | MKT planet - News Web Marketing - Nouvelles Technologies :

    […] Vous l’aurez donc com­pris, le web séman­tisé n’est pas pour tout de suite mais les dif­fé­rents grands acteurs se mettent en rang pour ter­mi­ner cette conver­sion au plus vite. Linked Data et Data Sets ne sont qu’un exemple d’initiatives concou­rant à la créa­tion de Data Ecosystems mais il en existe d’autres comme par exemple le for­mat CommonTag qui vise à stan­dar­di­ser l’utilisation des tags (cf. Common Tag apporte un stan­dard aux métadonnées). […]

  5. Blog “Industries de la Créativité & Innovation” » Blog Archive » “ah, vous êtes déjà là?” ou du Web2 au Web puissance 2 :

    […] Vous l’aurez donc com­pris, le web séman­tisé n’est pas pour tout de suite mais les dif­fé­rents grands acteurs se mettent en rang pour ter­mi­ner cette conver­sion au plus vite. Linked Data et Data Sets ne sont qu’un exemple d’initiatives concou­rant à la créa­tion de Data Ecosystems mais il en existe d’autres comme par exemple le for­mat CommonTag qui vise à stan­dar­di­ser l’utilisation des tags (cf. Common Tag apporte un stan­dard aux métadonnées). […]

Réagissez !

  • A propos
  • Best of
  • Buzzing
  • Tags

ReadWriteWeb est un blog dédié aux technologies internet qui en couvre l’actualité et se distingue par ses notes d’analyse et de prospective ainsi que par l’accent mis sur les usages et leur impact sur les média, la communication et la société.

ReadWriteWeb est classé parmi les blogs les plus influents de la planète par Technorati et Wikio, il est publié en anglais, en français, en coréen, en espagnol, en portugais et en chinois. Ses articles sont publiés dans la rubrique technologie du New York Times.

Partenaires

hébergement infogérance Bearstech
af83



Publications

Lawrence Lessig
Culture Libre



Pierre Bellanger
La Radio IP