Données et métadonnées : transfert de valeur au coeur de la stratégie des média

La semaine dernière, lors de la conférence SemTech, le grand rassemblement annuel des experts des technologies sémantiques, le New York Times a fait un annonce fracassante qui a été saluée par tous. Le Times publiera sous peu son corpus sous forme de ‘Linked Data’ (données liées), une méthode qui consiste à permettre aux données en rapport les unes avec les autres de se lier entre elles, là où il n’existait pas de lien auparavant.

Les données du Times rejoindront celle du Projet Gutenberg, une vaste bibliothèque de textes issus de livres du domaine public, de données administratives américaines, ainsi que de multiples données, essentielles du web sémantique.

Rob Larson et Even Sandhaus, du New York Times, ont annoncé leur intention de rendre accessibles des centaines de milliers de tags appliqués à des contenus remontant a 1851, soit l’essentiel des archives du Times. Ceci offrira aux développeurs des ressources d’une valeur inestimable pour créer des navigations à travers l’énorme catalogue de savoir et de contenus du Times, tout en liant celui-ci à tout un tas d’autres contenus sur le web.

Dans un intervention récente, Sandhaus du Time détaillait les processus de tagging du corpus du Times, que ce soit pour les articles en ligne ou sur papier.

“Il y a deux type de tagging en cours aujourd’hui au Times… Chaque jour, des indexeurs amènent leur papier et, article après articles, les associent à des mots clés pour en détermoiner le sujet, puis, ils en font un sommaire, manuellement. Un peu comme une liste issue de Google, mais avec du bois mort.

L’autre forme de tagging, c’est quand un article va de la salle de rédaction au web, ce process est réalisé par un ‘réalisateur’ qui enrichira l’article avec une multitude de contenus comme des images, du multimédia… et des mots clés. Contrairement aux indexeurs, qui réalisent ce travail à la main, les ‘réalisateurs’ sont aidés pour réaliser ce tagging par un système de classification automatique, qui leur suggère les tags à applquer, il ne leur reste plus qu’à approuver ou refuser les suggestion de la machine.

Lors de sa présentation la semaine dernière au SemTech, Larson a insisté sur l’importance que le Time accordait aux métadonnées :

“[les métadonnées] sont le fondement de ce que nous avons entrepris depuis longtemps. Nous pensons maîtriser aujourd’hui le sujet, mais notre contenu est encore isolé, comme sur une île… [aujourd’hui] nous annonçons notre intention de publier notre thesaurus et de le rendre accessible à tous, avec une licence qui permettra de l’utiliser et d’y contribuer… Le résultat attendu à terme est de permettre au Times d’entrer dans l’univers des données liées (Linked Data Cloud). Ceci est parfaitement cohérent avec notre stratégie d’ouverture (Open Strategy)… qui permet de faciliter l’usage d’extraits de nos données par ceux qui souhaitent les inclure dans leurs applications”.

Larson a comparé le corpus du Times à un gisement de données, ajoutant que l’API du journal fournissait les pelles et les pioches nécessaires à leur exploitation, les données liées (Linked Data) étant pour ainsi dire une carte du champ aurifère à explorer.

Construire une carte du savoir, destinée aussi bien à accéder aux connaissances du passé, qu’à explorer et mettre au point celles du futur, et la construire à l’aide d’un siècle et demi de connaissances accumulées dans les archives du Times : une stratégie pour le moins brillante de valorisation des archives, mais également un signal fort donné à l’industrie des contenus sur la valeur montante des métadonnées par rapport à celle, déclinante, des données et des contenus, sur laquelle l’économie de cette industrie repose encore aujourd’hui.

Ajoutez à tout cela l’annonce récente de CommonTag, un format universel et ouvert de tagging lancé par un consortium  mené par Yahoo!, qui – outre de le fait de ne pas inclure Reuters, ce qui d’un point de vue industriel est à souligner – propose d’un point de vue sémantique des passerelles linguistiques pour chaque tag : nous voilà avec, à portée de main, une carte du savoir pour ainsi dire universelle…. enfin… américaine, mais multilingue… subtile nuance.

Les conséquences du retard des pays non anglosaxon sur l’exploration des connaissances au XXIe siècle deviennent évidentes, mais au vu du retard accumulé, il n’y a aucun espoir d’alternative. En France, on croit encore dur comme fer que les contenus vont – par l’opération du Saint Esprit, sans doute – reprendre de la valeur un jour. En attendant, on les subventionne.

Les délais, les licences, les formats utilisés, ainsi qu’une quantité d’autres détails restent à préciser, et bien sûr, nous vous tiendrons au courant, tant ces éléments sont critiques pour estimer du potentiel de la démarche, mais ce nouveau pas du Times dans l’univers du web des données (et par ricochet du web sémantique), est une annonce stratégique d’une importance capitale qui laisse entrevoir la vision à long terme du groupe de presse US : devenir une partie importante de la carte du savoir. Reste à voir si le timing mortifère dans lequel se situe le Times lui permettra de négocier ce tournant et d’éviter le mur de la valorisation des contenus.

Qui plus est, cette annonce fait suite à celle d’un partenariat entre CNET et Reuters, consistant a publier, eux aussi, des données dans l’univers des données liées (Linked Data Cloud, désolé, ça se traduit mal).

On voit donc de plus en plus clairement se dessiner deux camps, regroupant des assemblages de media et de technologies. Reuters, lié stratégiquement, via Bit.ly, à Twitter dans l’exploration sémantique du temps réel, mais également à pas mal de média qui utilisent Calais, et dans l’autre camp le Times, ainsi que Yahoo! et CommonTag, misant sur les formats ouverts pour fédérer des communautés : des stratégies de bataille, pour le coup, assez classiques dans le secteur.

Pour être exhaustif, il convient de citer un troisième camp, constitué par ceux qui s’imaginent que fermer leurs portes les mettra à l’abri du Tsunami à venir, dans lequel le plus virulent est sans nul doute l’Associated Press, et qui risque de fédérer bon nombre de dinosaures nostalgiques, destinés à mourir dans la décénie à venir, faute d’avoir ne serait-ce que tenté de s’adapter au monde d’après la météorite du “web 3.0”, qui pointe son nez.

Il y a un mois, Richard MacManus, le fondateur de ReadWriteWeb dont les prédictions sont attendues chaque année comme celles d’une véritable pythie des temps modernes, annonçait que le temps des données liées était arrivé. Plus récemment, lors d’un bref passage à Paris, Richard me confiait à quel point les données liées (Linked Data) étaient sur le point de bouleverser de façon imminente le web tel que nous le connaissons, déjà, le Times et Reuters étaient au centre de nos conversations, posés comme exemples à suivre pour les média désireux de s’insérer durablement dans un avenir ou les metadonnées seraient aussi précieuses – voir plus – que les données (les contenus) l’ont été hier.

Données (contenus) et métadonnées (tags) sont dans un jeu de transfert de valeur et l’accélération de ce jeu de vases communicants va redéfinir dans les années à venir les pouvoirs et les empires dans l’industrie des contenus. A ce jeu, Reuters semble avoir le potentiel d’un Google, et le Times, malgré une situation financière critique, semble mettre en place une stratégie fine et visionnaire.

A lire également :

  1. La Recommandation, valeur symbolique ou valeur économique ? Débat le 9 juillet à 19h00 à La Cantine ...
  2. Les usines à contenus, une menace pour les media, les blogs et Google ...
  3. Common Tag apporte un standard aux métadonnées ...
  4. Qui contrôlera vos données dans le Web 3.0 ? ...
  5. Le journalisme de données, les données ouvertes, et la dictature de la transparence ...
  6. Microsoft présente sa nouvelle stratégie pour Windows Live : plus d’applications et intégration des services tiers ...
  7. Utiliser Twitter en entreprise : valeur ajoutée et intégration ...

0 commentaires pour cet article

3 Trackbacks For This Post

  1. Des Open Data sans censures | bertrandkeller :

    […] Les enjeux sont phé­no­mé­naux ; mettre à dis­po­si­tion ces don­nées pour­rait per­mettre des les réor­ga­ni­ser (créer du lien là il n’y en avait pas.) ; per­mettre de créer des navi­ga­tions à tra­vers d’énormes cata­logues de savoirs et de conte­nus. Lire atten­ti­ve­ment cet article sur l’initiative du New York Time qui sou­haite lui aussi libé­rer ses don­nées : Données et méta­don­nées : trans­fert de valeur au coeur de la stra­té­gie des média. […]

  2. Twitter Trackbacks for Données et métadonnées : transfert de valeur au coeur de la stratégie des média | ReadWriteWeb France [readwriteweb.com] on Topsy.com :

    […] Données et méta­don­nées : trans­fert de valeur au coeur de la stra­té­gie des média | ReadWriteWeb Franc… fr.readwriteweb.com/2009/06/29/a-la-une/contenus-tags-donnes-metadonnes-transfert-valeur – view page – cached La semaine der­nière, lors de la confé­rence SemTech, le grand ras­sem­ble­ment annuel des experts des tech­no­lo­gies séman­tiques, le New York Times a fait un an — From the page […]

  3. Dal NYT flussi RSS personalizzati | LSDI :

    […] Il sis­tema uti­lizza per farlo i tag attri­buiti a cias­cun arti­colo, che nor­mal­mente non sono leg­gi­bili per i let­tori, ma che ven­gono attri­buiti dai redat­tori del NYT a cias­cun articolo. […]

Réagissez !

  • A propos
  • Best of
  • Buzzing
  • Tags

ReadWriteWeb est un blog dédié aux technologies internet qui en couvre l’actualité et se distingue par ses notes d’analyse et de prospective ainsi que par l’accent mis sur les usages et leur impact sur les média, la communication et la société.

ReadWriteWeb est classé parmi les blogs les plus influents de la planète par Technorati et Wikio, il est publié en anglais, en français, en coréen, en espagnol, en portugais et en chinois. Ses articles sont publiés dans la rubrique technologie du New York Times.

Partenaires

hébergement infogérance Bearstech
af83



Publications

Lawrence Lessig
Culture Libre



Pierre Bellanger
La Radio IP