Alors que les politiciens, les experts, les militaires et les journalistes évaluent et débattent des conséquences de la publication par Wikileaks du «Afghan War Diary» – sa légalité, son aspect éthique, son impact sur la guerre, et l’émergence de la première organisation de presse apatride – bon nombre de développeurs se plongent dans les 91.000 documents mis à la disposition du public et cherchent ce qu’ils vont bien pouvoir faire de ces données.
La quantité de données est conséquente, datés de 2004 à 2010, il y a du HTML, du CSV, du SQL, ainsi que plusieurs fichiers KML. Mais même les documents HTML ne rendent pas la tâche aisée. Ce sont des données brutes, et l’on peut vouloir en extraire aussi bien le type, la catégorie, la région concernée, l’affiliation, la date, la sévérité d’un incident…
Analyser les données brutes de Wikileaks
Der Spiegel, le Guardian et le New York Times ont reçu les données de Wikileaks un mois avant qu’elles ne soient accessibles au public, et leurs developpeurs ainsi que leurs journalistes ont fouillé l’information pour en extraire des récits à présenter à leurs lecteurs. Le Guardian offre également à ses lecteurs des outils interactifs pour les aider à comprendre les documents.
Mais maintenant que les documents sont accessibles publiquement, la recherche et l’analyse des données sont distribuées. Sur son blog Zero Intelligence Agents, Drew Conway, un étudiant en sciences politiques de la New York University a commencé une analyse statistique des données. Ses scripts ajoutent une brique aux projets similaires qui sont développés et partagés un peu partout.
Construire l’application Wikileaks CouchApp
L’un de ces projets est le Wikileaks CouchApp, créé par Benoit Chesneau, fondateur de Enki Multimedia et membre de la communauté CouchDB. L’application est construite à partir de plusieurs outils open source dont CouchDB 1.0, GeoCouch, jQuery, Simile Timeline et OpenLayer, et s’intègre à une Google Map. Cet assemblage permet aux documents de Wikileaks, une fois importés dans CouchDB à partir des fichiers CSV, d’être catégorisés et triés avec des paramètres temporels et géographiques. En parcourant la timeline de l’application, vous pouvez naviguer à travers les rapports confidentiels par date et les situer sur une carte. En cliquant sur la carte, vous faites apparaitre une popup, où vous pouvez prendre connaissance des informations relatives au rapport ou demander à le lire dans son intégralité.

Pourquoi CouchDB ?
CouchDB est une base de données post-relationelle. Par rapport aux schéma stricts des bases de données relationelles, CouchDB est plus flexible, et stocke les données d’une façon semi-structurée en utilisant un modèle de vue basé sur Javascript pour générer ses résultats. Cette flexibilité permet aux utilisateurs d’effectuer des requêtes à la demande, plutôt que, selon les mots du créateur de CouchDB Damien Katz, d’être restreint à la façon dont un autre à pensé la base de données. Vous pouvez faire plus avec vos données avec CouchDB soutien Katz, parce que vous pouvez écrire vos requêtes.
Mais ce n’est pas la seule flexibilité qui fait de CouchDB un choix intéressant pour la base de données de Wikileaks. CouchDB est un système de base de données distribuée de pair à pair. En d’autres terme, chaque participant l’utilisant – serveur ou client offline – peut avoir une réplique indépendante de la même base de données. Ces copies peuvent être pleinement interactives avec une capacité à faire des requêtes, ajouter, éditer et effacer, et les changements apportés à la base de données peuvent être répliqués sur toutes les copies miroir en quasi temps réel.
Pour une entreprise, utiliser CouchDB permet de synchroniser de façon fiable des bases de données entre de multiples machines, augmenter la redondance du système, aider au load balancing… Et dans le cas de la War Diary CouchDB app, cela signifie qu’il sera impossible de fermer Wikileaks. Pour l’instant, l’application est hébergée sur le serveur de CouchDB, et bien que des copies aient été réalisées, ni Katz, ni Chesneau n’ont entendu parler de copie mise à la disposition du public.
Katz parle de CouchDB comme «une plateforme de dissémination de l’information du futur». Mettant en avant sa sécurité, sa capacité de montée en charge, et sa flexibilité, Katz pense que la totalité du site Wikileaks, et pas seulement cette application, devrait migrer sur CouchDB. A l’heure où l’armée américaine demande à ce que lui soit rendu «tous les documents» et que certains appellent à ce que l’hébergeur suédois de Wikileaks ferme le site, qui sait si Wikileaks ne prendra pas ce chemin.
Des outils technologiques pour un futur piloté par les données
Comme avec tout ensemble de données conséquent, les documents de Wikileaks fournissent des données brutes, aptes à servir de matière première pour la construction d’outils analytiques ou de visualisation propre au datajournalisme. Mais si les données de Wikileaks et leur publication prêtent à controverse, il n’est pas illégal de les posséder.
Drew Conway, lui, a choisi de continuer avec son analyse statistique de ces données, arguant du fait qu’avec les outils analytiques appropriés, ces données pourraient révéler des logiques propres du conflit que les méthodes d’agrégation ne mettent pas en évidence.
Cette volonté d’analyser, de visualiser, et de disséminer l’information, semble être la motivation qui a donné naissance à cette nouvelle génération d’outils dédiés à Wikileaks, et ceux-ci seront essentiels pour aborder l’explosion d’information à venir, qui croit en ce moment à un rythme exponentiel.












