Le journalisme de données, les données ouvertes, et la dictature de la transparence

Jeudi dernier, le Point annonçait la fin du P2P, graphique à l’appui, montrant quatre belles courbes tendant inexorablement vers le zéro, censées mesurer l’activité du P2P sur le réseau internet.

p2p

La chute semble brutale et inévitable, passer d’une mesure de 3 à 0,5 en 2 ans ne peut rien annoncer de bon pour ce que l’on mesure, à moins que ce soit du cholestérol, car après tout, que mesure-t-on sur cette courbe ?

Les scientifiques on l’art de pondre des graphiques sur tout et n’importe quoi, mais ils ont également un talent certain pour partir du principe que vous savez lire un graphique. A leur décharge, il faut dire qu’habituellement, ils ne communiquent qu’entre eux, et qu’ils savent, eux, lire un graphique.

My graphic is rich (and taylored)

Commençons par les abscisses (l’axe horizontal, souvenez-vous), on y lit des dates, un grand classique pour représenter l’évolution d’un phénomène dans le temps, et c’est probablement ce qui a piégé le journaliste du Point (et plein d’autres) : une apparente simplicité. On a tous vu des graphiques de ce genre pour mesurer tout et n’importe quoi, à commencer par un indice boursier, tous les soirs à la télévision.

Si ce graphique mesurait le cours d’une action, il serait grand temps de vendre et d’encaisser ses pertes. Mais voilà, il ne mesure pas du tout cela.

Passons rapidement sur les légendes, qui semblent indiquer les ports utilisés pour la mesure du trafic. Le port 6881 est d’un usage courant pour des application P2P, là où le port 80 est couramment utilisé pour le web. Vous n’y comprenez rien ? Ce n’est pas bien grave, car cela n’a pas beaucoup de conséquences ici.

C’est les ordonnées qui posent problème. “Weighted Average Percentage”. Ouille. On ne mesure donc pas une valeur absolue mais un pourcentage. Là, quiconque ayant un petit bagage scientifique devrait tiquer et se demander : “un pourcentage de quoi ?”.

C’est en effet là que le bat blesse : la seule et unique chose que ce graphique montre, c’est qu’il y a deux ans, le P2P représentait une proportion bien plus importante du trafic internet qu’aujourd’hui. En aucun cas il ne montre que le trafic relatif au P2P baisse.

Pour le savoir, il faudrait prendre en compte l’évolution global du trafic internet et mettre les deux en parallèle (d’où le “un pourcentage de quoi”).

C’est assez facile à faire. Arbor Networks, qui n’a pas spécialement cherché à induire qui que ce soit en erreur, et qui est à l’origine de l’étude en question, ne s’en cache pas. Pour Craig Labovitz, Chief Scientist chez Arbor : “Le trafic global sur internet s’accroit annuellement de 35 à 45 pourcent”, et “la perte de ‘parts de marché’ du P2P peut s’interpréter comme le fait que le trafic en P2P ne s’accroit pas à la même vitesse”.

En clair, l’explosion du trafic sur internet ces deux dernières années n’est pas due au P2P mais à des usages comme le streaming audio et vidéo, le P2P, lui, n’est pas en déclin pour autant.

De la transparence

L’article du Point s’est donc totalement planté, mais est-ce un drame pour autan ? A mon sens, non. D’une part parce que l’on ne peut décemment pas demander à un journaliste qui a une formation en sciences politiques d’avoir les compétences pour interpréter un graphique qui, sous une apparente simplicité, se révèle assez complexe. D’autre part parce que, l’on ne cesse de vous le répéter, ne croyez pas bêtement ce que vous lisez sur internet, ou dans les journaux, d’ailleurs (la preuve), ni même à la télé (hé oui). Enfin, parce que l’auteur de l’article n’a certainement pas cherché à faire de la désinformation, il a simplement cherché à confirmer une intuition,  celle que la loi Hadopi ne sert absolument à rien. Difficile de lui en vouloir.

Ce graphique illustre cependant à merveille la différence entre une donnée brute traitée par un journaliste et la même traitée par un “expert”. L’un va vous faire une interprétation erronée, et l’autre vous pondre 10 feuillets là où deux suffiraient et vous parsemer le tout de fautes d’orthographes.

Une donnée brute n’est pas une information en soit, c’est juste une donnée brute, et l’interprétation d’une donnée brute est un exercice qui peut s’avérer particulièrement compliqué, d’autant que cela peut souvent avoir l’air simple.

Ajoutez à cela qu’il est très facile d’induire en erreur celui qui lit un graphique : prenez cet ensemble de données : 1, 2, 3, 4, 5, 6, réparties sur 6 ans entre 1973 et 1978. Imaginons que ce soit l’évolution du prix du baril de lait de lama, ou n’importe quoi, cela n’a guère d’importance.

petrol2

Maintenant, confiez cette illustration à un graphiste qui fait du zèle où à quelqu’un de malhonnête qui veut vous induire en erreur et exagérer l’augmentation de ce prix.

petrol

Vous voyez la différence ? Dans le premier graphique, la barre représentant l’année 1978 est exactement 6 fois plus importante en surface que celle qui représente 1973. Le prix est passé de 1 à 6, normal. Dans le second graphique, on ne mesure plus une surface, mais un volume, car c’est plus joli de faire une illustration avec un graphique représentant un baril de lait de Lama plutôt qu’une barre moche issue d’Excel. Mais la différence est de taille. En 1973, on a un volume de π x r^2 x h, et vu notre illustration, non seulement h évolue (c’est ce que l’on mesure après tout), mais r aussi, qui passe de 9 pixels en 1973 à 56 pixels en 1978. Ajoutez que ce facteur parasite se voit attribuer une puissance de deux, on passe d’un volume de 1 à 253 plutôt que de 1 à 6. Et je vous fait grâce de l’effet visuel induit par le reflet du baril, très “2.0”.

Allez, avouez que vous ne lirez plus jamais – si jamais cela vous arrive – un rapport annuel avec le même œil, car oui, ils engagent à prix d’or des types comme moi pour faire parler leurs chiffres.

De la démocratie

Data.gov a sonné le départ d’une démocratie plus transparente, et après quelques hésitations, le gouvernement américain, lui même concurrencé par des initiatives comme la Sunlight Foundation, semble décidé à avancer plus vite encore vers la fourniture de données brutes aux citoyens.

Mais le fait de disposer de données et de les afficher dans différents graphiques n’apporte pas pour autant une valeur scientifique au graphique en question, et l’interprétation d’un graphique requière des compétences qui semblent à l’évidence absentes des formations en sciences politiques.

Nous pourrions aller vers le grand n’importe quoi si rien n’est fait pour avertir le plus grand nombre de la difficulté qu’il peut y avoir à interpréter un graphique. En ce sens, la transparence pourrait bien se transformer en dictature de la transparence. Une dictature du chiffre, une course à la simplification à outrance.

Ceci dit, soyons réalistes un moment, même si la France ne s’embarquera probablement pas dans un data.gov, les initiatives telles que Nosdeputes.fr vont se multiplier, et à moins de sombrer dans la dictature, la vraie, le pays sera entrainé dans ce mouvement, qu’il le veuille ou non.

Que l’on soit pour ou que l’on soit contre, c’est ce vers quoi se dirigent toutes les démocraties du monde, aussi surement que la dématérialisation des bien culturels impactera durablement la Culture : c’est là l’autre grande conséquence du numérique sur la société (si tant est que la Culture et la politique soient les deux éléments les plus importants d’une société, ce qui n’est, je vous le concède volontiers, qu’un point de vue). Libre à vous de regretter le vinyl, l’avenir de la démocratie, c’est le numérique.

Il est dès lors urgent d’apprendre à interpréter les chiffres et à questionner leur représentation, il est impératif d’intégrer dans les rédactions des compétences complémentaires pour aborder un type de journalisme, appelé à prendre de plus en plus d’importance demain : le ‘data journalism’, un journalisme qui consiste à faire parler les chiffres, car à l’avenir, les états et les politiques en produiront en quantité, et l’on risque aussi bien d’être submergés que d’être floués.

Il est urgent de former au journalisme de données

Une chose est claire : la formation initiale des journalistes ne les prépare pas du tout à aborder ce tournant dans leur métier, et il semble impératif de corriger cela au plus vite car cette composante de leur travail est appelée à prendre une importance sans cesse grandissante.

Marshall Kirkpatrick faisait lui même un petit exercice de journalisme de données il y a quelques mois afin de démontrer son intérêt pour le journalisme politique.

Le système pénitentiaire américain est quelque peu curieux pour nous mais, en gros, il est massivement privatisé, confié à des sociétés cotées en bourse, contraintes, du coup, à afficher des résultats financiers en hausse constante, et donc, par ricochet, à trouver de plus en plus de prisonniers, d’où la frénésie incarcératrice que les Etats Unis connaissent depuis pas mal de temps.

Le système rapporte beaucoup d’argent, et du coup a un véritable pouvoir de lobbying, d’autant plus que là bas, on élit tout et n’importe quoi (députés, sénateurs, mais aussi juge et shériff), que les élections coûtent cher et que les élus sont constamment à la recherche de fonds pour leurs campagnes.

La proposition de réforme du système carcéral récemment introduite par l’administration Obama est peut être, dès lors, une bonne nouvelle pour la démocratie américaine, mais pour le business des prisons, c’est une catastrophe financière en puissance. Mais les politiciens sont ils plus sensibles aux progrès de la démocratie ou à celui du cours de bourse des prisons ?

C’est ce qu’a tenté de montrer Kirkpatrick en affichant sur une carte le nombre de prisonniers par état, et donc le chiffre d’affaire du business de la prison, et en comparant cela aux votes des sénateurs.

prison

Surprise, ce sont les sénateurs opposés à la réforme carcérales qui sont les élus des régions à plus forte population carcérale.

Ce genre de graphique mériterait d’être plus amplement discuté, et l’a d’ailleurs été aux Etats Unis, mais il préfigure bien une partie du journalisme d’investigation de demain, celui qui ira fouiller dans les chiffres pour tenter d’en faire ressortir du sens. Un métier d’avenir au vu de la quantité de chiffres qui seront disponibles dans les années qui viennent.

On comprend mieux, dès lors, la levée de boucliers de nombreux politiques contre la transparence en politique, et le message d’alarme de certains de ses plus fervents défenseurs, comme Lawrence Lessig, sur le fait que la transparence n’est pas si simple que cela, et qu’elle s’avère, elle aussi, avoir sa part d’ombre.

Transparence et simplicité ne vont pas de pair, loin de là, et c’est probablement là le plus grand défi qu’auront à affronter les partisans de la transparence. Un double défi, car il leur faudra se battre d’un coté contre ceux qui ont tout à perdre d’une plus grande transparence de la démocratie, et ils sont nombreux, et ceux, souvent dans leur propre camps, qui croient voir du sens partout. Curieusement, la bataille la plus critique, celle dans laquelle s’est d’ailleurs engagé Lawrence Lessig récemment, se fait contre son propre camp. Contre ceux qui voudraient voir du sens partout. Car la bataille contre ceux qui préfèreraient rester dans le confort douillet de l’obscurité et du secret est gagnée d’avance, et les tentatives du camp d’en face seront aussi vaine que l’a été Hadopi.

Datamasher est un excellent exemple des limites de la transparence à tout va. Le site permet de ‘mapper’ sur une carte des données issues de Data.gov ou de la Sunlight Foundation, en effectuant des opérations mathématiques entre deux groupes de données. Vous pouvez par exemple diviser le pourcentage de la population atteint d’obésité par le taux moyen d’incarcération, et si vous êtes suffisamment inspiré, y trouver un sens.

Alors, par où commencer ? Probablement par un peu de lecture : Edward Tufte a écrit ce que beaucoup considèrent comme l’orthographe et la grammaire de la représentation graphique de données numériques. Une demi douzaine de livres en tout, dont deux capitaux,  Visualisation de données quantitatives et Explications visuelles. Une lecture indispensable avant de tenter de lire dans un graphique comme dans du marc de café.

A lire également :

  1. Dictature 2.0 : think global, act local Selon un projet de traité com­mer­cial inter­na­tio­nal jusqu’ici secret, un accord mul­ti­la­té­ral de lutte contre la contre­façon annon­ce­rait l’arrivée de temps sombres pour les four­nis­seurs d’accès inter­net et les inter­nautes dans un futur proche. Un cha­pitre, rédigé par les amé­ri­cains, impo­se­rait aux four­nis­seurs d’accès inter­net de faire la police...
  2. Profession bloggeur : une grande leçon de journalisme La com­mé­mo­ra­tion de la fin de la pre­mière guerre mon­diale à été, ce week end, l’occasion d’en déclen­cher une nou­velle, bien moins grave, d’autant qu’on en connait l’issue, je veux par­ler de celle qui, en France, oppose les méchants blog­geurs et les gen­tils journalistes. Loic Lemeur, qui tenta un temps,...
  3. Qui contrôlera vos données dans le Web 3.0 ? « Imaginez ce que votre télé­phone por­table pour­rait connaitre sur vous » a lancé Sandro Hawke (Développeur au W3C spé­cia­lisé en Web séman­tique), lors de la Conférence Web 3.000 à Santa Clara en Californie cette semaine. « Il entend tout ce qu’il se passe autour de vous, il sait où vous...
  4. La ville de Portland en Oregon ouvre officiellement ses données Le conseil muni­ci­pal de la ville de Portland en Oregon (US) a voté récem­ment à l’unanimité l’ouverture de ses don­nées aux déve­lop­peurs tiers pour encou­ra­ger des ini­tia­tives open sources. De la même manière que les construc­tions de voie fer­rées et d’autoroutes ont favo­risé la crois­sance écono­mique par le passé, don­ner...

59 commentaires pour cet article

  1. Nicolas Patte

    Brillant, merci, la semaine démarre bien :-)

  2. raph

    “Une chose est claire : la for­ma­tion ini­tiale des jour­na­listes ne les pré­pare pas du tout à abor­der ce tour­nant dans leur métier”
    C’est pour ça, d’ailleurs, que ce n’est pas le métier des jour­na­listes, mais celui des infographistes

  3. Fabrice Epelboin

    C’est encore pire dans ce cas…
    Crois tu fran­che­ment qu’une for­ma­tion aux arts visuels pré­pare à cela ?
    Tufte, même si ses chiffres datent un peu, notait un taux d’erreur de l’ordre de 50% dans les info­gra­phie des jour­naux amé­ri­cains… et la France n’est pas mieux…

    Bon, par ailleurs, c’est l’infographiste qui écrit l’article qui ana­lyse les données ?

  4. Marie

    Encore une fois un article très intéressant!

  5. Louis

    @Fabrice : Oui, d’accord avec le tout. 

    Un gros espoir, celui d’avoir trouvé de nou­veaux débou­chés aux jour­na­listes, qui ne pour­ront plus dire que les blogs leurs piquent tout le boulot.

    Une grosse peur : on n’est pas arrivé, s’il faut aller à l’encontre d’un trop plein d’interprétation.

  6. Fabrice Epelboin

    Je n’ai pas trop peur pour les jour­na­listes, il va fal­loir pas mal de for­ma­tions, mais ils s’en sor­ti­rons après une méchante période de tur­bu­lence, le métier per­du­rera. Pour les média, c’est une autre his­toire. Demain, les média, ce seront aussi bien ceux que l’on connait aujourd’hui, que des asso­cia­tions, des fon­da­tions, des ONG, des lob­bys ou encore des admi­nis­tra­tions et des marques. Seul le jour­na­lisme d’investigation est dans une situa­tion cri­tique, le reste sur­vi­vra sans sou­cis. Je serait prêt à parier que l’on trou­vera une solu­tion pour le jour­na­lisme d’investigation, ne serait-ce que par le trans-media.

  7. Gilles BRUNO

    Former les jour­na­listes au “jour­na­lisme de don­nées”? Vraiment?
    Est-ce que les jour­na­listes ne devraient pas se concen­trer sur l’écriture?
    Je me sur­prend à mili­ter pour le retour des docu­men­ta­listes dans les rédactions. 

    un nou­vel inti­tulé de poste : Documentalist / Info-mashupper / Data-agreggator & ana­lyst / Info-graphist

    Messieurs/mesdames des médias, créez des postes de ce type PAR service. 

    C’est tout. Pour le moment :-)

  8. Fabrice Epelboin

    Et que dirais tu de :
    Documentalist + Info-mashupper + Data-agreggator & ana­lyst + Info-graphist = Journaliste d’un nou­veau type

    Bien sûr, il n’est pas ques­tion de for­mer tous les jour­na­listes, mais quand même (si, tous devraient être for­més au B-A BA de la lec­ture de gra­phique, tout de même)

  9. Thierry Lhote

    Ah ben voila un excellent article.

    Tu n’as pas parlé de la pos­si­bi­lité avec des croi­se­ments de don­nées divers de mon­ter des “dos­siers à charge” sur les poli­tiques.
    C’est un souci cela aussi.

  10. Mettout

    Bonjour, excellent post, qui dit tout sur les rap­ports de la classe poli­tique, artis­tique et, en l’occurrence, média­tique (dans sa majo­rité) avec Internet. Et qui donne une expli­ca­tion valable, entre autres, à l’acharnement Hadopi (et LCEN et DADVSI): quand on n’entend rien à un sujet, for­cé­ment, tra­duit dans une loi, ça devient n’importe quoi. Inquiétant, non?

  11. Fabrice Epelboin

    @Thierry

    Des dos­siers, cer­tai­ne­ment, à charge, en l’état des techno, même avec de bon moteur séman­tique d’analyse de sen­ti­ment, pas vrai­ment, ou tout du moins pas encore.

    Ceci dit, on y arrive très bien sans ces techno, la Ligue Odébi a consti­tué des dos­sier sur tout un tas de poli­tique rien qu’avec Google et quelques com­pli­ci­tés ça et là.

    En quoi est-ce un pro­blème, ceci dit ? Le fait que l’on puisse juger un poli­tique sur l’ensemble de son œuvre plu­tôt que sur la com’ et les petites phrases du moment est-il vrai­ment un mal ? La poli­tique se fait désor­mais sur le net et plus à la télé, du coup, elle doit faire avec la mémoire et rela­ti­vi­ser l’instantané dans laquelle elle s’était endormie…

  12. Fabrice Epelboin

    @Mettout

    A court terme, oui, c’est flip­pant, mais il est per­mis d’espérer qu’ils réa­lisent tôt ou tard que le rythme légis­la­tif ne peut suivre celui des techno (Dieu merci, ce serait inquié­tant pour la démo­cra­tie), d’ici une légis­la­ture (ou deux), je pense (j’espère) qu’il auront réa­lisé cela.

    Chaque fois que je croise un poli­tique, je tente l’évangélisation des tech­no­lo­gies comme écosys­tème pour les ame­ner à se ques­tion­ner sur la futi­lité de légi­fé­rer un écosys­tème… Ca marche pas des masses, mais je suis tétu…

  13. Nicolas Cynober

    Je pense qu’il faut faire la dif­fé­rence entre ana­lyse des repré­sen­ta­tions de don­nées exis­tantes et pro­duc­tion de visua­li­sa­tions de données.

    Ce qui qu’on remarque actuel­le­ment, c’est que les jour­naux intègrent de plus en plus cette deuxième com­pé­tence. L’expertise du jour­na­liste n’est il pas de don­ner du sens à l’information? De don­ner du sens aux don­nées brutes?
    Que cela soit le New York Times (avec son Visualization Lab), BBC News, USA Today ou le Time, ces grands médias se mettent à créer des outils de visua­li­sa­tion inter­ac­tifs.

    Fabrice, tu fais bien de sou­li­gner notre retard dans le domaine. Que cela soit dans le web des don­nées ou la trans­pa­rence (qui lui est liée), on est à la masse. Même si le data.gov français est déjà sur les rails (c’est l’APIE qui s’en charge), le por­tail est prévu pour… 2012 !

  14. Thierry Lhote

    Re-Fabrice,

    Je ne par­lais pas de la pos­si­bi­lité de trou­ver des éléments qui sont vrais et qui seraient à charge de cer­tains politques, cela c’est normal.

    Mais comme l’explique Ethan Zuckerman dans son article sur l’essai de Lessig de pou­voir mon­ter des dos­siers en reliant des don­nées qui ne pou­vaient être reliées aupa­ra­vant.
    Je crois d’ailleurs que c’est pour cela que dans la jus­tice française on reste encore au trai­te­ment des dos­siers par le papier.

    Il va fal­loir à un moment ou un autre créer des droits à l’oubli, sinon il va se créer un jour­na­lisme d’investigation numé­rique, à côté duquel l’inquisition espa­gnole fera figure de comédie.

  15. Fabrice Epelboin

    2012… après les élec­tion, bien sûr ;-)

    Dire que cela a pris mois de 6 mois à Barack Obama… A la masse, oui, c’est le terme…

  16. ZaraA

    Le gra­phique n’est pas très clair, il est vrai, mais le constat reste vrai, le P2P baisse. La migra­tion vers les ser­vices de dif­fu­sion gra­tuit se fait au détri­ment du P2P en grande par­tie, car les uti­li­sa­teurs vont y cher­cher la même chose…
    Enfin, je trouve l’analyse un peu courte, car s’il est vrai que le gra­phisme n’indique pas une baisse en volume des échanges P2P, mais il ne l’exclut pas non plus. On peut même pen­ser que cette baisse est réelle.

  17. Fabrice Epelboin

    @ZaraA

    En même temps, le mec qui a rédigé l’étude affirme lui aussi que le P2P ne baisse pas, que te faut-il de plus ?

  18. ZaraA

    J’oubliai, le pour­cen­tage étant mesuré sur les ports uti­li­sés par les applis P2P, sur lesquels le strea­ming n’est que très rare­ment uti­lisé, voire jamais, (YT, Daily etc, c’est du 80 amha), la dimi­nu­tion signi­fie bien que le P2P est en retrait.
    Merci

  19. Thierry Lhote

    wow Fabrice, tu es bcp trop gen­til sur B. Obama : data.gov, recovery.go, etc. sont loin d’être des réus­sites pour l’argent investi,et ils sont loin d’être opé­ra­tion­nels comme annon­cés. Donc même 8 mois après, il n’y a pas encore de résul­tat probant.

    J’ai beau­coup plus confiance dans la réus­site bri­tan­nique, parce qu’au niveau com­pé­tences, Vivek Kundra c’est un nain en com­pa­rai­son de Tim Berners Lee.

    Troisièmement, c’est bien d’avoir du retard dans ce genre d’affaire.
    Pour la bonne et simple rai­son qu’il ne s’agit pas d’une com­pé­ti­tion, et qu’au contraire les pre­miers qui sor­ti­ront des concepts, essuie­ront les plâtres pour les autres, tant au niveau finan­cier, qu’au niveau des fonc­tion­na­li­tés inutiles ou peu intéressantes.

  20. Fabrice Epelboin

    @ZaraA

    Eh beh… il y a du bou­lot chez les jour­na­liste, en effet…

    http://www.cisco.com/en/US/solutions/collateral/ns341/ns525/ns537/ns705/ns827/white_paper_c11-481360_ns827_Networking_Solutions_White_Paper.html

    Peer-to-peer (P2P) is gro­wing in volume, but decli­ning as a per­cen­tage of ove­rall IP traffic.

    Ca date de juin der­nier, c’est signé Cisco, et c’est confirmé par l’étude d’où est issu ce graphique.

    Crois moi, moi aussi j’aimerais croire que le P2P cède le pas au stream, mais ce n’est pas du tout le cas.

  21. Fabrice Epelboin

    @Thierry

    Je jugeais sur la vitesse d’execution, pour le reste, en effet, ca laisse à dési­rer, mais en même temps, en tant que Français, on est mal pla­cés pour leur don­ner des leçons. Ceci dit, avec la concur­rence de la Sunlight, ils sont for­cés d’accélérer le pas…

    Sinon, le concept et la réa­li­sa­tion sont autre chose, là on parle de four­ni­ture de data brute sur des normes exis­tante… L’innovation vient d’ailleurs, il n’y a aucun avan­tage a attendre.

  22. Fabrice Epelboin

    Tant qu’on est dans Pearltrees, je vous recom­mande cette carte sur la visua­li­sa­tion de don­nées qui va un peu plus loin que Tufte : http://www.pearltrees.com/rww/map/1_70009/

  23. Thierry Lhote

    Mmmmh, la don­née brute n’a pas besoin d’être pro­duite en cen­tra­lisé comme le choix a été fait aux US, si on écoute bien TBL et son dis­cours sur le Web séman­tique, on n’a pas besoin de cen­tra­li­ser, au contraire, chaque admi­nis­tra­tion peut publier de son côté en res­pec­tant les stan­dards du W3C concer­nant le Web séman­tique.
    C’est même mieux, car on ne tombe pas dans l’effet France Telecom ou grosse boîte, où les gars proches du ter­rain ont l’impression de ne ser­vir que de cour­roie de trans­mis­sion.
    J’ai du mal à sai­sir l’intérêt de re-centraliser une base docu­men­taire déjà dis­tri­buée qui s’appelle le Web. Cela m’apparaît même comme allant à contre-sens de l’histoire des orga­ni­sa­tions, ainsi que de l’arrivée du réseau.
    Je n’arrive pas non plus à com­prendre l’urgence en la matière, nous ne sommes pas dans des projets courts et moyens termes, et les déci­sions archi­tec­tu­rales prises dans la pré­ci­pi­ta­tion sont peut-être inté­res­santes objec­ti­ve­ment dans le sens de relan­cer l’économie en pro­dui­sant des appels d’offres et des concours immé­diats, pour les géants de l’industrie infor­ma­tique.
    Mais cela peut vou­loir dire aussi se plan­ter à long terme et se retrou­ver avec des sys­tèmes qui vont se dégra­der avec le temps, et qui pro­dui­ront de la don­née incom­plète, inac­ces­sible, voire fausse, irré­mé­dia­ble­ment à hori­zon de 4 ou 5 années.

  24. Marie

    Très inté­res­sant mais est-ce si com­plexe que cela de dif­fé­ren­cier don­nées brutes et don­nées rela­tives ? Moi, ça me rap­pelle mes cours d’économie en Terminale. Cela doit être abor­dable pour un jour­na­liste, voire même abordé par eux à un moment de leur for­ma­tion. Mais, ils ont peut-être oublié cette petite gymnastique.

  25. Fabrice Epelboin

    @Thierry

    La décen­tra­li­sa­tion, why not, mais en France, on est cer­tain de voir appa­raitre des zones d’ombre. Tu ima­gines le data.gov dépar­te­men­tal du 92 ? Je suis pas convaincu…
    Sinon, je ne vois pas l’avantage à prendre son temps si ce n’est se retrou­ver, comme d’habitude, à la traine. 

    Rappelle toi, en 2003 ou 2004, on avançait ce même argu­ment de ‘prendre son temps’ pour la numé­ri­sa­tion de la BNF, tout en assu­rant, comme tu le fais, que tout serait réglé d’ici à 5 ans et qu’il n’y avait pas urgence. On voit le résultat.

    Le tempo est donné par les tech­nos, pas par le poli­tique, et ça, les amé­ri­cains semblent l’avoir compris.

    @Marie

    Ce n’est pas si évident, loin de là. Pour qui­conque à fait un cur­sus scien­ti­fique, ça coule de source, mais pour les autres, je ne crois pas, non, sinon ils ne se plan­te­raient pas aussi souvent.

  26. Nicolas Cynober

    @Thierry Lhote

    “Troisièmement, c’est bien d’avoir du retard dans ce genre d’affaire.
    Pour la bonne et simple rai­son qu’il ne s’agit pas d’une com­pé­ti­tion, et qu’au contraire les pre­miers qui sor­ti­ront des concepts, essuie­ront les plâtres pour les autres”.

    Je crois pas qu’on puisse dire que c’est bien d’avoir du retard dans l’innovation. Ce que créent aujourd’hui les amé­ri­cains et les anglais c’est une réel com­pé­tence dans le domaine. Et ils n’essuient pas les plâtres pour les autres: ils créent de l’expérience qui ne sera pas for­ce­ment trans­fe­rable. Structure des admi­nis­tra­tions dif­fé­rentes, cultures dif­fé­rentes: il y a un coût fixe qu’il fau­dra un jour payer.

    “Chaque admi­nis­tra­tion peut publier de son côté en res­pec­tant les stan­dards du W3C concer­nant le Web sémantique.”

    Cela vou­drait dire que chaque minis­tère ai un dépar­te­ment R&D, on en est loin :) Pour l’instant il faut cen­tra­li­ser pour dimi­nuer les couts et aug­men­ter la visi­bi­lité des data­sets. D’où des projets sous forme de por­tail qui ras­semblent des data­sets de nature très différents. 

    “les déci­sions archi­tec­tu­rales prises dans la pré­ci­pi­ta­tion sont peut-être inté­res­santes objec­ti­ve­ment dans le sens de relan­cer l’économie en pro­dui­sant des appels d’offres et des concours immé­diats, pour les géants de l’industrie informatique.”

    Justement, ce sont de nou­veaux métiers, de nou­velles com­pé­tences. Et ce sont des star­tups qui aujourd’hui se déve­loppent et prennent des parts de mar­ché là où il n’y a encore per­sonne. Alors très bien atten­dons encore 5 ans que le mar­ché devienne mature, mais il ne fau­dra pas s’étonner que tous les géants du sec­teur sont amé­ri­cains, anglais et allemands.

    “Mais cela peut vou­loir dire aussi se plan­ter à long terme et se retrou­ver avec des sys­tèmes qui vont se dégra­der avec le temps, et qui pro­dui­ront de la don­née incom­plète, inac­ces­sible, voire fausse, irré­mé­dia­ble­ment à hori­zon de 4 ou 5 années.”.

    Oui si on déve­loppe nos projets comme il y a 10 ans, on ira vers ce que tu décrits. Ou alors on applique les fon­da­men­taux des méthodes agiles, on pro­to­type et on sort quelque chose en 2 mois. La v2 de data.gov est en pré­pa­ra­tion, la v1 de la ver­sion anglaise devrait très bien­tôt voir le jour: tous les deux sont dans un pro­ces­sus ité­ra­tif! Nous on fait de belles spe­ci­fi­ca­tions, on déve­loppe, on livre en 2012 et on recommence…

  27. Fabrice Epelboin

    Sans comp­ter, Thierry, que si tu compte sur les amé­ri­cains pour te faire un debrief pré­cis des platres qu’ils ont essuyés afin de faci­li­ter la tâche des fren­chy… com­ment dire… naïveté ?

  28. Vouze

    Mauvaise foi, mau­vaise foi.

    Si le tra­fic Internet aug­mente, c’est aussi parce qu’il y a plus d’internautes qui s’en servent. D’où l’intérêt de pon­dé­rer ( = weigh­ted ) la moyenne pour que la don­née soit représentative.

    Donc, il y a plus de per­sonnes et plus de tra­fic, mais l’usage du P2P par rap­port à l’ensemble des ser­vices sur inter­net diminue.

    Une étude socio­lo­gique s’impose pour confir­mer ou infir­mer l’hypothèse.

    En tout cas, l’avenir de l’informatique est tout tra­cer : des trans­ferts toujours plus rapides, des disques dur toujours plus petit en taille et gros en capa­cité, des pro­ces­seurs pou­vant trai­ter plus de don­nées ( main­te­nant on se foca­lise sur le paral­lé­lisme, et moins sur la vitesse ). Le coût de repro­duc­tion et de dif­fu­sion de l’information tend vers zéro (sans jamais l’atteindre). Comment conti­nuer à fac­tu­rer des copies de musiques ou de films dans ces conditions ?

    Le coût d’une chan­son à pro­duire est 30 000 €. Divisez par 1 mil­lion, vous obte­nez 3 cen­times : tout est dit !

  29. Thierry Lhote

    @Cynober
    Merci de ta réponse.
    Oui les pro­ces­sus ité­ra­tifs les méthodes “agiles”, c’était le buzz­word au niveau dev. il y a 4 ou 5 ans. On ne sait d’ailleurs toujours pas au niveau coût si cette méthode est mieux pla­cée que les autres et quelles sont les natures de projet qui s’y prêtent le mieux. Ce sont des modes qui ne per­mettent en aucun cas de se pré­mu­nir des choix archi­tec­tu­raux ini­tiaux.
    Je ne sais pas si tu as été faire un tour sur data.gov, mais bon, il semble que la Sunlight Foundation soit venu à la res­cousse d’un projet mal embarqué. Le pas­sage de la V1 à la V2 peut-être vu en “langue de bois poli­tique et consul­tante” comme d’un “pro­ces­sus ité­ra­tif”, en lan­gage de déci­deur autour de la machine à café, c’est, “on s’est planté, heu­reu­se­ment il y a des mecs qui s’y connaissent un peu plus et qui ont quelques idées pour nous sor­tir du bourbier.”

    Pour finir, j’ai bien vu qu’il y avait urgence, donc immé­dia­teté dans la visi­bi­lité, donc uti­li­sa­tion du concept éculé et mort sur le Web du por­tail (sans y inclure les inci­dences orga­ni­sa­tion­nelles et le rétro-pédalage à des vision d’il y a 10 ans jus­te­ment)
    Je crois qu’au nom de la vitesse et de la pré­ci­pi­ta­tion, on ait fait jus­te­ment très forts de l’autre côté de l’Atlantique, avec des pro­to­types qui ont for­cé­ment coûté très cher (aux alen­tours de la 10aine de mil­lions de dol­lars l’unité), et des tech­no­lo­gies qui ne sont pas celles de start-up mais des fra­me­work Microsoft (Drupal a été aban­donné dans une primo-version de recovery.org) uti­li­sés par des com­pa­gnies qui ne sont pas assez du métier Web pour inté­grer l’accessibilité et qui d’une ver­sion de site sur une autre, perdent des fonc­tion­na­li­tés tels que la pré­sen­ta­tion des don­nées RSS du site (lais­sant dans la nuit tous ceux qui avaient com­mencé a déve­lop­per le mash-up).

    On est loin, très loin même de cultures de déve­lop­peurs qui favo­rise les méthodes agiles. On est sim­ple­ment pour l’instant, et à cause de l’urgence, dans des visions de por­tail de 10 ans d’âge, des ver­sions de sites qui s’enchaînent sans rétro-compatibilité, bref une bonne vieille concep­tion de l’informatique qui pri­vi­lé­gie la com­mu­ni­ca­tion et le résul­tat immé­diat. Et dans ces sché­mas, on sait très bien l’attention qui est accor­dée aux phé­no­mènes d’expériences. Mais cela on connaît depuis long­temps non ?

  30. Thierry Lhote

    J’ai du écrire un article sur ce sujet où je récu­père les don­nées dans la presse amé­ri­caine, c’est édifiant : http://netsansdetour.blogspot.com/2009/10/persistance-des-mensonges-10-de.html

  31. Thierry Lhote

    @Fabrice
    Oui, tu marques un point sur le trans­fert d’expériences USA->France, mais pour l’instant je ne vou­drais pas de leur expé­rience à voir leurs résul­tats.
    Comme je l’ai dit, il fau­dra obser­ver ce que font les Anglais, qui risque d’être plus inté­res­sant ou moins catas­tro­phique, car TBL n’est pas n’importe qui et son aura peut empor­ter la déci­sion sur beau­coup de choix impor­tants qui échappent à la vision des consul­tants de comm Obamesques.

  32. Fabrice Epelboin

    Thierry, le site Data.gov est fait en open source, donc cer­tai­ne­ment pas avec des techno MSFT, arrête de dire des bétises. Quand à l’observations des anglais, elle ne nous pro­fi­tera pas plus que celle des amé­ri­cains.
    Par ailleurs, stop avec cette manie des chiffres sor­tis de nulle part, 10milions de dol­lars pour un tel projet, c’est une paille, c’est les frais de bouche de CHirac sur un an, il faut arrê­ter de com­pa­rer les bud­gets d’Etat avec son por­te­feuille d’action pour le simple plai­sir de crier au gas­pillage. L’expérience qu’ils ont acquise avec la v1 de data.gov vaut 10 mil­lions, et alors ? As tu la moindre idée du coût de la v1 catas­tro­phique du for­mu­laire en ligne des impôts ? De l’ordre de 200 à 300 mil­lions si mes sou­ve­nirs sont bons…

  33. Fabrice Epelboin

    Par ailleurs, à lire tes écrits, on a plus l’impression que ton objec­tif est que cela ne se fasse pas. Pretexter qu’il vaut mieux attendre pour faire de l’innovation est ce qui a mené la France dans le trou. C’est ridi­cule, cela n’a jamais mar­ché. Encore une fois, la situa­tion de la BNF face au numé­rique est la même aujourd’hui que ce qui nous attends demain avec la démo­cra­tie en ligne : tour­ner sur un OS amé­ri­cain :
    http://fr.readwriteweb.com/2009/05/18/a-la-une/democratie-edemocratie-france-usa/

  34. Fabrice Epelboin

    J’ai du écrire un article sur ce sujet où je récu­père les don­nées dans la presse [EDIT: Républicaine] amé­ri­caine

    Moi aussi, j’adore regar­der la Fox, c’est très drôle… “Trop jeune pour un tel poste”… j’imagine que tu par­tage cet avis pour #jeansarkozypartout ?

  35. Fabrice Epelboin

    @Thierry

    Concernant l’usage de Drupal pour recovery.org, Dries, le fon­da­teur deDru­pal, quand je l’ai ren­con­tré au der­nier DrupalCon, m’a dit le contraire et l’affirme ici : http://buytaert.net/obama-using-drupal

    Je lui envoie un mail pour avoir confir­ma­tion qu’ils ont aban­donné Drupal en cours de route. Je vous tiens au courant.

  36. Fabrice Epelboin

    Réponse éclair de Dries : il ont démarré au plus vite avant de s’apercevoir que le contrac­tant n’avait pas l’habilitation gou­ver­ne­men­tale néces­saire, visi­ble­ment, il leur fal­lait du secret défense, et les rares socié­tés du type web agency a avoir ce type d’habilitation n’utilisent pas Drupal. C’est http://www.smartronix.com/ qui a eu le contrat, et cela n’a aucun rap­port avec la capa­cité de Drupal a faire de tels sites.

    Le nou­veau site (effec­ti­ve­ment en techo MSFT) est d’ailleurs loin de faire l’unanimité http://www.latimes.com/news/nationworld/nation/la-naw-recovery29-2009sep29,0,4177281.story

  37. Thierry Lhote

    @Fabrice
    Cinober cherche à démon­ter les ques­tions que je pose, je démonte ses argu­ments de start-up et de déve­lop­pe­ment agile qui ne tiennent pas la route, quand on voit les résul­tats et les contracteurs. 

    Quant à res­sus­ci­ter les por­tails, je trouve cela insensé.
    Une des cri­tiques pre­mières de data.gov était jus­te­ment que les don­nées qu’il héber­geait étaient déjà pré­sentes en lignes sur des sites déjà construits. Bref, c’était un por­tail au sens 1.0 du terme. Ai-je besoin pour faire un mash-up d’un site inter­mé­diaire cen­tra­li­sa­teur ? cela confine au ridi­cule.
    A-t-il changé depuis ?
    C’est stu­pide de cen­tra­li­ser, pour la bonne et simple rai­son que soit les don­nées sont publiées en local (et déja acces­sibles) soit elles ne le sont pas et de toute façon elles sont inac­ces­sibles.
    Maintenant, on peut dire que les don­nées au niveau local sont inaces­sibles parce que dans un for­mat inac­cep­table pour dif­fu­sion. Dans ce cas l’autorité cen­trale à tout autant inté­rêt à faire cévo­luer de for­mat, et une fois que c’est en ligne au niveau local, pas besoin une nou­velle fois de re-centraliser.
    La base du Web c’est le LIEN, je n’ai pas besoin de redon­der sur les liens.
    Je ne com­prends pas que vous n’exerciez pas votre esprit cri­tique sur de simples ques­tions comme celle-là, qui font ter­ri­ble­ment sens pour juger de l’existence même de projets comme data.gov.

    Je ferais remarquer qu’il n’y a pas un seul argu­ment dans tout ce que j’ai lu sur cette page qui démon­tre­rait aux yeux d’un poli­tique la néces­sité de rentre dans une course de vitesse. Au contraire c’est géné­ra­le­ment admis, sans regard critique.

  38. Fabrice Epelboin

    Cynober ne fait guère que poser des ques­tions auxquelles tu n’a pas de réponse. Les méthodes agiles marchent (j’en ai expé­ri­menté plus d’une fois, toute la sili­con val­ley fonc­tionne la des­sus, y com­pris des géants comme Facebook ou Twitter), quand à l’idée de por­tail, c’est toi qui joue aux cons, un por­tail pour ras­sem­bler l’ensemble des data gou­ver­ne­men­tale n’a rien à voir avec le por­tail à papa des années 90. Arrête de nous prendre, Cyno et moi, pour des idiots.

  39. Fabrice Epelboin

    Je ferais remarquer qu’il n’y a pas un seul argu­ment dans tout ce que j’ai lu sur cette page qui démon­tre­rait aux yeux d’un poli­tique la néces­sité de rentre dans une course de vitesse. Au contraire c’est géné­ra­le­ment admis, sans regard critique.

    Tu as du lou­per ça http://fr.readwriteweb.com/2009/05/18/a-la-une/democratie-edemocratie-france-usa/

    J’ai eu pas mal de feed­back de poli­tiques, dont cer­tains sont au gou­ver­ne­ment, sur ce billet, et eux, ça les a convaincu qu’il y a urgence.

    Encore une fois, je n’ai pas une folle envie de faire tour­ner 5eConsitution.fr sur un soft US. Lis ce billet et on en reparle.

  40. Nicolas Cynober

    @Thierry

    Pour ce qui est du déve­lop­pe­ment agile, c’est par­ti­cu­liè­re­ment pra­tique dans le déve­lop­pe­ment web: envi­ro­ne­ment sys­té­mique en per­pe­tuelle évolution.

    Pour ce qui est de la Sunlight Foundation, dire que cette asso­cia­tion serait venu “à la res­cousse” du projet data.gov, je trouve ça très lar­ge­ment exa­géré et c’est mal connaître le rôle que jouent ces deux acteurs dans le pro­ces­sus d’ouverture des don­nées qui a lieu actuel­le­ment aux US. Le rôle de data.gov n’est pas de d’exploiter les don­nées mises en lignes, mais seule­ment de les cen­tra­li­ser et des les rendre acces­sibles. Le rôle de la Sunlight Foundation c’est de pro­mou­voir ces data­sets et favo­ri­ser la créa­tion de visua­li­za­tion (d’ou la créa­tion d’un cou­cours, puis d’un deuxième, qui ont connu un réel suc­cès: 80 visua­li­za­tion crées). A mon avis l’echec ou la réus­site de data.gov sera dans sa capa­cité à mettre en ligne un grand nombre de data­sets pour ali­men­ter des ini­ta­tives comme la Sunlight Foundation ou Tetherless World.

    Et pour effec­tuer pas mal de veille sur le sujet, je t’assure que les acteurs tirent dans le même sens (data.gov, sun­light foun­da­tion, OPSI (uk), mySo­ciety, etc.). Je ne dis pas qu’il n’y a pas des dif­fi­cul­tés, le “proof of concept” n’est pas encore validé, mais au moins ils avancent. Nous, nous réfle­chis­sons à créer dans 3 ans un por­tail avec des wid­gets… for­cé­ment ça pause moins de problèmes…

  41. Fabrice Epelboin

    sans comp­ter qu’exporter des data ou expor­ter des wid­gets, cela n’a pas les même conséquences en terme de trans­pa­rence, mais ça, Thierry, toi qui est contre la trans­pa­rence, ça ne doit pas trop t’inquiéter ;-)

  42. Thierry Lhote

    Ouaip Cinober, sauf qu’en l’état actuel, il n’y a pas de dev agile sur les sites amé­ri­cains, et que c’est la cata. 

    Surtout je trouve drôle que vous n’ayez pas remarqué que l’administration de Washington abrite en effet des bureau­crates, qu’il y a des pro­cé­dures et des tun­nels obli­gés qui inter­disent indi­rec­te­ment l’utilisation de Drupal, par exemple.
    Bref, vous décou­vrez qu’une des carac­té­ris­tiques d’une stra­té­gie réus­sie en orga­ni­sa­tion, c’est de dis­po­ser des per­sonnes capables de ren­con­trer cette stratégie.

    Je trouve aussi cela hal­lu­ci­nant de prier sur la cen­tra­li­sa­tion sous forme de por­tail quand on fait des papiers qui causent du Web de flux.

    Sur le coup de main de la Sunlight Foundation sur data.gov, Cinober je te laisse trou­ver les articles en ligne et les redi­rec­tion sur le site de la Sunlight. Marre de jouer à l’assistant journaliste.

    Là où tu te trompes sur mon inter­ven­tion Fabrice, c’est que tu crois que je trouve for­cé­ment mieux ce que fait l’Etat français aussi en matière de cen­tra­li­sa­tion.
    A vrai dire, je n’ai jamais dit cela.
    Cependant, ce que je trouve hal­lu­ci­nant c’est d’enjoliver jusqu’à ne pas ques­tion­ner l’info, pour des néces­si­tés politiques.

    J’ai vu par exemple que tu connais Dries, bah très bien, je crois qu’au niveau cré­di­bi­lité tech­no­lo­gique cela va te suf­fire, enclenche le pro­ces­sus, monte un projet inno­vant, pro­pose le à l’Etat français, vu que tu as des connexions avec des poli­ti­ciens, et que tu les a convaincu. 

    Mais viens pas cri­tiquer un projet français foi­reux au nom d’un autre projet foi­reux (amé­ri­cain) tout cela parce que tu ne te sens pas poli­tique­ment à l’aise dans ta Nation. Surtout que je ne suis pas sûr que Washington soit plus bandant.

  43. Fabrice Epelboin

    Un Etat, Thiery, c’est par nature cen­tra­li­sa­teur, et tous les poli­tiques qui ont com­pris ce qu’était data.gov on aussi com­pris qu’il était impé­ra­tif de cen­tra­li­ser tout cela. Contrôle de l’information oblige. A vrai dire, la ques­tion du moment c’est de savoir si tout cela ne va pas être cen­tra­lisé au niveau Européen.

    Il faut savoir choi­sir ses batailles, à moins d’en viser une que tu sais per­due d’avance, ce qui serait cohé­rent avec tes écris.

    Pour ce qui est du coup de main de la Sunlight, je n’en ai pas entendu par­ler, je vais me ren­sei­gner, mais ca me parait curieux, tout comme Cyno.

  44. Thierry Lhote

    Ah ouais, il y a aussi Cinober qui par­lait d’un depar­te­ment R&D pour chaque admi­nis­tra­tion en local.
    Bah, il y a dix ans de cela, je fai­sais des for­ma­tions XML Schema et XSLT dans des admi­nis­tra­tions locales.
    Sans comp­ter le fait qu’ils ont du un petit peu évoluer depuis, je crois qu’ils sont capables assez faci­le­ment de pas­ser à ce stade, sans avoir à faire de la R&D, lol.
    Les gens n’évoluent pas que sui­vant les besoins et demandes de leur hié­rar­chie, et tu serais sur­pris de voir le niveau que l’on ren­contre en com­pré­hen­sion Web dans des admi­nis­tra­tions locales et com­ment ils savent anti­ci­per leur besoin futur de connaissance.

  45. Thierry Lhote

    @Fabrice
    Tiens, c’est toi qui est défai­tiste à présent.

    Je ne vois pas où est le pro­blème, tu es prêt à essayer ? à démon­trer qu’un déve­lop­pe­ment local est pré­fé­rable ? A prendre le risque sur le projet ?

    Je ne vois pas où tu t’enthousiasme pour la trans­pa­rence, parce que dans ces condi­tions, que ce soit la France, l’Europe ou les Etats-Unis, ca fait pfuittt !

  46. Fabrice Epelboin

    Non Thierry, réa­liste, et d’autant plus réa­liste que je ne me contente pas d’agiter des idée anti trans­pa­rence ou contre la neu­tra­lité du Net en l’air, ou de fondre sur tous ceux qui défendent la liberté et la trans­pa­rence sur le net, j’essaye de faire avan­cer les choses (car oui, elle avancent, mal­gré tout, notam­ment du coté de chez NKM, très a l’avant garde (française) du mou­ve­ment data.gov).

  47. zoupic

    si vous ne connais­sez pas le très bon gap­min­der http://www.gapminder.org/ , il est temps d’aller y jeter un oeil.
    Il y a un ted talk fabu­leux d’Hans Rosling asso­cié avec http://www.ted.com/talks/hans_rosling_shows_the_best_stats_you_ve_ever_seen.html qui dépote.

    C’est sup­porté par google, et si cha­cun y ajoute ses don­nées, on peut jouer en 3 dimen­sions et en ani­mant les don­nées. Certaines bases sont assez com­plètes, d’autres sont encore limi­tées par les états qui ne veulent pas par­ta­ger leurs don­nées (on se demande bien pourquoi!).
    Il reste que l’interprétation dépend encore une fois du jour­na­liste et de la taille de son cerveau.

    On peut effec­ti­ve­ment sépa­rer les tra­vaux en
    1) pro­duc­tion des don­nées brutes
    2) tra­vail et recou­pe­ment des don­nées brutes
    3) pré­sen­ta­tion, visua­li­sa­tion
    4) ana­lyse, inter­pré­ta­tion et conclusion

    Si 1 et 2 appar­tiennent aux scien­ti­fiques ou experts, 3 appar­tient à mes yeux au desi­gners alors que 4 revient encore aux scientifiques/experts ou jour­na­listes.
    Un type bien calé pourra évidem­ment faire la par­tie 3 sans mettre des barils, mais pour une visua­li­sa­tion quali, on pré­fè­rera toujours un desi­gner qui com­prend de quoi il s’agit.

    Ah et pour reve­nir sur l’article, un gra­phique doit être accom­pa­gné d’un titre et d’une légende sinon c’est sûr que ça com­plique la tâche..

  48. Fabrice Epelboin

    Yes ! Rosling est un Dieu !

    Pour reve­nir dans le débat, ton point 1 concerne le gou­ver­ne­ment (data.gov) les 2, 3 et 4 sont de l’ordre du data jour­na­lism (aidé de sta­tis­ti­ciens), du genre http://www.statosphere.fr/ (qui lui ne ferait jamais de telles erreurs de lec­ture sur un gra­phique, même s’il à un pen­chant dou­teux pour les barre 3D d’Excel ;-)

  49. Thierry Lhote

    @Fabrice
    Deux pro­blèmes différents :

    Je ne suis pas contre la trans­pa­rence.
    C’est toi qui invente celà, je suis au contraire pour une approche réa­liste et non pas le “Oh comme c’est mer­veilleux” des médias, mais qui oublient de che­cker la réa­lité.
    Je suis plu­tôt contre la dis­pa­ri­tion de l’esprit cri­tique. Tu four­nis un tra­vail incroyable, argu­menté et prag­ma­tique pour lut­ter contre Hadopi. En revanche, Obama dit un truc qu’on lui a souf­flé à l’oreille et c’est auto­ma­tique­ment de l’or en barre.
    C’est sim­ple­ment du double stan­dard politique.

    Sur la Net neu­tra­lity, je trouve que ce n’est pas l’angle d’attaque qui va per­mettre un équi­libre des pou­voirs entre les géants des soft­ware sur la Toile et les Fournisseurs d’Accès à Internet.
    Le jour où Google ou Microsoft auront pré-installé sur ton ordi, ton mobile ou ta tablette des ser­veurs qui moni­to­re­ront ton accès à Internet, pen­dant que des lois auront obligé les FAI à deve­nir des tuyaux neutres, tu auras com­pris pour qui ou pour quoi tu t’es battu.
    La Net neu­tra­lity de la manière dont c’est pré­senté, c’est du lob­byisme en faveur d’Amazon, de Google et de Microsoft.
    Il faut s’attacher à des concepts plus pra­tiques, com­ment on assure ou struc­ture la liberté sur le réseau de cha­cun des acteurs. Comment on arbitre les conflits d’intérêts qui vont for­cé­ment y naître.
    Un slo­gan tech­no­lo­gique comme la Net neu­tra­lity ne répond pas aux ques­tions et au contraire enclenche un biais sur quel acteur va être favo­risé au détri­ment de tel autre.

  50. Eric V.

    Excellent post!

  51. Fabrice Epelboin

    @Thierry

    Obama dit un truc qu’on lui a souf­flé à l’oreille et c’est auto­ma­tique­ment de l’or en barre.

    Ha… Je viens d’écrire pré­ci­sé­ment le contraire dans cet article pour­tant… ainsi que dans celui-ci, ou encore celui-là et encore ici.

    La net neu­tra­lity, c’est tout autre chose, ça peut s’aborder de deux façons, à la “liberté des citoyen face à un Etat poten­tiel­le­ment cen­seur”, c’est ce que fait la Quadrature, ou d’un point de vue libé­ral, c’est plus mon truc. Mais bon, ce n’est pas vrai­ment le sujet de ce billet, pro­mis, tu me connais, j’en ferais d’autre là des­sus et on aura l’occasion de s’accrocher la dessus ;-)))

  52. ZaraA

    @fabrice
    Merci pour la page Cisco. Mais on ne parle pas de la même chose. J’analysais les don­nées du gra­phismes avec une conclu­sion qui paraît logique : il ne per­met pas de dire si ça baisse, mais il ne dit pas non plus l’inverse. Enfin, puisque ce sont les ports P2P qui sont fil­trés, on ne peut pas dire non plus que ce sont les ser­vices de strea­ming qui com­pensent cette baisse, puisqu’il n’utilisent pas les mêmes ports. Résultats, c’est bien que le P2P est moins uti­lisé. Ce que les autres études, notam­ment de panel montrent depuis 5 – 6 ans : trans­fert vers le strea­ming.
    ps : je sais, c’est chiant la logique.

  53. Phill

    Un DÉFI, nom de Zeus!! Et non un défit!!!

    A part ça, très inté­res­sant article.

  54. Fabrice Epelboin

    @ZaraA

    Merci pour la page Cisco. Mais on ne parle pas de la même chose. J’analysais les don­nées du gra­phismes avec une conclu­sion qui paraît logique : il ne per­met pas de dire si ça baisse, mais il ne dit pas non plus l’inverse. 

    Absolument, en pra­tique, il est extrait d’un gros tas de gra­phique et à lui tout seul, il ne per­met pas de dire grand chose.

    Enfin, puisque ce sont les ports P2P qui sont fil­trés, on ne peut pas dire non plus que ce sont les ser­vices de strea­ming qui com­pensent cette baisse, puisqu’il n’utilisent pas les mêmes ports. 

    Pas plus, non, la seule chose que l’on puisse dire c’est que la pro­por­tion du tra­fic dédié au P2P est en baisse, autant dire que cela ne veut pas dire grand chose si ce n’est pas rap­pro­ché d’autre chose.

    Résultats, c’est bien que le P2P est moins utilisé. 

    PROPORTIONNELLEMENT au reste, oui, mais dans l’absolu, non.

    Ce que les autres études, notam­ment de panel montrent depuis 5  –  6 ans : trans­fert vers le streaming.

    Là tu com­pare des choux fleurs (études d’usage) et des car­rotes (étude sur la nature du tra­fic qui passe par les réseaux). A la limite, on pour­rait dire bien des choses, par­tant du prin­cipe que les deux études disent vrai, c’est à dire qu’il y a un trans­fert d’usages du P2P vers le stream ET une aug­men­ta­tion du tra­fic P2P (bien moins impor­tante que celle du stream, mais aug­men­ta­tion quand même, ce qui est confirmé par Cisco et par l’auteur de l’étude d’où est extrait ce graphique). 

    Si tu ajoutes aàcela que le nombre d’utilisateurs de l’internet est lui aussi en très forte crois­sance, ça com­plique les hypo­thèses possibles.

    Par exemple :

    1) Il se peut qu’il y ai plus de gens qui uti­lisent le P2P, mais beau­coup plus encore qui uti­lisent le stream

    2) per­sonne ne change véri­ta­ble­ment ses habi­tudes, mais les nou­veaux venus sur inter­net strea­ment comme des malades

    3) Tout le monde streame, ceux qui fai­saient du P2P conti­nuent à télé­char­ger (tout en fai­sant du stream), voir aug­mentent un peu (en même temps, va trou­ver un Hichcock en stream)

    4) De moins en moins de gens font du P2P mais le petit groupe de résis­tants aug­mente ses pra­tiques comme des porcs his­toire de faire sur­vivre une tech­no­lo­gie tout de même bien plus chia­dée et pro­met­teuse que le stream.

    etc, etc.

    Au final, on ne peut pas dire grand chose avec cer­ti­tude à par­tir de ce simple gra­phique, si ce n’est que le P2P n’est pas une ten­dance en forte pro­gres­sion et que son usage n’explose pas. Ca devrait déjà ras­su­rer pas mal de monde dans les majors.

  55. Fabrice Epelboin

    @Phil

    Oups… cor­rigé :-)

  56. Julien

    Comme les jour­na­listes, les gra­phistes des plus grands maga­zines ne sont pas prêt au jour­na­lisme de don­née…
    http://www.numberpix.com/2007/02/deceptive_areas.html

    Les erreurs de mise en forme de la visua­li­sa­tion des don­nées sont vites arri­vées, et modi­fie for­te­ment la per­cep­tion des résul­tat (ici, une moi­tié semble une dif­fé­rence quadruple !!)

    http://junkcharts.typepad.com/ se fait une spé­cia­lité de rele­ver ces erreurs.… we need a french junkcharts :-(

  57. Guillaume

    @Fabrice

    Et bien…
    Très inté­res­sant comme article !
    Je com­prends subi­te­ment ton aver­sion pour les gra­phiques en 3D ! ;-)

  58. Lord BlackFox

    Sans vou­loir dire, mais la lec­ture cri­tique des gra­phiques se fait dans toute for­ma­tion de base, dont les sciences humaines (poli­tique, sociales, etc.) — c’est une ques­tion cru­ciale dans ces sciences pour se faire recon­naître en tant que science. Je dis ça par rap­port à la remarque qu’on ne peut pas en vou­loir à un jour­na­liste qui fait science po.

    Dans le sys­tème, on vous apprend dès la deuxième et la troi­sième secon­daire (la 4è et la 3è en France si je ne me trompe pas) à lire des gra­phiques, voire même la première…

    Enfin je dis ça, je dis rien…

    Sinon, merci pour l’analyse! :)

  59. Fabrice Epelboin

    @Lord BlackFox

    Et ça se passe où ça ? Canada ? Belgique ?

    Mon Dieu, veux tu dire que nous n’aurions pas le meilleur sys­tème éduca­tif du monde en France ? ;-)

10 Trackbacks For This Post

  1. Tweets that mention Le journalisme de données, les données ouvertes, et la dictature de la transparence | ReadWriteWeb France -- Topsy.com :

    […] This post was men­tio­ned on Twitter by damien douani, Ecriture Web. Ecriture Web said: #ReadWriteWeb Le jour­na­lisme de don­nées, les don­nées ouvertes, et la dic­ta­ture de la trans­pa­rence http://bit.ly/1G2eHq […]

  2. raffa's status on Monday, 19-Oct-09 08:38:11 UTC - Identi.ca :

    […] http://fr.readwriteweb.com/2009/10/19/a-la-une/data-journalism-journalisme-de-donnee-ouvertes-dicta... a few seconds ago from firestatus […]

  3. Philippe Scoffoni (pscoffoni) 's status on Monday, 19-Oct-09 19:39:22 UTC - Identi.ca :

    […] http://fr.readwriteweb.com/2009/10/19/a-la-une/data-journalism-journalisme-de-donnee-ouvertes-dicta... a few seconds ago from api […]

  4. TwittLink - Your headlines on Twitter :

    […] Tweets about this great post on TwittLink.com […]

  5. L’analyse est-elle transparente ? | Le web et moi... Le blog d'Arnaud Vallière :

    […] deuxième et troi­sième articles traitent de la trans­pa­rence des don­nées, de ses dérives et de la […]

  6. Lecture libre du week-end #27 – Philippe Scoffoni :

    […] Le jour­na­lisme de don­nées, les don­nées ouvertes, et la dic­ta­ture de la transparence, […]

  7. Instant T, focus n°23 :

    […] Le jour­na­lisme de don­nées, les don­nées ouvertes, et la dic­ta­ture de la transparence, […]

  8. Kévin Hinault (khi) 's status on Wednesday, 28-Oct-09 10:20:50 UTC - Identi.ca :

    […] http://fr.readwriteweb.com/2009/10/19/a-la-une/data-journalism-journalisme-de-donnee-ouvertes-dicta... […]

  9. Stéphane Bortzmeyer (bortzmeyer) 's status on Thursday, 29-Oct-09 10:06:54 UTC - Identi.ca :

    […] http://fr.readwriteweb.com/2009/10/19/a-la-une/data-journalism-journalisme-de-donnee-ouvertes-dicta... a few seconds ago from mbpidgin […]

  10. Un problème avec les nombres ? « Database journalism :

    […] Donc, beau­coup de conci­toyens digèrent mal les grands nombres, et les médias tra­di­tion­nels n’aiment pas les mani­pu­ler. (Je ne m’étends pas ici sur le manque de culture mathé­ma­tique de bien des jour­na­listes, je vous revois plu­tôt à la démons­tra­tion de Fabrice Epelboin sur RWW). […]

Réagissez !

Ils nous soutiennent

feedback2.0

hébergement infogérance BearstechLa Cantine

 

  • A propos
  • Best of
  • Buzzing
  • Tags

ReadWriteWeb est un blog dédié aux technologies internet qui en couvre l’actualité et se distingue par ses notes d’analyse et de prospective ainsi que par l’accent mis sur les usages et leur impact sur les média, la société et la communication.

ReadWriteWeb est classé parmi les blogs les plus influents de la planète par Technorati et Wikio.

ReadWriteWeb est publié en anglais, en français, en coréen, en portugais et en chinois. Ses articles sont publiés dans la rubrique technologie du New York Times.


eBooks

Lawrence Lessig
Culture Libre



Pierre Bellanger
La Radio IP



Nous y serons