Nous entamons sur ReadWriteWeb une nouvelle série d’articles portant sur les moteurs de recommandation. L’année dernière nous avions identifié les moteurs de recommandation comme l’une des 5 tendances à surveiller, et c’est encore plus vrai en ce début d’année 2009. Dans notre slideshow consacré aux traditionnelles prédiction pour 2009, nous y faisions également allusion, c’est vous dire si l’on y croit.
Dans ce billet, nous allons nous intéresser au cas du Prix Netflix, en particulier sur le défi d’un millions de dollars lancé par le site de location de vidéo destiné à récompenser celui ou celle qui découvrira ‘la’ nouvelle technique qui améliorera de façon significative son algorithme de recommandations.
Les technologies de recommandation
Mais avant tout, commençons par un petite introduction en forme de rappel sur les technologies de recommandation.
Fondamentalement, l’idée est qu’en se basant sur l’ensemble des notations qu’a donné un utilisateur, et en les comparant à celles données par l’ensemble des utilisateurs sur la totalité des contenus proposés par un système, une technologie de recommandation doit pouvoir proposer à un utilisateur de nouveaux contenus qu’il devrait apprécier. La personnalisation à outrance est la clé de voûte de ces systèmes, dans la mesure où la propension d’un utilisateur à acheter/utiliser quelque chose est directement liée à la capacité d’un site à lui suggérer de nouveaux produits, services ou contenus. Pour réaliser cette personnalisation, les sites utilisent des algorithmes de recommandation dits de ‘filtrage collaboratif’. Dans le cas de Netflix, qui fonctionne par abonnement, il s’agit de maintenir l’envie de consommer pour augmenter la durée de vie des clients (et son panier moyen, tant qu’à faire).
Dans un article de référence rédigé il y a 2 ans, et intitulé « The Art, Science and Business of Recommendation Engines » (disponible en anglais), Alex Iskold proposait quatre approches de la recommandation :
- La recommandation personnalisée, qui consiste à recommander des éléments en se basant sur le comportement passé de l’individu.
- La recommandation sociale, qui permet de recommander des éléments sur la base du comportement passé d’utilisateurs ayant des goûts similaires (souvent appelés ‘jumeaux’).
- La recommandation par élément, choisissant de recommander d’autres éléments en se basant sur les caractéristiques de l’élément initial.
- Une combinaison des trois approches ci-dessus.
Les deux entreprises les plus en pointe et utilisant de façon intensive des algorithmes de recommandations sont Amazon et Netflix. D’autres, comme Google, l’ont utilisé aussi mais de manière moins directe.
Le Prix Netflix
Le Prix Netflix est un concours lancé par la société Netflix – le plus grand service américain de location en ligne de films – qui a débuté le 2 octobre 2006. Son objectif est «d’améliorer sensiblement la fiabilité des prédictions concernant l’intérêt d’un individu pour un film en se basant sur les préférences cinématographiques de cette personne ». Un prix d’un million de dollars a été mis en place par Netflix destiné à celui qui améliorerait de 10% l’efficacité de l’algorithme de filtrage collaboratif de Netflix (appelé Cinematch). Cela fait maintenant plus de deux ans que le concours est ouvert, sans qu’aucun participant ne soit parvenu à passer le seuil fatidique de 10% d’amélioration.
Ceci dit, le dernière mise à jour du « tableau de suivi » montre que le groupe BellKor in BigChaos est très proche des 10% avec un score de 9,63%, suivit de peu par Pragmatic Theory avec 9,46%. Aujourd’hui, seuls 7 participants sont au-dessus de la barre des 9%.

BellKor in BigChaos est un partenariat entre un groupe composé de chercheurs et d’ex-employés d’AT&T (deux d’entre eux travaillant toujours à AT&T Labs dans le New Jersey) et une société autrichienne appelée Commendo Research. Ils ont déjà gagné le Netflix’s Progress Prize en 2008 en améliorant de 9,44% l’algorithme du site, Cinematch. Ce prix de 50.000$ récompense chaque année le groupe qui obtient le meilleur score, en attendant que la barre symbolique des 10% soit franchie et le grand prix d’un million de dollars gagné.
Le New York Times a publié un article détaillé en Novembre dernier sur ce concours (en anglais), dans lequel Clive Thompson souligne notamment le fait que l’algorithme actuel de Netflix ‘Cinematch’, introduit en 2000, représente, 8 ans après son introduction, plus de 60% des locations vendues par le site. C’est par ailleurs une aubaine pour le fond de catalogue (la Longue Traine), car comme l’explique le New York Times : « il contribue souvent à détourner l’attention du client des gros hits au profit des petites productions et les films indépendants ». 70% des commandes des clients de Netflix puisent ainsi dans le fond de catalogue – « de vieux films ou des petites productions indépendantes ».
En 2006, Netflix a noté que l’amélioration de la performance Cinematch commençait à plafonner. Ils ont alors pris la décision de publier une partie des données du site, permettant ainsi à tous de tenter leur chance et de trouver des améliorations. En Novembre 2008, la base de données ainsi rendue publique représentait 17.770 films notés par 480 189 utilisateurs.
Ce n’est pas la seule initiative de Netflix destinée à utiliser les ressources intellectuelles situées hors de l’entreprise (wisdom of crowds). Fin Septembre 2008, l’entreprise a ainsi sorti une API disponible sur developer.netflix.com, très attendue par les développeurs. Feedflix (qui a fait l’objet d’un article dans le RWW anglais en avril dernier) est un exemple intéressant d’application développée grâce à cette API, et offre une variété de données utiles destinée à aider les utilisateurs à mieux sélectionner leurs films.

Le score des 10% sera-t-il atteint en 2009 ?
Il est difficile de prédire si le prix de 1 million de dollars sera remporté en 2009. En étant optimiste, on pourrait dire que le leader actuel est seulement à 0,37 points de la victoire. L’article du New York Times suggère que les 10 premiers membres du classement utilisent tous des théories mathématiques très similaires (la « décomposition des valeurs singulières » étant leur pierre angulaire) et que les différences entre les équipes ne sont que dues à des « ajustements ».
L’intuition de la plupart des spécialistes est pourtant qu’il faudra une avancée majeure pour atteindre le seuil magique des 10%, et qu’une série ininterrompue d’améliorations incrémentales ne suffira pas. Apparemment, ce sont les films inclassables, originaux ou décalés qui posent problème, le genre de film qu’on adore ou que l’on déteste, comme Napoleon Dynamite, un film culte parmi les geeks. Selon New York Times, « un petit groupe d’œuvres, principalement des films indépendants, représente ainsi plus de la moitié des erreurs qui bloquent le chemin vers la victoire ».
D’aucuns pensent que ce plafond des 10% ne sera pas atteint à l’aide d’algorithmes. ClerkDogs, un service que nous avions présenté en décembre dernier, a adopté une autre approche, en engageant d’anciens loueurs de vidéos ‘brick n’ mortar’ afin de « créer une base de données qui soit beaucoup plus riche et plus profonde que celles des moteurs de filtrage collaboratif ».
En d’autres termes, c’est l’exact opposé de ce que Netflix essaie de faire avec des algorithmes informatiques. Stuart Skorman, son fondateur, pense que l’approche de Netflix de recommandation par algorithmes a atteint ses limites et que la seule chose qui reste à faire est d’introduire de l’humain dans l’équation. Il compare son approche avec celle de Pandora, dont 50 employés avaient pour mission d’écouter des chansons et de les tagger. Loin d’être un néophyte, Skorman s’y connaît en location de films en ligne, puisqu’il a créé Reel.com dans les années 90, pour la revendre plus de 100 millions de dollars trois ans plus tard à Hollywood Entertainment.

De notre coté, nous espérons que le prix soit remporté cette année, car une augmentation de 10% de l’efficacité de la recommandation sur Netflix apporterait non seulement un meilleur service aux utilisateurs mais apporterait également un éclairage bien mérité à la communauté des chercheurs. Mais nous sommes également convaincus que l’élément humain défendu par ClerkDogs est une pièce essentielle pour compléter le puzzle. L’expertise humaine en termes de contenu est presque toujours la plus précieuse, bien qu’elle soit souvent plus coûteuse. Netflix finira-t-il par acheter ClerkDogs ? La combinaison des deux serait intéressante !
Faire de la veille sur les moteur de recommandation
Nous allons passer en revue d’autres société explorant les moteurs de recommandation dans des billet à venir, et si vous souhaitez faire de la veille sur le sujet, nous avons compilé pour vous quelques ressources :
- Les flux favoris de RWW pour surveiller le secteur des moteurs de recommandation (fichier OPML, clic droit + sauver la cible…)
- Le best of de ces flux (via AideRSS, à copier-coller dans votre lecteur de flux RSS)
- Cliquez ici pour prévisualiser ces flux avant d’y souscrire (popup)
- Un moteur de recherche personnalisé sur le sujet (à visiter et à bookmarquer)
(article publié dans l’édition US de ReadWriteWeb et dans le New York Times)

![Reblog this post [with Zemanta]](http://img.zemanta.com/reblog_e.png?x-id=30b97f60-a6c6-4ead-9e87-1e3cbdf306fd)











