vendredi 10 mai 2013

Mercenaires du Big Data : algorithmes et analytics aux enchères

.
Le marché de la recherche prend une tournure nouvelle avec le Big Data. Ceci est possible parce que les problèmes de traitement des données (CRM, data mining, visualisation, etc.) et leurs solutions mathématiques sont indépendants du domaine sur lesquels portent les données et présentent de nombreux caractères communs.
  • 品友互动 (IPinYou Hu Dong) est une entreprise chinoise (DSPDemand Side Platform) entrée sur le marché en 2008. En avril 2013, elle lance un appel d'offre sous forme de compétition mondiale ; l'enjeu est le développement d'algorithmes d'enchères pour le RTB ("global DSP bidding algorithm competition") améliorant l'exploitation publicitaire du big data ("Where Computational Advertising Meets Big Data"). Résultats en septembre.
  • IPinYou reprend une idée de Netflix qui organisa en 2006 une compétition dotée d'un prix de un million de dollars ; l'enjeu était la prédiction de la cote (rating) des films diffusés, prédiction basée sur les préférences précédentes des utilisateurs (training set). N.B. L'algorithme vainqueur n'a jamais été implémenté (cf. techdirt) car, entre temps, Netflix avait changé de modèle économique ; de plus, la compétition n'a pas été relancée par craintes de poursuites concernant l'exploitation de données privées. Mais Netflix reste fidèle à son principe : en mars 2013, l'entreprise a relancé une compétition concernant son exploitation du cloud computing : "the Netflix Cloud Prize" est doté de 10 prix de 10 000 dollars.
La multiplication de ce type d'opérations suscite logiquement à la formation d'une entreprise comme kaggle qui s'est spécialisée depuis 2010 dans ce secteur :  appels d'offres / compétitions, gestion des transactions (organisation, anonymisation des données traitées (training sets). Sa devise est tout un programme : "Go from Big Data to Big Analytics". kaggle déclare pouvoir compter sur une communauté scientifique de près de 100 000 chercheurs spécialisés dans le traitement des données pour résoudre les problèmes qui lui sont soumis par ses clients : ces problèmes, s'ils mobilisent des types de traitement homologues, sont hétéroclites, allant de prédictions concernant des problèmes médicaux (Heritage Health Prize), à la conduite automobile (Ford), aux classements sportifs (Elo rating), à la sélection de photos de voyage (Jetpac), etc. kaggle recrute les chercheurs idoines et met également des outils informatiques à la disposition des chercheurs participants (Workbench). De son côté, DataXu a réalisé une place de marché pour ses algorithmes.
MàJ, mars 2017, Google acquiert Kaggle.
Pour aller au bout de la logique économique, un fond de capital risque spécialisé dans le financement de startups travaillant dans le Big Data a été développé en 2011 : Data Collective. Un écosystème Big Data / Analytics se boucle ainsi, traduisant l'importance extraordinaire que prend la culture de la data dans l'économie numérique.
En même temps, le marché du travail se modernise : ainsi, Greenplum (EMC) étend le principe de la place de marché (qu'amazon mobilise pour son Mechanikal Turk : "marketplace for work") aux chercheurs devenus journaliers, mercenaires de la data... Crowdsourcing ?
.

Aucun commentaire: