Regard personnel sur le Big Data

Publié par Xavier Dupré | Big Data

Je pianote ce soir sur le clavier de mon ordinateur. Il est 23h et je suis au hackathon organisé par Data Science Game - une association créée par d'anciens ENSAE. Les participants se débattent avec des données actuarielles pour prédire le taux d'achats de police d'assurance. Les 500 Mo de données auraient été considérées comme "big" il y a cinq ans. Elles tiennent maintenant aisément sur un ordinateur portable et il ne faut que quelques secondes pour calculer une moyenne. Tous ont déjà participé à des compétitions Kaggle, utilisé plusieurs librairies de machines learning. Certains obtiennent des résultats une heure après le début malgré des variables de types très variés. On se doute que ce n'est pas la première compétition à laquelle ils participent. Je circule d'une équipe à l'autre, les écrans montrent du python, un peu de R, une ligne de commande ouverte dans un coin, un notebook dans un autre, des machines distantes qui tournent quelque part. Ca discute beaucoup au sein des équipes. Elles sont pour la plupart composées de personnes qui se complètent, le data manager, le programmeur, le machine learner. Au dîner, j'échange avec quelques équipes. L'un d'eux me parle d'un de ses amis qui apprend des réseaux profonds pour entraîner une machine à jouer au jeu vidéo Doom. Il utilise des techniques de deep reinforcement learning. Nous abordons les domaines dans lesquels ces technologies s'appliqueront. La médecine sort en premier. Les transports en second. Les participants, vingt équipes de quatre, ont été sélectionnés sur une première compétition. Même si je joue le rôle de mentor, peu me posent des questions techniques. Il y a peu de choses qu'ils ne sachent déjà. Tous connaissent la programmation et les statistiques. Après 24h, certains assemblages deviennent plutôt complexes, la prédiction est issue d'un patchwork de modèles. On apprécie le coup de crayon des peintres, certains participants ont un bon coup de clavier. Les équipes prennent tour à tour la place de numéro 1.

Je songe à cette heure avancée que la définition du big data s'apparente plus à une forme d'horizon qui se déplace au fur et à mesure qu'on se rapproche d'elle. Le temps qu'on comprenne, cette petite troupe aura découvert un nouveau continent. Le moindre objet électronique émet constamment des données et les data scientists s'activent pour les connecter aux autres. La routine de notre quotidien s'automatise peu à peu et nous apprenons de plus en plus à nous fier aux applications pour nous trouver le plus court chemin qui tienne compte des embouteillages ou commander silencieusement ce dont notre réfrigérateur manquera bientôt. Au vu des compétences réunies dans cette grande salle ce soir, on comprend que les ouvriers de cette construction sont tous agiles avec la programmation informatique, les mathématiques et souvent très forts dans un des deux. On comprend aussi qu'ils doivent se tenir informés des nouvelles technologies disponibles. Aucun des outils qu'ils utilisent n'existaient il y a cinq ans. Les data scientists maîtrisent plusieurs langages, savent que le MIT met à disposition de qui veut des modèles de deep learning capables de reconnaître des objets dans des images ou encore comment construire un traducteur automatique de texte. Ils savent aussi comment effectuer ces calculs rapidement, les optimiser si besoin, construire un site web pour montrer les résultats, croiser des données avec d'autres récupérées en masse sur internet.

Le métier de programmeur, de par sa nature, consiste à automatiser des tâches répétitives qui sont toujours les mêmes quel que soit ce qui les a précédé comme mettre à jour un site web, recevoir une alerte si un mail contient un mot précis. Le data scientist étend cette capacité à automatiser des tâches qui dépendent de facteurs humains. Ce sont des informaticiens capables de détecter des automatismes dans ce que nous considérions hier comme des aléas. Ce sont des statisticiens, des sociologues, des économistes capables de mettre en place des chaînes de traitement prenant en compte des interactions humaines. Elles réagissent de plus en plus rapidement en fonction de l'information saisie par des capteurs (caméra, sons, interactions avec un site web, réponses à des questionnaires) et de donner une réponse appropriée. Un exemple emblématique de cette évolution est la voiture sans chauffeur qui roule entourée de conducteurs humains. Elle reçoit en permanence les images de caméras. C'est big. Elle répond en temps réel. C'est big. Elle détecte la présence de passants devant elle. C'est big. Cela marche grâce à des réseaux de neurones profonds qui ont des millions de coefficients. C'est big. Elle va encore à une vitesse raisonnable mais elle ira un jour plus vite que la vitesse autorisée. C'est big.

Le big data révèle des habitudes dont vous ignoriez l'existence. Les mathématiques disent comment les trouver. Les sciences humaines disent où chercher. L'informatique permet de le faire. Un data scientist est une personne forte dans un domaine et pas mauvaise dans les deux autres. Une équipe hétérogène un peu forte partout peut faire des étincelles. Elle mélange les cultures scientifiques pour imaginer et mettre en œuvre un outil qui requérait l'intervention humaine hier. Ce mouvement peut faire peur. Nous avons une industrie qui produit beaucoup et qui jette beaucoup. Le big data peut aussi se voir comme un moyen de faire en sorte que l'industrie produise moins et de façon mieux adaptée. Fini les tailles standard de vêtements. Une simple photo et la machine choisira la meilleure coupe parmi celles qu'elle connaît. L'apport humain se réduira de plus en plus à la partie innovation.

Le hackathon se termine. Le public boit une coupe de champagne. Les vainqueurs jouent avec les drones qu'ils ont gagné. Le jury dont je faisais partie a dû déterminer le prix de la créativité et le choix fut difficile tant les idées étaient variées et intéressantes. Comme mentor, j'ai plus appris que je n'ai donné de conseils. Les gagnants, des russes, n'en avaient absolument pas besoin. D'ailleurs mes deux voisins me sortent à tour de rôle que le hackathon est un jeu qui se joue à quatre et que les russes gagnent à la fin. J'ai dans mon sac les noms des participants. Je me doute que j'en reverrais plus d'un dans des journaux de recherche. Je discute avec des bons perdants français qui disent avoir un peu souffert de l'agilité de leurs voisins au clavier. Une équipe s'est lancée dans l'implémentation d'une descente de gradient en C++ sans hésitation. Ils regrettent de ne pas avoir assez vu de programmation durant leur formation. Il n'y a qu'en France où les mathématiques et l'informatique sont scindés. Et pourtant si coder s'apprend relativement bien, coder des algorithmes efficaces requiert de bonnes connaissances en mathématiques. C'est d'ailleurs ce que visent les entretiens d'embauche. A défaut de pouvoir recruter des jeunes tout de suite agiles, les sociétés cherchent ceux chez qui elles détectent la capacité à rattraper leur retard dans le domaine algorithmique. Je doute que les équipes de recherche des plus grandes sociétés soient encore uniquement françaises. La présence de russes, d'indiens ou de chinois apporte un peu de cette culture informatique essentielle au succès de l'équipe. Quand on a 36h comme dans ce hackathon, la notion de coût est essentielle. La meilleure méthode, si jolie qu'elle soit, n'a aucune valeur si elle ne retourne pas de valeur dans le temps imparti.

Le DataScienceGame a gagné en popularité. La formule a tout l'air de séduire les participants et les sponsors. Les universités de tous les pays y sont regroupées. C'est l'occasion de comparer les approches, les outils. Python et R dans une moindre mesure sont les grands gagnants avec XGBoost qui a régné en maître absolu sur la performance. L'association accumule les curriculum vitae de jeunes qui terminent leurs études et très prometteurs. Ils ont reçu leurs prix des Chief Data Officers des sponsors qui n'ont pas manqué de leur signaler qu'ils étaient en quête de profils comme les leur. Ils ont néanmoins insisté sur le fait que la données ne sont pas encore tout à fait intégrées dans les stratégies d'entreprise et qu'il est essentiel de savoir bien communiquer sur une méthode de machine learning quand bien même tous les tests assurent de son efficacité. Je me rappelle une vieille conversation à ce sujet autour de la meilleure façon de propager au sein d'une société une forme de culture des données. Les deux options étaient celles de la création d'une large équipe d'experts à qui on délègue les projets de machine learning ou la création d'un ou plusieurs postes de data scientist dans chaque équipe. La première option permet de centraliser les résolutions des problèmes, de mettre en commun les jeux de données internes afin de mieux les valoriser. Le Chief Data Officer est un chef d'équipe comme les autres à la tête d'une petite troupe agile qui avance parfois trop vite sur ces sujets. La seconde option a pour chef d'orchestre un Chef Data Officier plus itinérant qui doit visiter chaque équipe afin d'assurer une certaine cohésion et une bonne adhésion à ces nouvelles méthodes. Le choc des cultures est moins frontal.

Plus personne ne discute de l'intérêt des data scientist dans le monde internet car il n'y a qu'eux pour produire des indicateurs de performance là où l'affluence d'un magasin se mesure en ligne de log générées par un service web. Ils regardent tout, même la disposition des pages. Imaginez qu'ils commencent à se pencher sur la disposition des rayons au supermarché en plaçant des puces traçables au bas des caddies et paniers ? Ils rendent possible ce qu'aucun n'imagine pouvoir faire tant l'expérience accumulée depuis des dizaines d'années parait imbattable. Comment imaginer qu'une réflexion de quelques mois est plus efficace que des années d'expérience ? On oublie trop vite que dans ce monde numérique, il n'est pas utile de tout déplacer physiquement pour essayer. Le premier enjeu qui se dégage de ce hackathon est la gestion d'une équipe de data scientist. Si je devais synthétiser le message des sponsors lors de l'épilogue, il ressort que la motivation première du data scientist est plus liée à la résolution des problèmes qu'au business de la compagnie. Leur manageur doit constamment gérer leur curiosité. Enfin, pour terminer la métaphore, que restera-t-il au chef de rayon si l'ordinateur se met à tout décider par optimisation ? Va-t-il se sentir inutile ? Aujourd'hui le placement de produits, demain le déplacement avec un robot ? C'est oublier un peu vite que les data scientists optimisent des systèmes sur la base d'évaluations humaines. Achat, vente, santé... La donnée est uniquement humaine. Les aspects manuels vont se réduire et notre chef de rayon aura plus souvent un smartphone à la main. Ce second enjeu est plus un enjeu collectif. C'est le propre de toute révolution technologique.

Data Science Tribune

Auteur

Xavier DUPRE (SEA, 1999)

Current

Senior Developer Lead at Microsoft
Teacher in Computer Science at ENSAE

Education

ENSAE 1999
PhD in Computer Science at Université Paris V
Voir l’autre publication de l’auteur(trice)

Article précédent Article suivant

Liste des articles

Regard personnel sur le Big Data

Auteur

Articles liés

Aucun commentaire

Inscription à la newsletter Alumni

Connexion

Auteur

Articles liés

Inscription à la newsletter Alumni