Retour au numéro
Partager sur :
Vue 136 fois
09 décembre 2009

Analyses multivariées, datamining et marketing : une convergence fertile

Publié par François Rosset (1990) | N° 36 -

V : Tu es aujourd'hui spécialisé en analyse des données, comment as tu choisi cette orientation professionnelle à la sortie de l'école ?

Sorti en juin 1990 de l'Ensae, j'avais déjà orienté mes choix professionnels futurs vers l'analyse des données découverte auprès de Gilbert Saporta, spécialiste reconnu en la matière et qui enseignait à l'école. Son cours m'avait donné envie de consacrer à ce domaine mon mémoire de fin d'école et ce fut sur "la discrimination quadratique" que j'exerçai mes premières réflexions …
La chance m'a souri dès ma sortie d'école puisqu’une semaine après avoir quitté Malakoff, je commençai à travailler chez Sociologiciels, recruté par le "grand manitou" des analyses de données qu'est Joseph Lion, président fondateur de cette société. Celui-ci était à l'époque le spécialiste respecté et très en avance de la pratique des analyses des données à des fins de marketing.

V : Quelles types d'études réalisais tu ?

Les études réalisées chez Sociologiciels étaient directement liées aux interrogations marketing des plus gros annonceurs. Ces derniers développaient très régulièrement d'énormes batteries d'études marketing quantitatives, dont les plus célèbres étaient les U&A, autrement appelées "études usages et attitudes". Menées sur de gros échantillons (1000 interviews ou plus) et la plupart du temps dans plusieurs pays, elles permettaient de recueillir toutes les données comportementales et attitudinales des consommateurs et prospects des différentes marques d'un secteur d'activité. Les traitements associés à ces études par les instituts se limitaient à des tris croisés classiques et ne permettaient qu'imparfaitement de répondre à certaines interrogations stratégiques que se posaient les directions marketing des annonceurs. Sociologiciels intervenait en complément pour approfondir les enseignements apportées par les données recueillies lors de ces études quantitatives en leur appliquant un certain nombre d'analyses multivariées : des analyses en composantes principales ou canoniques, des typologies, des régressions linéaires ou logistiques …

Nos clients étaient (et sont encore !) tous les grands annonceurs du marché de la consommation grand public : Danone, PSA, Renault …. et naturellement des instituts d’études (Ipsos, Repères, Sofres, Secodip…).

V : Donne nous quelques exemples de traitements réalisés pour des annonceurs de ce type

Pour Danone, par exemple, nous avons réalisé , tout d’abord pour le marché français, une typologie mixant les attentes et les comportements déclarés de leurs consommateurs, en intégrant également les actes de consommations mesurés au travers d’un carnet de consommation (une information donc à la fois volumineuse et détaillée). Le but étant de faire ressortir des segments de consommateurs ayant tel ou tel système de valeur et consommant de telle ou telle façon ; ceci afin, bien sûr, de définir des leviers pour mieux "parler" à ces segments clairement identifiés. Danone nous a ensuite demandé de mettre en œuvre cette méthodologie dans pratiquement tous les pays où la marque est implantée, de la Roumanie à la Chine en passant par toute l’Europe occidentale.
De la même manière pour PSA, nous avons développé un système de calcul de la satisfaction clientèle en concession. Ce modèle créé initialement pour les cinq pays de l'Europe occidentale fut ensuite étendu aux pays de l'Est puis à la Chine. Il fait ainsi partie des outils de pilotage du groupe PSA à travers le monde.

Les analyses multivariées apportent une dimension supplémentaire extrêmement opérationnelle à la connaissance fournie par les études quantitatives. De nombreuses directions marketing travaillent dans une grande proximité avec des instituts quantitatifs et des sociétés d'analyses de données dont ils comprennent l'apport stratégique. De ce point de vue, le rapprochement entre base de données et enquête est très prometteur. Par exemple, Le Printemps nous a confié la réalisation de la segmentation stratégique de ses clientes "cartées". Nous avions à notre disposition toute la base de leurs consommations au cours de trois années, ainsi qu' un questionnaire administré auprès d’un échantillon d’entre elles (ce qui a posé le problème supplémentaire et classique d’échantillonnage : jusqu’où sur - pondérer les clientes les plus fidèles, les plus consommatrices…), afin de recueillir une information qualitative sur leurs goûts, leurs attentes vis à vis du Printemps (la marque mais aussi l'offre magasins, l’agencement des rayons …). Nous avons pu ainsi réaliser une segmentation très fine qui s’appuie à la fois sur la consommation réelle (fréquence, récence, appétence pour les promotions…) et sur les attentes exprimées. Il nous a ensuite fallu nous assurer que cette segmentation pouvait être recréée avec les seules variables de la base de données, afin de la maintenir sans apport extérieur par la suite.

V : Aujourd'hui, à l'heure du numérique et de l'augmentation quasi illimitée des bases de données, quels développements métiers peut on observer et anticiper ?

Tout d'abord, l'augmentation de la capacité de stockage et de traitement des données permet d'anticiper sans risque d'erreur un très fort développement des analyses de données, rassemblées aujourd'hui sous le nom de datamining. Ce secteur d'activité est de manière évidente un domaine dans lequel les emplois et les besoins en "matière grise" vont se multiplier à court terme. Les machines peuvent faire des miracles dans le traitement "illimité" des chiffres, mais il faudra toujours des cerveaux, de plus en plus nombreux et de plus en plus formés, pour savoir exploiter, trouver le sens marketing et l'intelligence opérationnelle de ces informations.
C'est dans cette convergence entre les compétences statistiques de certains et les connaissances marketing des autres qu'un dialogue doit être possible et se développer : les scientifiques, issus le plus souvent d'écoles d'ingénieurs, doivent savoir "penser marketing" quand les marketeurs, formés en écoles de commerce, doivent comprendre la richesse des traitements statistiques pour pouvoir les imaginer et en exprimer le besoin. Cela demande souvent de la part de chacun d'entrer dans le registre de l'autre, de le comprendre, voire de faire de la pédagogie sur son domaine de compétence. C'est une des facettes de mon métier : rendre naturels le besoin et l'utilisation des analyses de données auprès des marketeurs. Pour cela nous nous appliquons à rendre très opérationnels les résultats des analyses que nous développons pour nos clients en pénétrant leurs problématiques métiers.

V : Comment cette évolution s'est traduite chez Sociologiciels par exemple

De manière très naturelle, Sociologiciels, fondée par un spécialiste historique des analyses de données a été rachetée en 1998 par deux "quantitatifs", Jacques Paget venu de l'institut BVA et Christian Delom, ancien directeur de l’institut Panel, tous deux très au fait des interrogations marketing de leurs clients. Sous leur impulsion la société a développé sa clientèle d'annonceurs et son image d'acteur incontournable du marché des traitements de données.
Au début des années 2000, le développement des énormes bases de données clients et la multiplication des politiques CRM (politique de gestion de la relation client) ont justifié l'émergence d'un département dédié aux études de datamining dans lequel je travaille. Aujourd'hui le chiffre d'affaires de Sociologiciels se répartit équitablement entre les études classiques (traitements des données issues d'études quantitatives réalisées par sondages) et les traitements datamining (exploration, traitements analytiques et prédictifs des données des bases clients).

Quelques exemples pour illustrer cette activité de datamining :

6.La prévision : nous travaillons à mettre au point un modèle de prévision des paniers repas d’une grande chaîne de restauration rapide, à partir de l’historique des consommations recueillies via les tickets de caisse, pour prédire l’agencement des menus qui connaîtront le plus de succès.
7.Le géomarketing : nous réalisons pour un gestionnaire de centre de loisirs l’implantation optimale de ses prochains centres. Cela veut dire proposer des lieux tels qu’il n’y aura pas de cannibalisation avec les centres existants, et une densité de population suffisante (eu égard à ce que l’on sait des populations demandeuses de ce service) pour en assurer la viabilité. Ce type de modélisation fait appel à toute l’information fournie en France par l’Insee au travers de la base IRIS, et aux équivalents disponibles en Europe.
8.Les problématiques de scoring : modéliser le « churn », c’est-à-dire l’attrition, là encore mesuré uniquement au travers des bases de données (transactions et caractéristiques clients), dans des domaines comme la téléphonie, l’acheminement du courrier (en BtoB comme en BtoC…)
9.La création de segmentations à potentiel pour la grande distribution, c’est-à-dire cibler, à partir des tickets de caisse, les clients qui peuvent le plus "progresser" dans leurs dépenses. Cela permet de piloter de façon très précise les politiques de fidélisation. Ce type d’analyse est amené à se développer de façon très intense dans la relation client sur le web, où les possibilités de "traçabilité" des comportements sont très fortes (il est en effet possible de descendre jusqu’à l’analyse des log en ayant recours à des outils de Text Mining). Chaque fois, l’idée est la même : utiliser des analyses complexes afin de fournir des règles de gestion "clef en main" qui vont abonder des outils de reporting et de pilotage.

V : Aujourd'hui à quels nouveaux développements travailles tu ?

Notre ambition quotidienne est d'accroître chaque jour un peu plus la sophistication des traitements que nous réalisons pour nos clients. C'est évidemment la condition pour demeurer un acteur reconnu, crédible, du marché, voire, l'acteur incontournable car le plus qualifié pour résoudre des problématiques difficiles faisant appel à des compétences théoriques de haut niveau. Pour satisfaire cette ambition, il nous arrive parfois de faire appel à des théoriciens (professeurs d'université, chercheurs de renom) qui nous accompagnent dans des développements innovants.

Une réalisation dont nous sommes fiers fut, en 2008, pour Médiamétrie, Audipresse et Affimétrie la fusion des bases de données d'audience des cinq grands médias (la presse, la télévision, la radio, l'internet et la publicité extérieure). L’enjeu statistique était de créer une seule base de données à partir de cinq sources indépendantes aux méthodologies très différentes (mesures audimétriques pour la télévision et l'internet, déclaratives pour la radio et la presse, probabilisées pour l'affichage). Le but opérationnel était de pouvoir disposer de mesures d’audience "crossmedia" , autrement dit de créer un nouvel échantillon qui permettrait de reconstituer les comportements simultanés de consommation des cinq médias (pour savoir, à un moment t, que lit, écoute, surfe, regarde un même individu ?). Cette audience "multiple" représente plusieurs centaines de points de mesure. Il était donc inenvisageable de passer par des modèles supervisés ; c’est-à-dire de bâtir un modèle de prévision de la fréquence de lecture de tel titre de presse, telle chaîne de télévision ou de telle radio, dans son échantillon, et de l’appliquer aux autres bases disponibles. Cela eût signifié plusieurs centaines de modèles différents à mettre en œuvre, et une probabilité presque nulle de retrouver les déduplications entre toutes ces variables prédites. Nous avons donc créé un modèle de jumelage, qui d’une source à l’autre soit à même de dire : tel individu est le clone de tel ou tels autres individus. Non pas re-création de variables mais détection de la similarité entre observations. La fusion de fichier est un domaine encore neuf. Les outils de contrôle habituels (apprentissage, test, validation…) ne sont pas opérants, la taille de l’échantillon joue un rôle très particulier dans la qualité du résultat. Les outils de mesure de la similarité ne sont pas ceux auxquels on fait appel au jour le jour en statistique fréquentiste. On se rapproche là des problèmes de « pattern recognition » qui sont posés en imagerie ou en génomique.

D’une façon générale, le fait de travailler sur des bases de plus en plus volumineuses (et souvent exhaustives quant à la population étudiée) et historicisées nous amène à adapter des outils venus d’autres horizons. Nous sommes par exemple amenés à utiliser des modèles de survie (Cox…) afin de comprendre et anticiper l’abandonnisme des clients. Nous faisons de plus en plus appel à des modèles non linéaires en apprentissage supervisé, comme les réseaux bayésiens, SVM (« support vector machine »), les réseaux de neurone, les algorithmes génétiques, le boosting… voire des combinaisons de ces différentes techniques. Sachant que chacune d’entre elles nécessite le « fine tuning » relativement complexe d’un nombre important de paramètres.

De manière plus générale, les sociétés de traitements de données comme Sociologiciels avancent dans le sens d'une collaboration étroite voire quotidienne avec leurs clients sur l'exploitation de leurs bases de données clients. C'est dans un dialogue constant que scientifiques et marketeurs optimisent ce qu'ils font des données clients dont ils disposent. Jusqu'à, pourquoi pas, voir les bases de données clients, abritées, gérées et exploitées de manière externalisée directement dans les sociétés de traitements.

V : Enfin en guise de conclusion, que dirais tu aux étudiants de l'école qui réfléchissent à leur futur professionnel …?

Disons que le traitement de données dans le marketing n’est pas une « science molle » ; qu’il faut, pour le mener à bien, maîtriser des sujets qui vont de l’échantillonnage à la modélisation en passant par les tests ; qu’il faut également demeurer curieux car pour peu que l’on se tienne au courant de ce que produit la communauté scientifique, on s’aperçoit que nombre d’outils correspondent aux problèmes que nous nous posons, sachant que l’intérêt (voire le charme) de l’exercice est de trouver la combinaison optimale entre plusieurs méthodes afin de répondre à la question posée. Et si j'exprime les fantasmes auxquels nous pouvons penser parfois, me vient à l'esprit naturellement celui d'un département de recherche opérationnelle pour offrir aux décisions marketing de nos clients toute la richesse que permet d'envisager la sophistication théorique à notre disposition …!

François Rosset, analyste dataminer, nous explique la convergence fertile entre les réflexions marketing les plus exigeantes et la richesse des explorations "datamining" appliquées aux bases de données clients. Il souligne par là l'opérationnalité marketing de plus en plus recherchée des compétences statistiques enseignées à l'ENSAE.

François Rosset (1990), analyste dataminer chez Sociologiciels

Autrice

François Rosset (1990)

Articles liés par des tags

Commentaires

Aucun commentaire

Vous devez être connecté pour laisser un commentaire. Connectez-vous.