Les expérimentations en sciences sociales, une révolution pour l’évaluation des politiques publiques
L’évaluation des politiques publiques est un domaine dans lequel les chiffres sont centraux pour analyser, comprendre et orienter les choix publics. Ils ont pourtant souvent été mal compris, à la fois quant à la signification et la portée de leurs enseignements, voire instrumentalisés. Les avancées de la recherche et en particulier les méthodes expérimentales, permettent d’envisager un rapport assaini aux chiffres.
Longtemps les évaluations de politiques publiques étaient soit le fruit d’analyses simplistes soit obtenues au terme de modélisations complexes intelligibles des seuls initiés et reposant sur des hypothèses toujours discutables. Les enseignements que l’on en tirait devenaient alors eux-mêmes sujets à débat sans contribuer à éclairer les décideurs sur les effets des politiques.
Toutefois cet état de fait n’est pas une fatalité. Inspiré des expérimentations médicales, les méthodes d’évaluation par échantillonnage aléatoire permettent d’analyser les politiques publiques en restant très proche de la logique comptable c’est-à-dire aussi agnostique (idéologiquement parlant) et transparent que possible. Ces méthodes sont depuis plusieurs années utilisées aux États-Unis, dans le nord de l’Europe et dans certains pays en développement. La France commence à les découvrir pour évaluer les dispositifs d’aide au retour à l’emploi. Voici une présentation succincte de ce qui pourrait bien révolutionner les habitudes de notre débat public.
L'évaluation des politiques publiques, des avancées importantes
L’évaluation quantitative des politiques publiques se décline en deux volets : l’évaluation ex ante ou l’on cherche à anticiper les effets d’une réforme à venir et l’évaluation ex post qui est l’analyse d’une réforme passée ou en cours. C’est dans ce dernier domaine que les avancées scientifiques et les développements institutionnels ont été les plus spectaculaires. Parmi elles l’évaluation par échantillonnage aléatoire est la méthode d’évaluation ex post qui s’est le plus développée ces dernières années. Inspirée par les expérimentations médicales et d’abord utilisée par les économistes du développement, elle est désormais incontournable dans l’étude des politiques de l’emploi aux États-Unis et en Europe.
Evaluer les politiques publiques signifie encore, dans la plupart des pays européens, évaluer les coûts associés aux différents dispositifs, qu’ils soient individuels ou globaux, compter le nombre de bénéficiaires ou encore proposer une analyse fine du processus de mise en œuvre du programme. Ce type de démarche délivre une information très limitée, peu utile pour orienter les politiques publiques et très loin de ce que l’on peut attendre d’une véritable évaluation.
L’évaluation est en effet une discipline reconnue, qui s’est fortement développée au cours des années récentes et a en particulier été couronnée par l’attribution d’un prix Nobel d’Economie en 2000 à James Heckman. Il s’agit aujourd’hui d’un champ de recherche très actif tant dans le développement des méthodes que dans celui de leur mise en œuvre.
Le principe de base de ce type d’évaluations est de chercher à mesurer la plus value apportée par la mesure. Il s’agit donc de mesurer le changement qu’elle apporte sur les parcours individuels. Elles reposent sur la comparaison de la situation d’un individu bénéficiaire avec une mesure de ce qu’aurait été sa situation en l’absence du dispositif.
L‘expérimentation, plus adaptée pour éclairer le débat
Les difficultés méthodologiques de l’évaluation sont sérieuses. Il est en effet nécessaire de connaître la situation d’un individu à la fois lorsqu’il bénéficie et ne bénéficie pas de la mesure. C’est ce qui explique l’intensité des travaux de recherche dans ce domaine. Parmi les méthodes proposées, il en est une particulièrement adaptée lorsque la finalité de l’évaluation est d’éclairer le débat public. Il s’agit des expérimentations.
Une expérimentation consiste à mettre en œuvre un programme à petite échelle en contrôlant l’envoi des bénéficiaires potentiels dans deux groupes : un groupe qui va recevoir ou se voir proposer la participation au programme et un groupe qui va jouer le rôle de groupe de contrôle. La caractéristique essentielle de ces expérimentations est que l’affectation aux deux groupes se fait au hasard. Dans ces opérations, il y a un protocole expérimental rigoureux détaillant les règles d’envoi dans chacun des deux groupes qui doit être scrupuleusement suivi. Il s’agit en fait d’une méthode s’apparentant à ce qui est fait communément pour l’évaluation de l’effet des traitements médicaux.
On a en France l’habitude de mettre en œuvre des programmes à petite échelle avant de les généraliser. Qui dit petite échelle dit aussi rationnement : il y a souvent beaucoup moins de places disponibles que d’individus éligibles. Dans notre pratique de mise en œuvre des programmes à l’essai, il y a donc dans l’esprit et dans les faits tous les éléments nécessaires à la constitution d’un groupe de contrôle aléatoire. La constitution d’un tel groupe est centrale et faute d’y avoir eu recours, aucune mise en œuvre de programme à petite échelle n’a pu être évaluée de façon satisfaisante.
Pourtant la simple mise en œuvre de ces deux principes que sont la constitution d’un groupe de contrôle et l’affectation aléatoire à l’un des groupes « programme » ou « contrôle » permettrait de produire des résultats ayant la force de l’évidence. Les discussions entourant la mise en œuvre, le développement ou l’arrêt d’un programme sont souvent conflictuelles, car les intérêts en jeu sont souvent contradictoires. Il est de ce fait difficile de mettre les parties prenantes d’accord sur l’effet des mesures : les effets potentiels et attendus sont-ils là ? Avec quelle amplitude ? La mise en œuvre d’évaluations par échantillonnage aléatoires est un moyen de produire des résultats s’imposant d’eux-mêmes à tous, car ils sont obtenus de façon claire, transparente, facilement compréhensible et incontestable. Ils sont de ce fait susceptibles de constituer le socle de savoir commun et objectif qui manque souvent et à partir duquel une discussion productive peut avoir lieu.
Mettre en œuvre ce type d’évaluation par échantillonnage aléatoire n’est pas compliqué. Il ne s’agit pas d’une idée théorique bizarre et inapplicable en pratique. Il s’agit plutôt d’un principe général que l’on peut souvent décliner facilement. Ainsi, il ne s’agit pas de la situation caricaturale que serait l’éviction aléatoire d’une proportion des individus venant s’inscrire pour participer à un programme. De nombreuses façons existent de rendre ce principe facilement opérationnel, qui s’inscrivent naturellement dans les contraintes de la mise en œuvre du programme.
Il reste néanmoins que la définition du protocole et son respect nécessite une organisation particulière. Ce que l’on appelle le « design » de l’expérimentation : comment et combien d’individus seront envoyés dans chacun des groupes, est une tache importante ayant une forte composante académique. Il ne saurait y avoir d’évaluation par échantillonnage rigoureuse sans une analyse préalable de la capacité du dispositif construit à révéler des informations suffisamment précises.
Il y a aux États-Unis un débat très avancé en ce qui concerne les expérimentations faisant intervenir des êtres humains. Ce débat a conduit à une régulation fournissant des guides utiles et s’appliquant aussi bien aux expérimentations en médecine qu’aux expérimentations en sciences sociales. En France, un tel débat n’a pas eu lieu pour les sciences sociales et il n’existe pas de guide précis, bien que certaines composantes importantes du mode de régulation existant aux États-Unis existent dans notre législation, par exemple la loi Informatique et Liberté.
Des domaines d’application nombreux
Historiquement il y a eu plusieurs types d’utilisation de ces méthodes d’évaluation. Les premières utilisations ont eu lieu aux États-Unis et au Canada et portaient sur des programmes importants destinés à favoriser le retour à l’emploi. Il s’agissait par exemple de programmes de formation et d’accompagnement pour les chômeurs en difficulté. D’autres exemples de mise en œuvre ont ensuite concerné le système d’allocations chômage : une indemnisation plus importante nuit-elle au retour à l’emploi ? Certains programmes s’apparentant à notre Prime pour l’Emploi ont aussi été évalués de cette façon au Canada notamment (Self-Sufficiency Project). Les politiques d’éducation ont aussi fait l’objet d’évaluations ayant recours à ce type de méthode (programme Star). En particulier les questions relatives à la taille des classes et à la mixité sociale et géographique ont été analysées dans ce cadre.
De nombreuses applications ont aussi été effectuées dans le domaine de l’économie des pays en voie de développement. L’efficacité de nombreux programmes de lutte contre la pauvreté a ainsi pu être testée. Cela a été le cas par exemple pour l’effet du micro-crédit ou encore pour des mécanismes d’incitation à l’adoption de nouvelles technologies. De nombreux programmes dans le domaine de l’éducation et de la santé dans ces pays ont aussi été évalués (dispositif Progressa). L’économie du développement a aussi été un fabuleux terrain pour élaborer et enrichir notre connaissance de ces méthodes.
En France, nous évaluons actuellement plusieurs programmes de retour à l’emploi testés dans ce cadre expérimental. Il s’agit de premières dans notre pays et aussi en Europe, dans une large mesure. Le premier programme à avoir été concerné, toujours en cours d’évaluation, est un programme mis en œuvre au niveau départemental et portant sur la réinsertion dans l’emploi des RMIstes de longue durée. Une autre expérimentation utilisant cette méthode de l’échantillonnage aléatoire dans notre pays concerne les nouveaux programmes d’accompagnements proposés par l’Unedic et l’ANPE depuis début 2007 aux chômeurs présentant des risques de chômage de longue durée. Une autre évaluation débute actuellement. Elle concerne l’évaluation d’un programme d’accompagnement de jeunes diplômés au chômage. Cette évaluation est particulièrement intéressante car elle a été mise en œuvre de telle sorte qu’il soit possible de mesurer l’effet du programme non seulement sur les bénéficiaires mais aussi sur les non bénéficiaires. Ce type de politique d’accompagnement est en effet susceptible d’exercer un effet négatif sensible sur les non bénéficiaires. Il y a aujourd’hui un beau potentiel de développement d’évaluations par échantillonnage aléatoire dans notre pays qui devrait nous permettre de connaître en profondeur les vrais effets de nos politiques.
Des processus qui restent longs
Parce qu’elle est très agnostique en terme de théorie économique, la méthode par échantillonnage aléatoire ne permet pas de faire des projections, en tout cas pas dans l’état actuel des choses. Des travaux de recherches récents laissent toutefois penser que les expériences contrôlées peuvent être une bonne façon de calibrer ou valider un certain nombre de modèles structurels qui sont eux très utiles pour extrapoler les effets d’une réforme à venir (évaluation ex ante).
D’un point de vue opérationnel, une expérience contrôlée ne permet généralement pas d’obtenir des résultats très rapides car son design impose souvent des délais incompressibles. Si l’orientation vers le groupe de traitement et du groupe de contrôle se fait dans un flux (des inscriptions à l’ANPE par exemple), l’expérience devient tributaire des accélérations ou du ralentissement de ce flux : il faudra peut-être attendre un an avant d’avoir constitué un échantillon de taille acceptable. Idem s’il on s’intéresse aux effets de moyen ou long terme de la réforme : mesurer l’impact de la réforme à 6 mois nécessite…d’attendre au moins 6 mois. Ces délais inhérents à la démarche scientifique peuvent rebuter les commanditaires de l’évaluation, mais sont la contrepartie de la rigueur et de la transparence de l’expérience.
De l’évaluation au diagnostic
Les évaluations existantes sont principalement destinées à répondre à des questions du type : le programme mis en œuvre a-t-il les effets attendus ? Quelle est l’ampleur des effets obtenus ? Au delà de cet usage, il peut aussi être un outil de diagnostique et permettre de répondre plus efficacement à la question : quelle est la politique la plus adaptée ?
A titre d’exemple, on peut citer l’expérimentation ayant eu lieu au milieu des années 80 aux États-Unis et connue sous le nom de « Bonus re-employment experiment ». Cette expérimentation s’adressait aux chômeurs peu qualifiés et était en fait double : un premier groupe de chômeurs se voyait proposer un bonus généreux en cas de retour durable à l’emploi. Pour un deuxième groupe, un bonus était proposé également mais il était perçu par l’employeur potentiel et non par l’individu lui-même. Enfin un troisième groupe correspondait au groupe de contrôle. Ainsi cette expérimentation permettait de savoir si pour favoriser le retour durable à l’emploi, il est préférable de subventionner l’offre de travail ou la demande de travail… Le cadre expérimental mis en œuvre a permis de répondre sans ambiguïté à cette question : des résultats positifs ont été obtenus pour le premier groupe (par rapport au troisième groupe), alors qu’aucune différence notable n’était observée entre le deuxième et le troisième groupe. Conclusion : aux États-Unis, il était alors plus efficace de subventionner l’offre de travail que la demande de travail pour favoriser le retour à l’emploi des travailleurs défavorisés.
L’évaluation par échantillonnage aléatoire est une étape essentielle dans l’amélioration du débat public. Transparente, fiable, elle permet au chercheur de prendre à témoin tous les acteurs d’une politique en proposant un protocole inattaquable et de livrer en quelques mois un diagnostic sur la nature d’un problème ou l’effet d’un dispositif.
La France commence à découvrir ces méthodes promises à un bel avenir scientifique et institutionnel.
Aucun commentaire
Vous devez être connecté pour laisser un commentaire. Connectez-vous.