Benchmarking

1. QU’EST-CE QUE LE BENCHMARKING ?

Depuis quelques années, les agents publics — instituteurs, personnels hospitaliers, policiers, universitaires, travailleurs sociaux, etc. — se plaignent, dans les couloirs ou les manifestations, de crouler sous les chiffres. Tous voient leur activité de plus en plus mesurée, quantifiée, évaluée, comparée. Ils dénoncent un quantitativisme exubérant, une « quantophrénie ». Comment expliquer ce sentiment ?

Si l’État utilise depuis longtemps pléthore de statistiques, on assiste actuellement à la prolifération de chiffres d’un nouveau genre. Ce ne sont plus ceux de l’« État-providence », qui prétendait lutter contre le chômage ou défendre le « pouvoir d’achat » des ménages, et qui calculait en conséquence le nombre d’actifs sans emploi ou le taux d’inflation. Ces nouveaux chiffres, l’administration s’en sert désormais pour gouverner ses propres agents. Ce sont les fonctionnaires eux-mêmes — ou apparentés — qui sont dorénavant auscultés, dénombrés, gérés, passés au crible de ces nouvelles quantités. Le geste quantificateur, évaluateur, scrutateur, devient réflexif. L’État n’est plus un phare, dont le rayon statistique éclairait les objets lointains, il est devenu ver luisant, un lampyre, produisant une phosphorescence quantitative blafarde sur lui-même.

S’il existait bien sûr déjà — et depuis longtemps — des pratiques de notation des agents de la fonction publique, les nouveaux instruments de mesure sont spécifiques. Il y a là quelque chose à saisir, qui ne se réduit pas aux pratiques antérieures. Parmi ces nouvelles façons de quantifier l’activité des agents, le benchmarking a fait florès. Par ce mot barbare, vague à souhait, sont désignées des choses assez différentes, mais qui pointent toutes vers ce que nous cherchons à cerner : une nouvelle espèce, envahissante, d’évaluations quantitatives dans les services publics.

Ceci a pour conséquence de transformer l’action des agents, les rapports que les services publics entretiennent avec leurs usagers — citoyens, contribuables, retraités, étudiants… Bref, avec tout le monde. Ces nouvelles quantités transforment la vie des fonctionnaires et par ricochet notre vie à tous, d’où l’impression justifiée de leur omniprésence grandissante, voire oppressante.

DES OUTILS PROBLÉMATIQUES

Le benchmarking est une technologie de gouvernement, un art bien spécifique de conduire les organisations sociales, dont la pratique n’a rien de mécanique ni de naturel. Si on voulait le caractériser de façon dynamique, on pourrait repérer une démarche en quatre temps :

1) définition d’une série d’indicateurs statistiques mesurant les performances d’un certain nombre d’acteurs et d’activités pré-identifiés ;

2) fixation pour chaque indicateur d’un objectif chiffré à atteindre ;

3) délimitation d’une période de temps pendant laquelle chaque acteur s’efforce d’atteindre ces objectifs ;

4) aménagement de lieux de rencontre (physiques ou à distance) où les acteurs se réunissent, se comparent les uns aux autres, et établissent de nouveaux objectifs pour un prochain cycle.

Il va sans dire que ce schéma ne se retrouve pas, à l’identique, dans tous les ministères, les commissariats, les hôpitaux, les usines ou les universités. La méthode est chaque fois déployée plus ou moins ouvertement et rigoureusement par des managers, des consultants, des chargés de mission qui en modulent les éléments selon les spécificités des lieux et des personnes. Chaque situation constitue un cas d’espèce méritant une étude en soi. Mais, si l’on veut accéder au motif d’ensemble, il faut, comme face à une peinture pointilliste, prendre du recul. Les indicateurs statistiques, les objectifs chiffrés, les comparaisons et les classements forment autant de petits points épars qui dessinent les réseaux continus du benchmarking.

Indicateurs

Le benchmarking est avant tout une procédure de quantification de l’activité des agents, des équipes et, par agrégation, de leur organisation. Il présuppose, et là est la première difficulté, d’avoir déterminé une métrique adéquate. Un processus organisationnel ou une séquence d’actions étant donnés, comment les convertir en chiffres ? Comment, par exemple, quantifier l’activité d’un enseignant-chercheur à l’université ? On peut compter les heures de cours, mais on ne mesure ainsi ni la quantité de savoirs effectivement transmis ni la qualité éducative de cette transmission. On peut aussi chiffrer le taux de réussite des étudiants aux examens, ou leur demander d’évaluer eux-mêmes leurs cours, comme des clients invités à remplir des questionnaires de satisfaction. Ces deux options sont actuellement privilégiées, non sans effets pervers, qui peuvent aller de la surnotation jusqu’aux conduites clientélistes. Quoi qu’il en soit, ce type d’indicateurs laisse dans l’ombre les activités de recherche qui, comme son nom l’indique, occupent la moitié du temps de travail d’un enseignant-chercheur. Suffirait-il alors, pour rendre compte de son activité scientifique, de dénombrer ses publications ? Mais, là encore, leur nombre ne préjuge en rien de leur pertinence. Même en multipliant les indicateurs, la difficulté perdure. Comment pondérer équitablement les heures de cours magistraux et celles de travaux dirigés ? Compter les publications, d’accord, mais dans quels types de revues, sous quel format ? Et les livres ? Valent-ils autant qu’un article ? Bref, la spécification de l’activité par des indicateurs quantitatifs tient très vite du casse-tête.

Dans le choix des indicateurs, on se retrouve en outre assez vite confronté à une alternative entre mesure de l’efficacité (le fait de parvenir à réaliser un objectif prédéterminé) et mesure de l’efficience (le fait d’atteindre un objectif à moindre coût). En d’autres termes, le choix est entre une mesure des outputs (par exemple, le volume horaire d’enseignements dispensés pour un diplôme) et un ratio outputs/inputs (par exemple, le coût horaire d’une formation par étudiant). Ces deux façons d’envisager une même réalité ne sont pas équivalentes et peuvent mêmes se révéler contradictoires quant aux décisions qu’elles informent.

Enfin, une dernière difficulté affecte l’imputation des résultats en fonction de la taille de l’unité évaluée. L’échelle peut varier de l’individu à toute l’institution, en passant par toutes les unités intermédiaires (équipe, projet, ministère, etc.). Quantifier l’activité d’un enseignant-chercheur peut par exemple se justifier parce que c’est à lui que le traitement est versé. Mais cela n’a pas beaucoup de sens dès lors qu’on prend acte de la dimension collective de l’activité pédagogique et scientifique. Ce sont des équipes, non des individus, qui animent les formations universitaires et la vie de la recherche. Un enseignant-chercheur, considéré isolément, n’a en fait que très peu de prise sur le taux de réussite de ses étudiants. Ce serait alors au niveau des équipes qu’il faudrait placer la jauge. Mais, là encore, il n’est pas facile de convenir d’indicateurs quantitatifs qui ont pour effet de décontextualiser les conditions d’étude et de travail.

Prenons le cas d’une catégorie créée par l’Agence d’évaluation de la recherche et de l’enseignement supérieur (AERES) : le taux de « non-publiants » au sein d’un laboratoire. Un nombre important d’enseignants-chercheurs qui ne publient pas ne veut pas forcément dire qu’on a repéré une bande de fainéants. Il peut signaler qu’un département universitaire souffre de sous-encadrement, obligeant les enseignants à prendre en charge plus de cours au détriment de leurs recherches. Au-dessus de l’individu et de l’équipe, il y a les universités et le système national d’enseignement supérieur et de recherche (ESR). Celui-ci voit ses résultats chiffrés et comparés à une échelle internationale, notamment dans le cadre de l’Organisation pour la coopération et le développement économiques (OCDE) et de l’Union européenne (UE). Les universités sont jetées depuis quelques années sous les feux croisés d’une multitude d’indicateurs qui les mesurent sous toutes les coutures, que ce soient ceux du nouveau Système d’allocation des moyens à la performance et à l’activité — baptisé, non sans humour (noir), Sympa — ou ceux des palmarès dont la presse est friande, tel le fameux classement de Shanghai.

Toutes ces difficultés de mesure s’entremêlent à une question plus politique, celle de savoir qui a le pouvoir in fine de choisir ces indicateurs, d’en écarter certains, d’en retenir d’autres. Une activité est-elle mieux décrite par ceux qui la dirigent ou par ceux qui l’exercent ? La réponse fait l’objet de vifs débats. Certains vantent les vertus délibératives de la quantification dans le cadre d’une discussion entre responsables et exécutants. On met alors en place des dispositifs plus ou moins participatifs, qui sollicitent l’avis de cadres intermédiaires, voire de représentants des employés subalternes. Mais leur participation est en réalité la condition à leur enrôlement dans la démarche de benchmarking. Les responsabiliser sert à les impliquer dans le choix des indicateurs afin qu’ils en reconnaissent la légitimité. C’est l’ambivalence propre aux mécanismes participatifs : les exécutants peuvent espérer influer sur le cours de la négociation, mais, en y participant, ils légitiment par avance le résultat, même si celui-ci leur est défavorable.

Prenons le cas d’une organisation où la participation des agents n’a rien d’évident — la police. L’ancien préfet de police de Paris, Jean-Paul Proust, qui fut le premier à établir en France de tels indicateurs pour la police de proximité (nous y reviendrons dans le chapitre 3), nous expliquait en entretien comment il avait procédé. Après avoir élaboré un premier cadre général, les directeurs avaient ensuite révisé la copie en fonction des réactions de leurs subordonnés. Proust prenait l’exemple des automobiles. Initialement, on dénombrait le nombre de « véhicules attribués » à chaque commissariat. Mais les commissaires firent valoir que ce nombre théorique ne correspondait pas aux véhicules effectivement disponibles. En effet, en cas d’accident, même minime, la file d’attente est longue au garage de la préfecture, ce qui immobilise les voitures. La concertation a abouti à transformer l’indicateur « véhicules attribués » en « véhicules disponibles ». Le cadre général établi par la haute hiérarchie a donc été adapté à la marge par l’échelon inférieur. Bien d’autres configurations sont bien sûr possibles.

Une fois les indicateurs choisis, il faut récolter et compiler les quantités observées, ce que l’on appelle « renseigner les indicateurs ». Cela peut se faire de deux façons différentes. Certains nombres sont obtenus de façon automatique ou à partir de registres. Combien y a-t-il d’aides-soignant(e) s dans une équipe ? Il faut demander aux ressources humaines. Quel est le budget annuel de tel laboratoire ? Il faut demander au service comptable. Mais, pour d’autres indicateurs, qui portent sur l’activité des agents, c’est à eux-mêmes qu’il faut le demander. Qui peut savoir combien j’ai publié d’articles dans l’année ? Personne mieux que moi. Qui peut savoir combien d’interventions a fait une patrouille de police dans la journée ? Personne mieux qu’elle-même. La plupart du temps, c’est donc l’évalué qui devient son propre évaluateur en reportant lui-même les données le concernant. On touche là à une différence fondamentale entre les indicateurs que produit par exemple l’Insee sur la conjoncture ou l’indice des prix et ceux que produisent les acteurs sur eux-mêmes à des fins de management. Dans le premier cas, ils résultent de l’observation d’une réalité extérieure, dans le second cas, d’un regard tourné sur soi-même, de façon autoréférentielle. On devine immédiatement le problème : un système qui dépend, pour les informations qu’il sollicite, de la bonne volonté des agents s’expose à ce que ceux-ci, la pression aidant, se mettent à trafiquer leurs chiffres. Cette tension entre la nécessité de se fier à ceux qui produisent, et donc savent, et celle de s’en défier car ils peuvent tricher ou mentir rejoint la question centrale de la domination soulevée en introduction.

Objectifs

La production d’indicateurs sur l’activité des agents permet de fixer des objectifs chiffrés, autre caractéristique du benchmarking. Ces objectifs donnent un but à l’activité des agents, une cible à atteindre. Cette année, il faudra réaliser telle quantité de telle opération. Mais, là encore, des problèmes se posent. Reprenons l’exemple de la police : que se passerait-il si, le gouvernement ayant posé l’objectif de n contrôles routiers à réaliser en un an, les policiers n’assistent cette année-là qu’à la moitié de situations justifiant habituellement un tel contrôle ? On risquerait de voir les agents, craignant de ne pas atteindre leurs objectifs, tenter d’en démultiplier eux-mêmes le nombre d’une façon ou d’une autre. Et, de fait, ces contrôles se sont multipliés, engendrant un nombre de gardes à vue consécutives à de tels contrôles si élevé en 2010 que cela a créé un émoi public. Le pompier a été incité à devenir pyromane, drôle d’efficacité managériale. D’après le responsable « Police » du cabinet du ministre de l’Intérieur que nous avons rencontré, ce type d’effet pervers serait contourné par un mode de détermination des objectifs reposant, ici aussi, sur la concertation entre deux échelons de la hiérarchie. Ceux qui doivent les atteindre soumettent des propositions à leurs supérieurs, qui les amendent. En lieu et place d’une « politique du chiffre », dénoncée par certains syndicats, journalistes ou sociologues, il y aurait une forme d’autogestion dans la police. Voilà un point troublant que nous éclaircirons plus loin…

L’autre grande difficulté posée par ces objectifs est celle de leur agrégation dans un indicateur global mesurant l’action de l’État. Dans les entreprises, il existe certes plusieurs indicateurs comptables qui peuvent faire office de bottom line, tels que le chiffre d’affaires total, la rentabilité ou la valeur économique pour l’actionnaire. Mais ils pointent tous vers une même finalité de profit assurant la viabilité de l’organisation. S’agissant de l’État, il y a certes des débats sur sa « compétitivité » qui font comme si se posait la question de sa survie, mais ils ne parviennent pas à occulter le fait que l’action publique poursuit de multiples fins irréductibles les unes aux autres. Cette multiplicité va à l’encontre de la logique du benchmarking, censée déboucher sur la fixation d’une cible chiffrée. De fait, nous verrons que les ministres eux-mêmes, confrontés à cette logique, se sont efforcés d’y échapper précisément parce qu’ils ne parviennent pas à orienter leurs activités vers un unique objectif, ou ne veulent pas se voir évalués à l’aune d’un seul critère.

Comparaisons

Indicateurs et objectifs constituent le cadre d’une comparaison qui a d’abord lieu au sein d’une même organisation. On compare par exemple les résultats de trois patrouilles dans un commissariat, de quatre unités de formation dans une université, de deux équipes d’accueil à l’hôpital. Chaque entité s’efforcera de réaliser le maximum de tâches prescrites et, à la fin de la période, les résultats seront comparés, ce qui permettra de classer les entités et d’attribuer des gratifications aux plus méritantes, en toute équité apparente. La quantification impose ses normes comme des données objectives, sans qu’on puisse la soupçonner de favoritisme. Elle atténue ainsi les éventuelles contestations, qu’il s’agisse de la distribution des primes ou de coupes sombres dans certains budgets.

Cette comparaison peut aussi se faire entre équipes appartenant à différentes organisations, de façon à identifier les « bonnes pratiques » de l’une et à les rapatrier vers l’autre. C’est là le sens le plus répandu du benchmarking, qui prend alors la forme d’une course entre différentes organisations dont chacune s’efforce d’être la « meilleure ». Cet effort pour faire mieux que le meilleur a, en japonais, un nom : dantotsu. La philosophie du dantotsu suppose la mobilisation générale des membres de l’organisation. Dans ce monde où la performance de chacun est la condition du succès de tous, la contre-performance entraîne la stigmatisation individuelle des maillons faibles de l’équipe. Cette course à la performance est sans fin : on peut toujours trouver meilleur que soi dès lors que l’on étend indéfiniment le plan d’équivalence, c’est-à-dire le champ de la comparaison. Tels sont les effets du benchmarking : décloisonner les équipes, ouvrir les organisations, les exposer à une « saine émulation » qui cache mal une compétition féroce.

En adoptant le modèle « Sympa » pour allouer les moyens publics aux universités, l’État compare leurs performances afin de récompenser les « meilleures » en emplois et crédits. Il les incite par là même à lorgner sur ce que font leurs homologues afin d’obtenir une plus grosse part du gâteau. Les universités seraient ainsi amenées à épouser une culture du résultat. À chacune d’elles de faire ses preuves en améliorant continûment ses performances jusqu’à rejoindre le peloton de tête. Mais que les établissements soient implantés dans un « territoire en difficulté » ou au cœur de la riche capitale, les évaluateurs n’en ont cure : ils font comme si tous étaient placés sur la même ligne de départ. La même logique se répercute en leur sein, entre leurs membres. In fine, tous les échelons sont engagés dans des courses gigognes : les enseignants-chercheurs qui s’évertuent à publier plus que leurs collègues ; les équipes pédagogiques qui visent des taux de succès (ou simplement de présence) aux examens supérieurs aux autres formations ; les universités qui agrègent ces résultats (nombre de publications et d’étudiants en fin d’année) pour accroître leurs dotations au détriment des autres établissements et grimper dans les palmarès internationaux ; le ministère de l’Enseignement supérieur et de la Recherche qui souhaite afficher des scores nationaux meilleurs que ses partenaires dans le cadre de l’OCDE, du processus de Bologne ou de la stratégie européenne de Lisbonne.

Tout comme le stakhanovisme en son temps, qui était présumé faire appel aux initiatives des travailleurs, le benchmarking en appelle à la créativité des agents. Il n’accompagne pas un mode de travail régi par la soumission aux règles, mais insiste au contraire sur l’investissement personnel des sujets, leur sens de l’initiative, leur goût de l’innovation. Aussi les « meilleures pratiques » d’autrui ne servent-elles pas simplement de sources d’inspiration, modèles à copier dans sa propre organisation, mais aussi et surtout d’aiguillon. Stimuler l’esprit entreprenant des agents, susciter leur volonté d’améliorer sans relâche leurs façons de faire : voilà le principe actif des comparaisons. C’est pourquoi le benchmarking tel qu’il a été expérimenté dans les entreprises ne se borne pas à une analyse de la concurrence dans un secteur d’activité donné. Il ne connaît pas de frontières, ni spatiales ni sectorielles, car les « meilleures pratiques » se trouvent potentiellement partout. Comme elles sont fugitives, on ne saurait les identifier une fois pour toutes. Le temps du benchmarking n’est pas celui d’une séquence ponctuelle, mais d’un cycle perpétuel.

Les agents codent statistiquement leurs activités, la plupart du temps dans des tableaux informatiques. Cette tâche n’est pas noble. Rébarbative, elle implique de nombreuses approximations, toute une série de petits arrangements avec les chiffres. Elle se déroule souvent dans les arrière-boutiques. Sans être cachée, elle n’est pas pour autant exposée en pleine lumière. Elle ne fait pas l’objet d’une publicité particulière. Mais tout change une fois que les données ont été agrégées et les résultats calculés, que plus aucune trace apparente ne subsiste des approximations préalables. Le benchmarking peut alors exhiber fièrement ses données comme des vérités scientifiques et, sur cette base, classer les équipes en toute objectivité, distribuer les sanctions et récompenses de façon incontestable.

Pour que ces opérations de « management honorifique note » fonctionnent à plein, pour que les acteurs félicités le soient encore plus indiscutablement, de véritables rituels statistiques sont mis en place, des cérémonies du chiffre où se prononcent les résultats, se décernent les honneurs ou se distribuent les blâmes. À New York par exemple, les commissaires centraux des arrondissements étaient régulièrement réunis devant le maire, l’aréopage entier de la police et même la population locale et la presse pour se faire violemment houspiller ou chaudement congratuler pour leurs résultats.

Le benchmarking est une procédure de quantification qui traduit des situations, des actes, des collectifs en résultats chiffrés, c’est-à-dire en performances, de façon à les évaluer et les comparer. Les nombres produits ont ceci d’extrêmement original qu’ils sont censés être stables, durables, indiscutables ou, pour le dire en un mot, vrais, et pourtant leur ambition est moins de décrire la réalité que de la transformer. Ils transforment aussi en retour les sujets mêmes qui les produisent. Ils donnent à leurs activités et à leurs vies une forme numérique. Ils montrent à chacun les résultats chiffrés des autres pour les inciter tous à « améliorer » leurs performances. La quantification est organisée comme un véritable rituel de passage, au cours duquel certains sont déchus, et d’autre élus, certains grandis, d’autres diminués. Les producteurs de ces chiffres ne sortent donc pas indemnes de l’opération. Elle affecte leur grandeur relative. De surcroît, et non sans paradoxe, ces nombres transforment aussi l’objet qu’ils sont en train de décrire. Le réel perd en stabilité pour devenir un mobile pragmatique, une finalité opératoire. Car ces nombres n’ont de sens qu’articulés à une action. On quantifie les produits ? C’est pour en produire plus et de meilleure qualité. On quantifie l’activité ? C’est pour agir davantage et plus efficacement. Le benchmarking instaure une réalité quantifiée, mais, ce faisant, il ne la consacre pas, il la rend toujours décevante, toujours insatisfaisante, toujours perfectible. Ce procédé de dépréciation de la réalité par comparaison avec elle-même est essentiel pour exhorter les agents à la transformer. Telle est la force agissante du benchmarking, qui fait sa très grande spécificité : il ne se contente pas de traduire la réalité en termes statistiques pour agir, il stimule cette action et la canalise vers un « meilleur » dont la définition est soustraite à l’autonomie des agents. Il participe lui-même à la production du changement auquel les agents sont censés s’adapter.

LA « NOUVELLE QUANTIFICATION PUBLIQUE »

Comme il se présente sous des atours statistiques, le fonctionnement du benchmarking paraît complexe. Pourtant, une fois le dispositif mis en place, une fois les indicateurs définis, la tâche se réduit concrètement à « compter des bâtons », comme disent les policiers, c’est-à-dire à faire la somme d’un petit nombre d’actions réalisées. Tout le monde sait additionner 1 et 1. On comprend que les statisticiens publics, travaillant à l’Insee ou dans les services des ministères, conçoivent volontiers du mépris à l’égard de cette technique, qu’ils jugent indigne de leurs compétences. Or c’est précisément cette simplicité qui lui confère sa plasticité, sa capacité à être confiée à un grand nombre d’acteurs a priori peu versés dans la quantification.

Afin de distinguer l’appareil statistique dont la formation est coextensive à celle de l’État, du réseau de chiffres tissé par le benchmarking, nous pourrions parler d’une « nouvelle quantification publique » (NQP) comme d’autres parlent d’une « nouvelle gestion publique ». Dans les deux cas, ces expressions ont l’avantage de pointer une constellation d’éléments à géométrie variable dont on peut faire apparaître les régularités et la cohérence d’ensemble.

Nous avons énuméré plus haut les quatre étapes d’une démarche type de benchmarking. En pratique, il va sans dire que les agents publics ne suivent pas une procédure aussi nettement réglée. Leurs activités sont néanmoins prises dans une même trame, dont l’indicateur est le constituant élémentaire, l’instrument par excellence de la NQP. Si la continuité de cette trame n’est pas toujours flagrante, c’est parce qu’elle sous-tend des dispositifs apparentés, mais protéiformes, aussi divers que la variété de leurs lieux d’implantation.

Tableaux de bord

Une première façon de présenter des indicateurs est de les réunir dans un tableau synoptique, permettant au pilote d’embrasser d’un coup d’œil la situation et l’état général de son engin en vue d’en (ré) orienter la progression. Les tableaux de bord affichant toutes sortes de données, de paramètres, de ratios sont des documents classiques en économie et en gestion. Ces scoreboards servent de support aux décisions des responsables, à l’évaluation des stratégies d’entreprise ou des programmes d’action publique, à l’information et à la motivation des équipes. Leur pertinence dépend de leur mode de construction, et tout particulièrement de la sélection des indicateurs. Car il est bien évident que de tels tableaux, sauf à perdre toute utilité, ne sauraient être exhaustifs. On ne peut pas prendre en compte tous les chiffres disponibles ; il faut seulement en retenir un petit échantillon afin de braquer l’attention sur ceux qui comptent — c’est-à-dire, dans la perspective du benchmarking, ceux qui quantifient les résultats dont on veut suivre l’évolution et les écarts avec les objectifs fixés.

Les indicateurs du tableau de bord sont souvent regroupés d’un côté en variables de contexte, et de l’autre en variables d’activité. Ces dernières, qui peuvent par exemple correspondre au nombre d’heures de cours dispensées, d’urgences médicales traitées, de gardes à vue ou de faits élucidés, sont souvent encadrées en cartouche sur le tableau, et peuvent, selon les besoins, indiquer ou non des variations temporelles. Parmi les variables de contexte, on peut trouver des données très générales, comme le nombre d’habitants ou le taux de chômage dans la zone géographique concernée, mais aussi des indicateurs plus spécifiques : le nombre d’étudiants dans une université ou de patients dans un hôpital.

A priori, cette distinction entre le contexte et l’activité semble évidente, simple à établir et neutre quant aux conclusions. En pratique, il n’en est rien. Prenons le cas de la police (voir figure 1, p. 31). On pourrait considérer que les indicateurs de contexte qu’elle privilégie dans ses tableaux de bord sont ceux issus de la nomenclature propre aux statistiques annuelles de l’« état 4001 ». Il s’agit d’une liste de cent sept index inventoriant les infractions auxquelles la police peut être confrontée (vol à main armée, proxénétisme, usage de stupéfiants, etc.). Ces indicateurs servent donc à évaluer la nature et le niveau de « délinquance ». Ils sont rapprochés d’autres variables relevant, elles, de l’activité, comme le taux d’élucidation, de garde à vue, de déferrement. Or toute la difficulté provient du fait que les nombres correspondant au « contexte » ne peuvent être renseignés par nul autre que par les agents, et d’aucune autre manière que par leur activité. Mettons que le ministère de l’Intérieur décide de lancer des opérations contre le « racolage passif » : les policiers arrêteront et entendront un plus grand nombre de présumées racoleuses, puisqu’on le leur aura demandé. En conséquence, cette variable, le taux de racolage, censée décrire le contexte, augmentera — non pas parce qu’il y aurait davantage de personnes s’y adonnant, mais parce que la police en a fait une cible prioritaire. L’évolution des données de contexte dépend directement des données d’activité, elles-mêmes commandées par les objectifs chiffrés. On se trouve alors dans un cercle : le contexte et l’activité se mordent la queue, suscitant un trouble profond sur le statut de réalité des variables.

La confection d’un tableau de bord est donc plus délicate qu’il n’y paraît au premier abord. L’opération suppose non seulement de sélectionner les indicateurs les plus significatifs au regard des objectifs poursuivis, mais encore de trouver la bonne distance entre variables dites de « contexte » et celles qui sont désignées comme étant d’« activité ». Dans le cas qui précède, le paradoxe est que le contexte devient l’activité et vice versa. Mais, pour qui est familier du benchmarking, il n’y a là rien d’inhabituel. Les tableaux de bord sont construits dans une visée managériale. Ils ne visent pas tant à évaluer des actions et des acteurs, a posteriori, dans une logique descriptive découplant activité et contexte, qu’à les « piloter », dans une logique normative et prescriptive, indexant le contexte sur l’activité. Aussi le contexte n’est-il pas seulement convoqué pour expliquer une certaine évolution de l’activité ; il en devient la cible. Encore une fois, le benchmarking produit le changement qu’il prétend accompagner.

Les tableaux de bord sont avant tout une mise en rapport, au double sens du terme : ils rapportent des informations comptables ou statistiques méthodiquement consignées et, ce faisant, autorisent leur mise en relation sous forme de corrélations, voire de causalités. Dans le champ de l’action publique, la confrontation des indicateurs d’activité et des indicateurs de contexte tend à transformer ces derniers en indicateurs de résultat. L’« environnement », les conditions de travail et de vie des citoyens dépendent dorénavant des interventions de l’État et des agents.

Comme l’a montré Michel Foucault, ces procédés participent d’une « technologie environnementale de gouvernement note » carac- téristique du néolibéralisme. À la différence de l’« État minimum » que l’on attribue au libéralisme classique, l’État dit néolibéral ne s’abstient pas d’agir sur la société. Bien au contraire, il se doit de tout mettre en œuvre pour créer un « environnement » ou des « conditions-cadres » propices aux activités économiques et financières. C’est ici que surgit une instance de jugement extérieure à l’administration, le public, à laquelle un autre artefact de la NQP est spécifiquement destiné.

Figure 1. Exemple d’un tableau de bord utilisé par la préfecture de police

Source : document de terrain (préfecture de police de Paris).

Palmarès

Un palmarès est une liste ordonnée de noms qui donne à voir, tout en haut, ceux « qui méritent la palme » et, tout en bas, ceux qui méritent le blâme. Pour qu’une telle distribution d’honneurs produise ses effets, elle ne saurait rester confidentielle. Le palmarès est un classement rendu public, affiché et médiatisé note. Si certains doivent se contenter de la faible audience d’une presse spécialisée ou minoritaire (par exemple, le Top 10 des entreprises les plus polluantes, publié par Bastamag), d’autres comme les palmarès des hôpitaux ou des lycées font chaque année la une d’hebdomadaires nationaux (L’Express, Le Point, Le Nouvel Observateur, etc.). Les médias dominants sont très friands des classements de services publics. Le Figaro a ainsi produit un « Palmarès des commissariats » se proposant de mesurer l’efficacité de la sécurité publique par circonscription de police — en réalité, une liste de villes classées en fonction du nombre de faits élucidés par policier. Cette statistique rudimentaire suffisait au quotidien pour titrer « Le palmarès de l’efficacité de la police ville par ville » et pour en tirer des conclusions décontextualisées sur l’« efficacité des agents » qui « peut varier du simple au triple note ».

Aussi copieuse que soit la batterie d’indicateurs mobilisée pour construire un palmarès, elle demeure au second plan, voire en coulisse. Les projecteurs sont braqués sur le classement final avec son podium et sa lanterne rouge. À la rigueur, une ventilation des statistiques débouchera sur des listes catégorielles offrant des classements alternatifs. Un hôpital dont le score total est moyen peut ainsi briller dans un palmarès secondaire ne retenant que la qualité d’accueil. Mais, en règle générale, un palmarès ne vise pas à restituer la complexité de la réalité. Si on y a recours, c’est justement pour la simplifier au maximum, en ne laissant subsister qu’une seule dimension ordinale.

Le palmarès apparaît donc, à dessein, comme moins subtil que le tableau de bord. En fait, sa simplicité, voire son simplisme, est gage d’efficacité, et la surprise peut faire partie de l’effet recherché : celle du lecteur qui découvre une réalité hiérarchisée là où régnait jusqu’alors l’incommensurabilité, et celle de l’évalué encensé ou cloué au pilori sur la place publique, souvent à son grand étonnement. Souvenez-vous d’un palmarès des ministres publié en janvier 2008 dans Le Point, qui avait réuni pour ce faire un « jury d’experts » et déterminé des « critères objectifs, quantifiables note ». Le Point imitait en cela le Financial Times qui publie depuis 2006 un classement (ranking) des ministres européens des Finances établi par des économistes jaugeant leur performance en fonction de la croissance ou de l’endettement de leur pays.

Une fois l’effet de surprise dissipé, le palmarès crée une situation compétitive. En habilitant les citoyens-usagers à comparer les performances de leurs ministres, de leurs hôpitaux ou de leurs villes note, tout se passe comme si ces entités étaient en compétition (sportive) pour arracher le meilleur score et en concurrence (économique) pour attirer des électeurs, des patients ou des habitants. Aussi fictive que soit cette compétition/concurrence (les policiers de Strasbourg se tirent-ils la bourre avec leurs collègues de Bordeaux ? Nantes risque-t-elle de conduire Grenoble à la faillite ? Le CHRU de Lille prend-il des parts de marché à l’hôpital de la Timone à Marseille ?), elle agit sur la réalité en infléchissant les décisions des responsables évalués, pris au piège de ces classements, et non pas tant des supposés « clients », auxquels les palmarès seraient destinés pour informer leurs choix de consommation. Les sociologues Wendy Espeland et Michael Sauder ont montré que, aux États-Unis, le classement des écoles de droit publié par le U.S. News & World Report, aussi critiqué soit-il par l’American Bar Association, a acquis une grande influence sur les doyens qu’il soumet à la pression conjuguée des financeurs, des étudiants et de leurs familles. Il les a conduits à élaborer des stratégies pour optimiser les résultats que mesurent les indicateurs du palmarès, au détriment d’autres aspects, en s’inspirant des pratiques des mieux classés, avec pour conséquence l’uniformisation des formations proposées note.

Dans ce domaine, on assiste depuis les années 2000 à une prolifération accélérée de classements émanant de magazines (Times Higher Education, Die Zeit, Le Point), d’institutions comme la Commission européenne, ou d’universités confectionnant leur propre palmarès (citons le Classement international professionnel des établissements d’enseignement supérieur de l’École des mines, conçu pour redorer le blason des grandes écoles françaises, ou l’« échelle de Vincennes note » édifiée par des chercheurs de l’université Paris-VIII pour classer, non sans humour, leur université en tête). On pourrait penser que cette surabondance d’informations éparpillées et contradictoires s’évanouirait dans un bruit de fond. Au contraire, « un autre monde a ainsi été créé, dans un processus apparemment irréversible, par rapport auquel chacun est tenu de se situer. Les critiques portent éventuellement sur le choix et la mise en œuvre des critères, mais l’existence même de ces classements semble hors d’atteinte aux acteurs ainsi classés. Cette commensuration généralisée est un des nouveaux chapitres de l’histoire de l’argument statistique note ».

Baromètres

Les indicateurs peuvent enfin servir non pas à classer des unités différentes sur un territoire, mais à suivre des évolutions temporelles pour une unique unité. Ils donnent alors, très classiquement, la popularité de personnalités en vue ou, plus techniquement, l’évolution d’une question sociale. Cet usage des indicateurs pour rendre sensibles des variations et permettre d’évaluer une situation donne lieu à la construction de baromètres. Il en existe de toutes sortes : baromètre de la biodiversité, du développement durable, de la santé, des discriminations au travail, etc. Chaque fois, il s’agit de collecter des données pour mesurer un phénomène souvent dans le but de le constituer en objet de politique publique.

Les indicateurs de ces baromètres peuvent être subjectifs (le ressenti, les opinions, les représentations de la population) ou plus objectifs (mesure du nombre déclaré de telle maladie). Ils peuvent aussi provenir de registres, comme c’est le cas pour le baromètre santé. Comme le palmarès, le baromètre agrège une série d’indicateurs complexes en une seule dimension, ou un petit nombre de dimensions, aisément compréhensible(s) par un public non spécialiste. Mais les indicateurs sont ici destinés à établir des comparaisons dans le temps : ils doivent rester aussi stables que possible car c’est leur permanence qui permet de faire saillir les évolutions de leur objet.

On peut prendre l’exemple d’un baromètre nominé en 2010 pour le trophée du management de l’innovation. La remise de ce prix, organisé par le cabinet de conseil BearingPoint, le magazine économique L’Expansion, l’École des Ponts ParisTech et la société d’études Harris Interactive, procède du travail de veille effectué par l’Observatoire du management de l’innovation. Réunissant entreprises, chercheurs, consultants et journalistes, cet observatoire a pour « vocation d’analyser les meilleures pratiques et les tendances dans ce domaine note ». En 2010, pour la première fois, une administration d’État a été retenue parmi les nominés. Ce n’était autre que la direction générale de la modernisation de l’État (DGME) pour son « baromètre de la qualité des services publics note ». Celle-ci fut cependant battue à plate couture par les biscuits Poult, Groupama, Schneider Electric et GDF Suez.

Le baromètre joue une double fonction pour orienter l’action de l’État : il est « à la fois un levier de modernisation de l’administration pour améliorer la relation avec l’usager et un outil permettant de rendre compte, en toute transparence, aux Français des progrès réalisés et de l’effort des agents pour renforcer la qualité du service rendu note ». Aussi ne comporte-t-il qu’un nombre limité d’indicateurs, les plus « parlants » pour l’usager, dont ils traduisent les différentes démarches auprès de l’administration, dans chacune de leurs étapes, de l’accueil jusqu’aux réclamations.

Pour chacun des indicateurs du baromètre, une cible a été fixée, soit par les services du ministère concerné, soit dans le cadre de contrats de performance ou de conventions d’objectifs et de gestion (notamment pour les indicateurs relevant du ministère du Travail, de l’Emploi et de la Santé). Prenons nos trois exemples de prédilection : la police, l’hôpital et l’université (voir figure 2, p. 37). En février 2010, le ministre de l’Intérieur a annoncé sa volonté de « moderniser le pilotage de la performance des forces de sécurité ». Parmi les indicateurs de suivi, l’un porte sur le délai d’intervention des forces de l’ordre. Il concerne les interventions réalisées, à la suite d’un appel au 17 adressé à la police et à la gendarmerie entre 19 heures et 7 heures du matin. Le baromètre affiche ainsi comme indicateur de la qualité le délai moyen d’intervention. 13 minutes, c’est la cible qui avait été fixée, d’où l’idée d’introduire un nouvel indicateur dans l’édition suivante du baromètre, défini comme le « pourcentage d’interventions effectuées, de jour comme de nuit, par les forces de sécurité intérieure, dans un délai de 12 minutes, à la suite d’un appel au 17 note ». En matière de soins, c’est l’accueil aux urgences qui est évalué. L’indicateur retenu est la part des patients pris en charge et traités par les services des urgences en moins de 4 heures. Les 77 % semblent satisfaire la DGME à l’aune de la cible, fixée à 80 %, qui limite la marge d’amélioration à 3 % note. Dernier exemple : la qualité de l’orientation à l’université. Elle est mesurée par le pourcentage de premiers vœux satisfaits lors de la demande d’inscription. Au regard de la flèche ascendante, sur fond vert, les progrès dans ce domaine apparaissent remarquables. Ils sont toutefois relativisés par la cible fixée à 80 %, laquelle implique de poursuivre les efforts avec autant d’intensité note.

Figure 2. Le baromètre de la qualité des services publics (3e édition, juillet 2011)

Source : Portail de la modernisation de l’État, <www.modernisation.gouv.fr>.

Les techniques de la NQP partagent toutes un air de famille sans pour autant se confondre. Que ce soient les tableaux de bord, les palmarès ou les baromètres, ces procédés produisent et utilisent des indicateurs chiffrés, et font intervenir, à des degrés divers, des méthodes d’évaluation comparative des performances. Leur similarité tient aussi, au-delà de cette dimension technique, à l’esprit managérial commun qui les anime.

L’ESPRIT MANAGÉRIAL

Dans les années 1980, les États industrialisés ont pris un « tournant néolibéral ». Pour autant, contrairement à certains préjugés trompeurs, l’adhésion des gouvernants au néolibéralisme ne s’est pas traduite par une paralysie des pouvoirs publics. L’interventionnisme étatique n’est pas mort : il a pris d’autres formes et s’est fixé d’autres fins que celles de l’« État-providence ». Il prend pour objet non plus tant la production et la répartition des richesses que l’« environnement » des activités entrepreneuriales. Dans le but de renforcer l’« attractivité » de son territoire, la « compétitivité » de ses entreprises, l’État se propose d’établir un cadre — légal, social, administratif, culturel, fiscal — qui « libère les forces vives de l’économie ». Il s’active pour réunir des conditions propices à l’innovation, à l’entrepreneuriat, à la consommation. S’il dispose toujours pour ce faire des ressources juridiques et coercitives traditionnellement attachées à sa souveraineté, il recourt de plus en plus volontiers à un autre type de ressources organisationnelles, qu’il puise dans la boîte à outils du management.

Luc Boltanski et Ève Chiapello ont mis en relief les singularités de ce « néomanagement » qui a essaimé ses savoirs, ses métiers et ses outils hors de l’usine :

On peut en effet envisager l’histoire du management comme celle d’une sophistication permanente des moyens de maîtriser ce qui se passe dans l’entreprise et son environnement. Si, chez Taylor et Fayol, considérés comme les fondateurs du management en tant que discipline, les hommes sont le point principal d’application des contrôles (le couplage homme-machine chez Taylor, l’organisation générale chez Fayol), la volonté de maîtrise s’étendra plus tard, avec certaines sous-disciplines du management, au-delà du seul contrôle des machines et du personnel. […] Chaque catégorie a fait l’objet de dispositifs spécifiques : le taylorisme a été inventé pour contrôler les ouvriers et la direction par objectifs pour encadrer les cadres ; de nos jours, les dispositifs du corporate governance sont destinés au contrôle des plus hauts dirigeants des grandes entreprises note.

En prolongeant cette histoire, il serait possible d’y inscrire le développement d’une nouvelle gestion publique, étiquetée New Public Management (NPM). Par des dispositifs d’autocontrôle, il s’agit d’insuffler aux fonctionnaires un esprit managérial dont le principe de rationalité métamorphose la raison d’État. Ce mode de penser et d’agir est tourné vers une efficacité organisationnelle étrangère aux valeurs classiques de l’État souverain ou de l’État social. L’efficience, la qualité, la performance tendent ainsi à se substituer à la grandeur nationale ou à la solidarité intergénérationnelle. En s’immisçant dans les services publics, l’esprit managérial ne se contente pas d’y déposer un vernis de modernité note. Il ne se réduit pas à un simple jargon ni à des instruments éphémères dont on s’entiche pour les oublier l’année suivante. En ce qu’il leur apporte des motivations pour s’impliquer dans la « réforme de l’État », des raisons pour justifier leur engagement dans une culture du résultat, des principes d’action opposés à ceux, classiques, de la légalité et de la rationalité bureaucratiques, cet esprit managérial produit des changements radicaux dans la conduite même des agents.

Les discours de management ne se limitent pas, selon l’adage « gérer, c’est mesurer », à préconiser des techniques quantitatives : plus fondamentalement, ils définissent les quantités pertinentes, expliquent comment les produire et surtout comment et pourquoi les utiliser. Ce faisant, ils participent pleinement de la NQP, à laquelle ils impriment un état d’esprit éloigné de l’éthique professionnelle attachée aux services publics.

Pour en saisir la teneur, ouvrons quelques best-sellers. Parmi la profusion des méthodes de management, nous en avons choisi trois que nous aborderons ici dans leurs grandes lignes, sous leur forme épurée, c’est-à-dire telles qu’elles ont été modélisées dans quelques ouvrages qui se sont imposés comme des références en la matière.

Le benchmarking en dix étapes

Penchons-nous d’abord sur le modèle de management que Robert Camp a formalisé dans son fameux opus, Benchmarking. The Search for Industry Best Practices that Lead to Superior Performance. Son propos est de comparer divers processus d’une entreprise (stockage, passation de commande, traitement des documents, gestion des ressources humaines, etc.) avec les processus homologues mis en œuvre dans d’autres organisations, y compris — et peut-être surtout, car telle est l’originalité de sa démarche — si elles n’appartiennent pas au même secteur d’activité. Ces comparaisons sans cesse renouvelées doivent permettre d’identifier la « meilleure des meilleures » façons de faire, dont on s’inspirera en vue d’une « amélioration continue » de ses propres procédés. Xerox a ainsi confronté l’organisation de son service de livraison de photocopieurs avec celle de plusieurs autres entreprises, n’ayant pour la plupart aucun rapport avec la copie, mais affichant des performances plus élevées. En l’occurrence, c’est un fabricant de gros engins de chantier (Caterpillar) et une société spécialisée dans l’approvisionnement des hôpitaux (American Hospital Supply Corp.) qui servirent de benchmark, c’est-à-dire de modèle.

Camp a rationalisé les étapes de cet exercice de comparaison sous la forme d’une procédure méthodique, à suivre rigoureusement et à réitérer en permanence (voir figure 3, p. 42). Le benchmarking n’est pas un exercice ponctuel, à réaliser une fois pour toutes, mais une discipline à entretenir, à intégrer de façon constante dans toutes les pratiques organisationnelles. La démarche compte dix étapes. Chacune est détaillée dans les différents chapitres de ce livre qui totalise près de trois cents pages, illustrées de graphiques, de fiches et d’études de cas.

Les deux premières étapes consistent à identifier, d’une part, le process ou la fonction que l’on veut faire progresser et, d’autre part, des organisations comparables susceptibles d’avoir mis au point de « meilleures pratiques ». Il s’agit de repérer, chez soi, les contre-performances à résorber et, chez les autres, les bons scores à imiter. Pour ce faire, Camp recommande de s’appuyer sur les données existantes, mais insiste sur l’importance de ne pas se limiter aux ratios financiers. Il s’agit, en interne, de ventiler les coûts unitaires pour dégager des mesures plus opérationnelles ; et, en externe, de consulter toutes les sources disponibles (rapports annuels, banques de données, associations professionnelles, périodiques, etc.) pour trouver des informations relatives à l’objet de la comparaison souhaitée. À ce stade, le benchmarking n’est pas à proprement parler une activité de quantification. Il consomme des quantités, mais n’en produit pas de nouvelles.

Figure 3. Benchmarking process steps (Étapes du processus du benchmarking)

Source : Robert Camp, Benchmarking. The Search for Industry Best Practices that Lead to Superior Performance, Milwaukee, ASQC Quality Press, 1989, p. 17.

La troisième étape amplifie la collecte de données sur un mode quasi scientifique. Une fois que des « partenaires de benchmarking » ont été repérés, il faut mener une véritable enquête de terrain pour récolter des informations actualisées, précises et fiables sur leurs pratiques, du moins celles faisant l’objet de la comparaison. Après avoir recensé toutes les données disponibles dans le domaine public, toutes celles accessibles par des études internes ou par le recours à des intermédiaires (experts, consultants, associations), une stratégie ad hoc de recherche doit être engagée : prise de contact direct, passation de questionnaires, entretiens, panels de discussion, visites sur site… La méthodologie suivie pour distinguer et documenter la « meilleure pratique » parmi toutes celles étudiées doit être irréprochable, sans quoi on s’expose au risque d’un rejet du benchmark. Camp insiste sur le fait que la « meilleure pratique » retenue, l’organisation prise comme modèle, en un mot le benchmark, doit être indiscutable. Or, pour couper court à tout débat, il faut que les responsables du benchmarking puissent prouver que rien n’est passé à travers les mailles de leur filet. Ils doivent faire valoir une méthodologie sans faille.

Camp n’esquive pas la difficulté, à savoir les réticences que des entreprises spontanément peu enclines à échanger des informations, et encore plus rétives à livrer des données sur leur « meilleure pratique », peuvent opposer aux « partenariats de benchmarking ». Afin de surmonter ces résistances, Camp évoque les codes de bonne conduite et la réciprocité d’un benchmarking censé fonctionner à double sens. Un autre argument est que le benchmarking s’intéresse à des données qualitatives et opérationnelles, donc a priori moins sensibles que des informations quantitatives, financières, souvent confidentielles. En effet, peu importe d’obtenir des précisions sur le chiffre d’affaires ou le rendement des capitaux propres : le benchmarking vise par exemple à découvrir comment les autres parviennent à livrer leurs marchandises, plutôt qu’à savoir combien ils en écoulent.

Ce n’est qu’à la quatrième étape que la quantification entre réellement en jeu. Une fois que l’on sait comment un processus est réalisé ailleurs, il faut l’imaginer transposé à sa propre organisation et quantifier hypothétiquement les coûts et les bénéfices de cette importation. C’est ce que Camp appelle la « métrique de la performance » (performance metric) note. Admettons que nous voulions étudier l’organisation des services de facturation chez quatre « partenaires de benchmarking ». Nous savons que notre procédure coûte actuellement 31 dollars par facture, et nous pouvons estimer que, en adoptant les pratiques observées chez nos partenaires, le coût par facture passerait respectivement à 12, 9, 28 et 35 dollars. On peut en conclure que le benchmark à atteindre est 9 dollars l’unité. La différence entre 31 et 9, soit ici 22, révèle un écart de performance qui est considéré comme un différentiel de compétitivité. Camp parle d’un « fossé de compétitivité » (competitive gap) note qu’il importe de combler en s’inspirant de l’organisation la plus performante. La traduction de ce « fossé » en termes quantitatifs peut rester tout à fait approximative. Il serait illusoire d’attendre du benchmarking une fiabilité mathématique. Des fourchettes, des ordres de grandeur suffisent, du moment qu’ils surprennent les responsables et les conduisent à s’interroger : « Pourquoi une telle différence ? » Les étapes que l’on vient d’exposer sont supposées apporter des solutions en décrivant les différences en termes qualitatifs : « Telle entreprise plus performante emploie telle méthode. Voici quelles sont les pratiques de cette organisation, qui est meilleure que nous en la matière. »

Camp s’oppose vigoureusement à ceux qui voudraient inverser les étapes, c’est-à-dire fixer d’abord la cible souhaitée et trouver ensuite la pratique permettant de l’atteindre. D’après lui, la quantification doit toujours être seconde. Elle n’en demeure pas moins primordiale à ses yeux. Il y voit des avantages d’autant plus précieux qu’elle est couplée à des descriptions qualitatives. Sur le plan opérationnel, fixer une cible numérique permet de prendre immédiatement conscience de l’ampleur de l’effort à engager et des résultats que l’on peut en attendre, ce qui facilite l’établissement de plans d’action ainsi que leur budgétisation. Au plan « psychologique », le fait que ces cibles soient adossées à des pratiques documentées les rend plus crédibles et acceptables, surtout si le fossé paraît insurmontable ou si les gains annoncés semblent surestimés, irréalisables. Si d’autres le font, vous pouvez le faire. Au-delà des propriétés habituelles du nombre, qui livre une information synthétique et permet les comparaisons, le benchmarking administre une preuve tangible de faisabilité. Une telle démonstration permet de persuader son équipe que la course mérite d’être courue, puisqu’elle peut être gagnée. Elle suscite une émulation qui motive les troupes, là où la seule imposition d’un objectif chiffré pourrait susciter du scepticisme, de la colère, voire un rejet pur et simple. Elle contourne ainsi les rapports de forces en cherchant plutôt à emporter la conviction.

La cinquième étape projette dans l’avenir le différentiel de performance selon que seront ou non implantées les « meilleures pratiques ». Le benchmarking ne se matérialise plus alors dans des tableaux comparatifs, mais dans des graphiques et des courbes rendant visible l’écart qui se creuse ou se résorbe. Il crée ainsi une urgence à agir tout en fournissant les données pour construire une stratégie. Les étapes suivantes se concentrent sur la mise en œuvre. Celle-ci implique une large communication des résultats du benchmarking, leur « opérationnalisation » tout au long de la chaîne hiérarchique, ainsi qu’un suivi permanent des progrès accomplis. Il s’agit d’ajuster sans arrêt le benchmark, de le mettre à jour en fonction des innovations ayant supplanté les « meilleures pratiques » d’hier. Plus on s’approche de la cible, plus celle-ci échappe à ses poursuivants. La course est sans ligne d’arrivée, le benchmarking est un engrenage perpétuel.

Reengineering

Autre sésame managérial à base d’évaluations quantitatives : le Reengineering de Michael Hammer et James Champy. L’ouvrage, dès sa publication en 1993 note, connut un succès stupéfiant. La couverture de l’édition française claironne : « 30 000 exemplaires vendus en France ; 2 millions dans le monde. » Aux États-Unis, ce best-seller a été classé parmi « les trois business books les plus importants de ces vingt dernières années » par le magazine Forbes, tandis que Time a consacré Hammer comme l’un des « vingt-cinq individus les plus influents d’Amérique ». Nous avons pu constater les effets directs de cette méthode sur le fonctionnement de la police et de l’hôpital en France (ce que nous exposerons plus loin, au chapitre 3).

Nos deux auteurs présentent le reengineering comme une « révolution du monde des affaires », susceptible de « réinventer l’entreprise pour une amélioration spectaculaire de ses performances ». L’ambition est beaucoup plus éclatante que celle affichée par Camp quelques années plus tôt. Hammer et Champy lui reprochent d’ailleurs de ne chercher qu’à rejoindre les « meilleures pratiques » mondiales alors que, pour leur part, ils prétendent les dépasser. Le reegineering « crée le nouveau benchmark de classe mondiale note », étant donné qu’il ne consiste en rien moins qu’à reconfigurer de fond en comble le processus productif d’une organisation ainsi que son système d’information. On reprend tout à zéro : on regroupe plusieurs postes en un seul, on réduit le nombre de niveaux hiérarchiques, on décloisonne les opérations, on crée un point de contact unique pour le client. Bref, on fait le grand ménage ! Autant dire que le reengineering est rapidement devenu synonyme de licenciements massifs. Le nom de son concepteur, Hammer, a souvent été utilisé pour pointer ironiquement la dimension destructrice de sa méthode : en anglais, hammer signifie « marteau », et le verbe correspondant, to hammer, frapper de plein fouet, ou déclarer en faillite. Quant à quelqu’un qui est hammered, il est complètement bourré.

La quatrième de couverture annonce le programme : « Ce que la division du travail a fait, le reengineering doit le défaire. […] Il ne suffit pas de raccommoder l’existant. Il faut au contraire revoir fondamentalement la nature du travail. » Fini la spécialisation et la répétitivité des tâches, fini la structure verticale fonctionnelle, en silos. Place à l’entreprise transversale organisée autour de « processus opérationnels » et d’« opérateurs responsabilisés » ! Pour réaliser des « gains de performance » en diminuant les coûts et les délais tout en augmentant la qualité, il faut repenser l’organisation dans sa globalité, et non plus se contenter d’améliorer localement la productivité de tel ou tel service. On responsabilise les individus d’un bout à l’autre des processus. Étant les points de contact avec les clients, ils doivent comprendre leurs demandes et naviguer dans l’organisation pour livrer le produit qui les satisfera — en d’autres termes, ils sont responsables de la qualité. Les salariés doivent donc, bien entendu, faire preuve d’un très vif sens de l’initiative. Après avoir bénéficié d’un reengineering, les entreprises « ne veulent pas que leurs salariés suivent des règles ; elles veulent des gens qui forgent leurs propres règles note ».

Les auteurs ont prévu que le reengineering, comme tout changement, se heurtera à des résistances. Mais le procédé sécrète lui-même l’antidote : la responsabilisation des salariés, leur empowerment (terme intraduisible en français) les place en situation d’autocontrôle, ce qui est censé désamorcer toute velléité de contestation. Au lieu d’engager des dépenses pour refréner les protestations, on motive, on stimule, on laisse faire les salariés à qui il incombe de prouver leur « valeur ajoutée » pour l’entreprise :

Étant donné que, dans ce processus, ce sont les salariés eux-mêmes qui doivent s’assurer que les exigences des clients sont satisfaites en temps et en heure, il est moins nécessaire de les surveiller. L’entreprise incite en revanche ses salariés responsabilisés et autonomes à trouver des moyens innovants et créatifs pour réduire toujours davantage les délais et les coûts tout en offrant un produit ou un service impeccable note.

Les techniques de quantification entrent en scène au moment de rémunérer les agents. Étant donné l’importance accordée à l’initiative, le salaire fixe doit être rendu aussi ténu que possible afin de donner toute leur importance aux primes et aux parts variables de la rémunération. Celle-ci ne peut être mesurée qu’à l’aune des performances individuelles des salariés, qui doivent en conséquence être quantifiées :

Les entreprises peuvent mesurer les performances [des employés] et les payer en proportion de la valeur qu’ils créent. […] Cette valeur est mesurable car dans les entreprises dont les process ont subi un reengineering, les équipes créent des produits ou des services qui ont une valeur intrinsèque note.

La quantification repose ici sur le présupposé que les agents produisent des unités ayant une valeur intrinsèque. Dans une entreprise, chaque employé ou chaque équipe est associé à un produit ou à un service livrable. La valeur des agents, c’est-à-dire leur rémunération, devrait soit être égale à celle de ce « livrable », soit dépendre de la réalisation effective d’objectifs fixés à l’avance. Toute la difficulté réside alors dans la construction de métriques applicables aux processus de la firme. Les anciennes quantités, qui reposaient la plupart du temps sur les différentes fonctions de l’entreprise (vente, R&D, comptabilité, logistique, ressources humaines, etc.), ne sont plus utilisables puisqu’elles ont été refondues dans les divers processus. Pourtant, il faut bien parvenir à évaluer, en interne, le prix des livrables. Dans le cas de la fonction publique, cette difficulté est redoublée, car la valeur de ces « livrables » peut être particulièrement difficile à définir. Quelle est la valeur de la sécurité ? De l’enseignement ? De la santé ?

New Public Management (NPM)

Si, jusqu’à la fin des années 1970, l’administration publique avait pu compter sur une augmentation des prélèvements obligatoires pour améliorer ses services, la « révolte fiscale » néolibérale a désormais changé la donne en tarissant drastiquement les ressources. C’est dans ce contexte que des gouvernements désireux à la fois de réduire les dépenses publiques et de sauver les apparences ont adopté le fameux slogan : non pas « moins d’État », mais « mieux d’État » !

Dans les années 1980-1990, un vaste mouvement de réforme de l’administration publique, confusément désigné comme le New Public Management (NPM) note, s’est déployé en Amérique du Nord, dans toute l’Europe, mais aussi en Australie et en Nouvelle-Zélande. La plupart des observateurs qui l’ont étudié en comparant ses manifestations dans différents pays ont conclu à un grand méli-mélo note. Si l’acronyme générique NPM ne saurait épuiser en trois initiales l’extrême variété des pratiques, il pointe néanmoins un trait commun fondamental : l’importation dans « le public/ l’État » de certaines théories et techniques managériales forgées dans et pour « le privé/l’entreprise ».

En 1992, le consultant David Osborne et l’agent public Ted Gaebler publièrent un livre-manifeste : Reinventing Government note. En « dix commandements », ils y définissaient un nouveau paradigme gouvernemental, une nouvelle façon de conduire les organisations, publiques comme privées. L’administration Clinton-Gore en fit immédiatement sa bible. Vingt ans plus tard, force est de constater que leur propos résonne familièrement à nos oreilles :

Les « dix commandements » du NPM

1. Piloter plutôt que ramer : « Gouvernement catalyseur ».

2. Donner la capacité plutôt que servir : « Gouvernement communautaire ».

3. Introduire de la concurrence dans les services publics : « Gouvernement compétitif ».

4. Transformer les organisations régies par des règles : « Gouvernement par mission ».

5. Financer les résultats, et non les moyens : « Gouvernement à la performance ».

6. Satisfaire les besoins de la clientèle, et non pas de la bureaucratie : « Gouvernement orienté vers les clients ».

7. Gagner de l’argent plutôt que le dépenser : « Gouvernement entrepreneurial ».

8. Prévenir plutôt que guérir : « Gouvernement de précaution ».

9. Faire participer et travailler en équipe plutôt que hiérarchiser : « Gouvernement décentralisé ».

10. Se servir du marché comme levier de changement : « Gouvernement orienté vers le marché » note.

Le premier précepte de leur doctrine stipulait que les gouvernants doivent se borner à « tenir le gouvernail ». C’est ce qu’Osborne et Gaebler appellent le « gouvernement catalytique » ; en France, on parle d’« État catalyseur ». Avec les troisième, sixième et neuvième principes, on retrouve l’esprit du benchmarking : une logique compétitive tournée vers la « satisfaction des clients », laquelle se conquiert grâce à un « travail en équipe » qui exige de chaque individu une participation sans relâche à l’« amélioration continue de la qualité ». Quant aux quatrième et cinquième préceptes, ils rejoignent les principes de Hammer et Champy : axer l’organisation sur des missions et des résultats plutôt que des règles et des moyens.

Weber expliquait que les bureaucraties tirent leur légitimité d’un modèle légal-rationnel, fondé sur le respect de règles impersonnelles censées écarter l’arbitraire. C’est avec ce modèle que les auteurs entendent rompre, fondamentalement : passer de la lutte contre l’arbitraire à la lutte pour l’efficience.

Cette culture du résultat a pour corollaire obligé la quantification. Les auteurs consacrent ainsi une dizaine de pages à exposer le « pouvoir de la mesure des performances note ». Mesurer, c’est exercer un pouvoir. On ne se contente pas de refléter la réalité, on modifie le comportement des agents. Et ceci de trois grandes manières. Par un principe de publicité d’abord : les mesures de l’activité étant publiques, les responsables s’efforceront de s’épargner l’humiliation de mauvais résultats. Par un principe de qualification des résultats ensuite : pour chaque action, il faut juger si c’est un échec ou un succès, à stigmatiser ou à récompenser en conséquence. Ainsi s’enclencherait un cercle vertueux d’incitation à la réussite. Par un principe de finalité enfin, car la mesure de la performance oblige à préciser les buts poursuivis, ce qui peut se faire via la consultation des usagers, voire au terme d’un processus de coconstruction des finalités de l’administration par l’ensemble des « parties prenantes » concernées.

Les auteurs reconnaissent qu’il est très difficile de définir des indicateurs pertinents pour une administration. Ils savent que le management par la performance a déjà été expérimenté, sans succès, dans le secteur public. Ils en connaissent les effets pervers : conflits internes, stress au travail, manipulations de chiffres… Mais la clé du succès, pensent-ils, est que les agents s’impliquent eux-mêmes, activement, dans la restructuration de leur organisation. C’est à eux qu’il reviendra de trouver les « bons » indicateurs et de se donner les « bons » objectifs. La responsabilité, l’initiative, la motivation, les résultats, la participation : autant de clichés repris ensuite à l’envi par les gouvernements successifs, notamment en France.

À ce propos, la Révision générale des politiques publiques (RGPP), lancée en 2007, fait figure de cas d’école. Les « axes de modernisation » qu’elle avance rappellent fortement le credo d’Osborne et Gaebler :

Les six « axes de modernisation » des services publics

1. Adapter les missions de l’État aux défis du xxie siècle.

2. Améliorer les services pour les citoyens et les entreprises.

3. Moderniser et simplifier l’État dans son organisation et ses processus.

4. Valoriser le travail et le parcours des agents.

5. Responsabiliser par la culture des résultats.

6. Rétablir l’équilibre des comptes publics et garantir le bon usage de chaque euro note.

Affichant l’ambition de « remettre à plat, sans tabou ni a priori, l’ensemble des missions de l’État, pour dépenser mieux tout en améliorant la qualité des services rendus », cette réforme s’est concrétisée par plusieurs cycles d’audit et des centaines de « mesures de modernisation » que les agents publics ont senties passer. Même s’ils n’ont jamais lu Osborne et Gaebler, ils ont tous entendu leur discours ressassé par leur chef d’unité ou leur ministre. La documentation diffusée pour expliquer la RGPP au public est du même acabit :

La Révision générale des politiques publiques

La démarche de RGPP consiste en un passage en revue systématique de l’ensemble des politiques publiques, qui a donné lieu au fur et à mesure des décisions à un diagnostic très précis de l’action publique, avec à la clef un ensemble de réformes des structures et des politiques publiques ayant permis à l’État d’engager un mouvement de modernisation inédit. La réforme contribue également à l’assainissement des finances publiques du fait des restructurations qu’elle propose, des gains qu’elle engendre et de l’efficacité accrue qu’elle permet.

S’inscrivant dans la continuité de la dynamique créée par la LOLF et s’appuyant à l’origine sur la vague d’audits de modernisation qui s’est étendue de 2005 à 2007, la RGPP s’articule aujourd’hui autour de trois grands axes :

— améliorer la qualité du service rendu aux usagers ;

— réduire les dépenses publiques ;

— poursuivre la modernisation de la fonction publique et valoriser les initiatives des agents.

Les nouvelles mesures annoncées au cours du Conseil de modernisation des politiques publiques du 30 juin 2010 prolongent et approfondissent le mouvement entrepris par la RGPP depuis trois ans : moderniser l’État et repenser son organisation pour mettre l’accent sur le service rendu à l’usager, de la manière la plus efficace possible. Le champ couvert par les réformes s’élargit, puisque les opérateurs de l’État sont désormais pleinement associés à l’élan de modernisation donné par les nouvelles annonces.

La deuxième phase de RGPP conduit donc l’État, mais aussi ses opérateurs, à planifier de nouvelles réorganisations de structures, des simplifications de procédures, le recentrage de certaines missions ou encore des vagues de dématérialisation ou d’automatisation de tâches administratives, qui doivent déboucher sur d’importants gains de productivité pour l’ensemble des services.

Les efforts ainsi déployés porteront notamment sur les effectifs des fonctions support de l’État, afin de maintenir une très forte exigence de qualité dans les services les plus proches de l’usager, tout en étant capables de les réaliser à moindre coût : il s’agit de « faire mieux avec moins » note.

Passage en revue, diagnostic, réformes des structures, modernisation, assainissement, restructurations, gains, efficacité, audits, amélioration de la qualité, réduction des dépenses, valorisation des initiatives, simplifications de procédures, recentrage des missions, dématérialisation des tâches, accroissement des gains de productivité, exigence de qualité à moindre coût, bref, « faire mieux avec moins » : le jargon du NPM véhicule une façon de penser et d’agir qui assimile complètement l’administration publique à une entreprise concurrentielle.

LA LOLF

Outre la NQP et le NPM, il est un troisième sigle qu’il faut décrypter : la LOLF, pour « loi organique relative aux lois de finances ». Ce dispositif, spécifique à l’administration française, a systématisé la propagation des techniques d’évaluation quantitative.

Votée en 2001, la loi est entrée en application le 1er janvier 2006. Elle transforme profondément les modalités de présentation et de contrôle des lois de finances, c’est-à-dire du budget de l’État. Sa finalité est double : renforcer le pouvoir des députés et des sénateurs en soumettant l’ensemble des crédits à un débat parlementaire, et orienter la gestion de l’État vers la performance au moyen de nouvelles procédures de quantification de l’activité publique.

Les sous-catégories du budget de l’État ont été profondément renouvelées. Alors qu’auparavant les fonds étaient attribués par ministère et par type de dépenses, ils le sont maintenant par missions, programmes et actions. Ne serait-ce qu’en cela, la LOLF concourt à « réinventer le gouvernement » : en lui imprimant une organisation transversale, structurée autour de missions. Au nombre de 32 en 2012, celles-ci correspondent aux principales politiques publiques, lesquelles peuvent être interministérielles. Elles chapeautent chacune plusieurs programmes (il y en avait 125 en 2012), eux-mêmes déclinés en centaines d’actions assorties d’objectifs (424) et d’indicateurs (889). Prenons le cas du programme « Police nationale » qui s’inscrit dans la mission « Sécurité » : voici les cinq objectifs fixés dans ce domaine, dont la réalisation est mesurée à l’aune de dix-huit indicateurs (voir figure 4, p. 55).

Cette liste nous donne l’occasion d’illustrer les difficultés posées par la quantification de l’activité des agents. L’indicateur 3.2 se propose de mesurer l’efficacité du dépistage d’alcoolémie sur les accidents corporels dus à l’alcool. La police et la gendarmerie avaient retenu comme indice le pourcentage de dépistages positifs d’alcoolémie, par rapport au nombre total de dépistages. Seul hic : les interprétations du sens de cet indicateur divergeaient. Alors que la police situait la performance dans l’augmentation de ce taux, la gendarmerie adoptait un tout autre raisonnement : « L’objectif étant de faire évoluer les comportements, la diminution de ce nombre rendra compte de l’efficacité des mesures prises en matière de prévention et de répression : en effet, plus celles-ci sont efficaces, plus les contrôles positifs diminueront note. » Ce seul exemple suffit à montrer ce qu’un indicateur contient d’implicite et de flou, aussi précis qu’il paraisse d’abord. Autant dire que la simplicité apparente de la nomenclature « lolfienne » ne doit pas dissimuler l’énorme travail permanent pour convenir du sens des indicateurs, des objectifs, des programmes et même des missions. En d’autres termes, la politique n’est pas soluble dans la LOLF.

Figure 4. Liste des missions et des programmes envisagés pour le projet de loi de finances 2013 (extrait)

Source : Rapport sur l’évolution de l’économie nationale et sur les orientations des finances publiques, tome II, juillet 2012, p. 81.

Chaque indicateur adopte par ailleurs l’un des trois points de vue suivants : celui du citoyen, de l’usager et du contribuable. Le citoyen est censé apprécier l’efficacité d’un État qui fait ce qu’il annonce ; l’usager, la qualité des services publics ; le contribuable, l’efficience d’une administration économe de ses ressources fiscales. Ce triple regard explique en partie le nombre pléthorique d’indicateurs.

Il est à noter cependant que cette tendance tend à être compensée par un effort de rationalisation consistant à recentrer les missions, donc à supprimer certains programmes, ainsi qu’à réduire d’un tiers les objectifs et leurs indicateurs (voir figure 5, p. 57). Ce souci d’allègement des tableaux de bord en vue d’optimiser le pilotage rejoint l’autre préoccupation de la LOLF, à savoir le contrôle des agents publics.

Figure 5. Évolution du nombre de missions, programmes, objectifs et indicateurs entre 2006 et 2013

Source : d’après les projets de loi de finances en ligne sur le site <www.performance-publique.budget.gouv.fr>.

Présentée comme une « révolution culturelle », la LOLF conduit l’administration à « rendre compte de sa performance ». Chaque objectif est adossé à des indicateurs chiffrés qui mesurent l’efficacité des actions menées. Dans le même geste, elle accorde des « responsabilités nouvelles aux managers publics ». Chaque programme est confié à un responsable nommé par le ministre compétent. Il s’agit d’un haut fonctionnaire, souvent le directeur de l’administration centrale, qui bénéficie alors d’une plus grande liberté pour optimiser l’utilisation des crédits alloués. Il a par exemple la faculté de modifier la destination de certains crédits de personnel au profit d’autres natures de dépense (fonctionnement, investissement, etc.), sans que l’inverse soit permis. C’est ce qu’on appelle la « fongibilité asymétrique ». En contrepartie de cette liberté (surveillée) de gestion, les responsables s’engagent à tenir une obligation de résultat. La LOLF encadre ainsi chaque programme, en amont, par un « projet annuel de performance » (PAP), qui décrit les objectifs attendus au moyen d’indicateurs de performance et, en aval, par un « rapport annuel de performance » (le RAP), qui met en évidence les écarts entre les résultats observés et les objectifs du PAP.

Pour observer comment la quantification s’articule en pratique aux préceptes législatifs de la LOLF, nous avons mené une enquête dans divers ministères note. Pour commencer, nous avons rencontré Jean-Philippe de Saint-Martin, inspecteur des finances publiques et chef du service « Conseil » à la DGME, et François Cornut-Gentille, député UMP de la Haute-Marne ayant écrit un rapport sur les indicateurs de performance dont il nous a expliqué la philosophie. Par leur intermédiaire, il a ensuite été possible de rencontrer des responsables de la performance dans les ministères de la Justice, des Affaires étrangères, de la Défense, du Travail, de la Culture. Qu’avons-nous appris ?

Au sein des ministères, les indicateurs de performance sont centralisés dans les cellules de contrôle de gestion, pour la plupart de création récente. Les personnes qui y ont été recrutées sont pour une part des agents de la fonction publique ayant demandé à changer de poste, mais également, et de façon prépondérante dans certains ministères, des agents contractuels formés dans des écoles de commerce et ayant acquis une expérience du contrôle de gestion dans des cabinets de conseil note. Certes, le contrôle de gestion n’est pas une pratique nouvelle dans l’administration d’État, mais la LOLF a rendu indispensable sa généralisation et sa professionnalisation dans le but d’œuvrer à l’« amélioration continue de la gestion publique ». Il a pris une place majeure dans la construction du budget et dans le pilotage de la « démarche de performance ». À la direction du Budget, la Mission de la performance de l’action publique (MPAP) anime un réseau interministériel des contrôleurs de gestion, dispositif transversal qui offre un cadre pour l’échange d’informations, la mutualisation des « bonnes pratiques », l’apprentissage d’outils tels que les tableaux de bord, le reporting ou encore le benchmarking, traduit par « analyse comparative ».

Dès 2002, le benchmarking avait été présenté dans un guide méthodologique sur le contrôle de gestion publié par la Délégation interministérielle à la réforme de l’État (DIRE). En 2007, c’est cette fois la DGME, avec le Comité de coordination du contrôle de gestion, qui lui consacre une note de cadrage. On y retrouve tout le discours managérial habituel : le récit des origines chez Xerox, la typologie des formes d’évaluation comparative, les étapes d’une démarche cyclique, des exemples étrangers et des précédents français concernant les hôpitaux et les établissements d’enseignement supérieur (nous y reviendrons dans le chapitre 3). S’agissant de l’opportunité d’employer un tel procédé dans l’administration étatique, elle serait justifiée par le constat selon lequel le « développement des modes de management public orientés vers la recherche de la performance et l’obligation d’en rendre compte ne peut se concevoir sans benchmarks internes à chaque administration ou externes ». Dans cette perspective, le rôle du contrôleur de gestion est :

— de mettre en place des référentiels facilitant le benchmarking interne et externe (référentiels de programmation, gouvernance SI, segmentation des achats…) ;

— de promouvoir l’analyse comparative (partages d’expériences en réseau, publication des leviers d’action…) et de valoriser les résultats des démarches de benchmarking ;

— de rechercher l’alignement sur les meilleures pratiques (et non sur les performances moyennes) et de s’assurer des conditions de leur prise en compte dans les objectifs de performance dans le cadre du dialogue de gestion auquel le benchmarking est pleinement intégré note.

En produisant des indicateurs comparables et des chiffres sur chaque service, le contrôle de gestion permet une analyse comparative qui n’était techniquement pas possible auparavant. Même si tous nos interlocuteurs soulignent qu’ils ne sont pas là pour donner des bons et des mauvais points, les outils qu’ils mettent en place ont évidemment la capacité de classer les équipes et les agents. Le niveau de détail varie : par exemple, au ministère de la Justice, les données aux mains de l’administration centrale sont distribuées par juridiction et non par agent. En revanche, en ce qui concerne les inspecteurs du travail, les données sont disponibles agent par agent. Plus généralement, la notation des agents a elle-même été réformée. Alors qu’elle était, comme dans de nombreux autres corps, essentiellement liée à l’ancienneté, elle s’appuie dorénavant sur la réalisation d’objectifs fixés par les supérieurs hiérarchiques lors d’entretiens annuels. Ceux qui refusent de s’engager dans cette « démarche de performance » sont sanctionnés, voyant leurs primes et leur avancement suspendus. En outre, on voit apparaître des formes d’émulation entre collègues, puisque les données individuelles sont présentées collectivement lors de « réunions d’animation » mensuelles.

D’après le discours officiel, le « développement de l’analyse comparative permet de rendre compte des performances de la gestion publique par référence aux meilleures pratiques, mais aussi de dégager des marges de manœuvre en identifiant des leviers d’amélioration, ainsi que de créer un consensus, interne et externe, sur des objectifs de performance ambitieux ». C’est le sens des « dialogues de gestion » qui sont censés cultiver la participation et le goût de l’initiative de chaque agent et ce, à tous les niveaux de responsabilité. En cela, la LOLF n’est pas qu’une « nouvelle constitution financière de l’État », elle est également et avant tout une procédure d’évaluation de ses actions et de ses agents. En généralisant la quantification de l’activité administrative tout en l’orientant dans le sens de la performance, elle a étendu et systématisé les réseaux du benchmarking au cœur de l’appareil étatique.

ZONES D’OMBRE

Le maillage de ces réseaux semble couvrir l’ensemble de l’appareil étatique jusque dans le moindre de ses recoins. Rien ne paraît pouvoir leur échapper : plusieurs formes statistiques les adaptent à différentes situations, un esprit managérial y diffuse des raisons d’agir, et une loi leur a même conféré une force d’autant plus contraignante qu’elle s’articule sur le levier budgétaire. Comme nous l’avons vu (voir figure 5, p. 57), rien que par la LOLF, l’État est traversé par près d’un millier d’indicateurs de performance ! C’est à croire que le benchmarking est partout.

En pratique pourtant, on est encore loin de l’omniprésence, voire de l’omnipotence suggérée par certains prosélytes. L’expansion universelle du benchmarking se heurte à de sérieux obstacles. Il existe bien sûr de nombreuses résistances, contre lesquelles les discours de management ne manquent pas de mettre en garde, sur un mode psychologisant qui dépolitise et individualise toute contestation. Nous y reviendrons. Mais cette méthode comporte aussi des limites internes. D’une part, comme ce procédé s’intègre aux pratiques organisationnelles en place, il est parfois difficilement perceptible. C’est une affaire de cuisine interne et, à ce titre, ses réseaux restent volontiers discrets. D’autre part, malgré la prétention à l’universalité du benchmarking, il n’atteint pas le sommet des hiérarchies : s’il affecte directement le travail quotidien des employés et des cadres intermédiaires, les plus hauts dirigeants, d’après nos constatations, s’arrangent pour y échapper.

L’angle mort

Pour estimer le degré de publicité dont jouit le benchmarking dans le secteur public français, nous avons mené une enquête sémantique sur le Web note. Nous avons utilisé le logiciel libre Navicrowler, qui permet de cartographier l’usage d’un terme dans différents sites. En tapant dans le moteur de recherche Google « benchmarking » + « administration publique » et en partant des premiers sites ainsi proposés, nous avons suivi les liens, en vérifiant à chaque fois que l’occurrence « benchmarking » apparaissait bien dans le cadre d’une administration publique.

Les sites qui ressortent de cette enquête ne sont que pour un tout petit nombre d’entre eux ceux de l’administration. On y retrouve les sites liés à la LOLF, à La Documentation française qui a publié des rapports d’étude sur ce thème, ou à l’École nationale d’administration qui a intégré le benchmarking à la panoplie du parfait manager public. Les médias sont représentés — presse, radio, télévision — soit parce qu’ils sont friands d’anglicismes à la mode et se font l’écho du benchmarking comme technique « moderne » (L’Express, Le Monde, etc.), soit parce qu’ils dénoncent le recours à de tels procédés managériaux dans l’administration (Le Monde diplomatique, La Revue des livres, etc.). Des revues critiques y figurent également pour avoir consacré des articles, voire des dossiers aux réseaux du benchmarking (Vacarme, Contretemps, etc.). On trouve par ailleurs des associations militantes (Acrimed, Fondation Copernic, Sauvons la recherche, Sauvons l’université, etc.). Et on croise même les intervenants d’un séminaire note que nous, auteurs de ce livre, avons organisé à l’École des hautes études en sciences sociales. Elle est bien bonne ! Tout se passe comme si le benchmarking devait en partie son existence à nos efforts intellectuels pour l’appréhender.

Trêve de plaisanterie : comment comprendre ce résultat ? Par le fonctionnement même de l’outil employé. N’apparaissent que les sites où un discours public est tenu sur le benchmarking. Par définition, ceux qui lui sont soumis ou qui le produisent ne sont pas ceux qui en parlent le plus, du moins sur Internet. C’est plutôt autour de la machine à café ou en salle de réunion, voire sur l’intranet, qu’on pourrait capter leurs propos.

Dans cette optique, nous avons procédé à une observation directe dans le commissariat central d’un des arrondissements les plus chics de Paris. Afin de répondre à nos questions très terre à terre sur la fabrication des chiffres qui servent à la construction des fameux « indicateurs de performance », on nous emmena dans un petit bureau de moins de 10 mètres carrés où tenait à peine une table sur laquelle un ordinateur contenait les tableaux Excel à remplir chaque jour. C’est là, dans un endroit qui n’a rien de secret puisqu’on nous l’a montré, mais qui est tenu pour insignifiant, que la démarche de benchmarking est amorcée. À vrai dire, localement, l’agent chargé de renseigner les fichiers ne se vante pas de « faire du benchmarking ». De fait, en toute rigueur, il n’en fait pas. Il a les mains dans le cambouis des chiffres, ce qui est supposé n’intéresser personne, sinon son supérieur. Et, évidemment, il ne va pas sur Internet pour rendre son travail public. Il en va de même à chaque maillon de la chaîne du benchmarking, qui se déroule sans publicité. Chacun doit remplir sa fiche d’autoévaluation ; chaque service doit s’atteler à collecter des données apportant la preuve de son efficacité ; chaque commissariat, hôpital ou université doit renseigner les indicateurs de performance propres à son ministère ; chaque État doit charger son office statistique de renseigner les classements établis par les instances internationales.

Il y a des appels en faveur du benchmarking, des justifications publiques de ses avantages et une médiatisation de ses résultats, mais ses usages concrets demeurent dans l’ombre, tapis à l’intérieur des organisations, à l’abri des regards extérieurs.

L’inaccessible sommet

Les discours publics de promotion du benchmarking évoquent toujours sa faculté à galvaniser une organisation en exhortant tous ses membres à l’engagement personnel. Dans un contexte de compétition globale, de guerre économique, ce serait le levier d’une mobilisation générale. Que l’on soit P-DG ou arpette, le benchmarking est présumé concerner tout le monde, à titre individuel et collectif. Mais est-ce vraiment le cas ? Tous les échelons sont-ils effectivement soumis à des indicateurs de performance et à des objectifs à atteindre ? Après observation, il semble bien que les hauts fonctionnaires échappent à ce mode d’évaluation. Il s’agit des niveaux les plus élevés de la hiérarchie qui méritent apparemment un traitement spécial. En voici trois exemples.

D’abord, reprenons l’expérience menée par le président Sarkozy qui avait fait grand bruit en janvier 2008, consistant à noter les ministres du gouvernement Fillon. L’Élysée avait demandé à Matignon de mettre au point un outil de suivi appréciant les résultats des ministres au regard des objectifs qui leur avaient été assignés dans leur lettre de mission. La ministre de l’Enseignement supérieur et de la Recherche serait notamment évaluée à l’aune du taux d’abandon en première année de licence, tandis que son collègue en charge de l’Immigration et de l’Identité nationale (sic) le serait au regard du nombre d’étrangers en situation irrégulière expulsés. Tous les trimestres, le Premier ministre recevrait chacun d’entre eux pour leur remettre un « bulletin de note » individuel et le commenter. Il s’agissait de les inviter à « faire du chiffre », car « tous les objectifs politiques de Sarkozy sont chiffrables » d’après le cabinet en stratégie Mars & Co., payé pour aider le gouvernement à accomplir cet exercice inédit. Il ne fallait pas y voir « une machine à sanction, mais un moyen de coordonner le travail intergouvernemental et d’installer une culture du résultat ». D’ailleurs, il était prévu que ce procédé vienne à l’appui de la RGPP. Pour le Président, qui avait expérimenté ce type de dispositif lors de son passage à l’Intérieur, il s’agissait de « passer d’une politique d’annonces à une politique de résultats note », et il fallait l’annoncer ouvertement. En d’autres termes, la mesure visait à utiliser le benchmarking pour afficher une sortie du régime d’interconnaissance mutuelle et de services rendus. Un palmarès dans la presse y contribuait.

Force est de constater que cette expérience est restée sans suite. Elle constitue certes un précédent tout à fait remarquable, mais le benchmarking des ministres n’a pas pris. Ce genre de jugement et d’épreuve entrait en complète contradiction avec ceux qui sont légitimes dans un régime d’interconnaissance, tel que celui qui caractérise la très haute administration publique. Depuis la fin de la Seconde Guerre mondiale, elle a en effet connu un processus de politisation. D’une part, les changements de majorité ont engendré un nombre de plus en plus grand de nominations et de remplacements des directeurs d’administration ; et, d’autre part, le nombre d’élus à des postes nationaux étant passé par l’ENA ou la haute administration a crû lui aussi sans cesse note. Mais la force de cette politisation ne serait rien si elle n’était accompagnée de relations personnelles, de liens d’amitié, de fidélité et de loyauté. Les politiciens ont eu de plus en plus tendance à « nommer des amis proches et fidèles, venant souvent des plus hauts postes de l’administration, à des postes importants note ». Un mauvais résultat ponctuel ne peut pas remettre en cause une loyauté forgée pendant des dizaines d’années. De même, il est probable que les personnalités ministérielles n’aient pas apprécié une telle évaluation de type scolaire. Or, dans un régime de familiarité, la personnalité est une ressource qui peut être avancée comme argument légitime. Un ministre peut dire que cette méthode ne lui convient pas à lui, comme personne, qu’il y a une violence symbolique à le juger comme un élève. De surcroît, il semble difficile de condenser la multiplicité des tâches ministérielles en quelques indicateurs. Il est impossible d’assigner des objectifs finaux à un ministère, et donc encore moins à l’État tout entier.

L’échec de cette expérience montre que, jusqu’à preuve du contraire, le régime du benchmarking n’est pas parvenu à s’imposer en haut de l’État, qui reste un petit monde d’interconnaissances mutuelles.

Deuxième exemple, encore plus précis. Les commissaires, qui constituent le corps de conception et de direction de la police nationale, ont obtenu en 2010 la « prime de responsabilité et de performance ». Cette dernière comporte une part fonctionnelle, certains postes jugés difficiles ou très difficiles par la Direction générale de la police nationale (DGPN) donnant droit à une prime de 20 % ou 40 % du salaire mensuel. Une autre part est attribuée en fonction du résultat, lequel est mesuré au moyen d’un « projet de performance individuel » (PPI). Il appartient au commissaire qui le souhaite d’établir son PPI avec son supérieur hiérarchique. Ils conviennent alors ensemble d’un objectif à atteindre, si possible quantitatif. Une liste de vingt thématiques a été dressée à titre indicatif : on y trouve la lutte contre la délinquance ou l’investigation, mais aussi les relations avec la population, la coopération internationale, la déontologie ou même le développement des nouvelles technologies. Le commissaire choisit ainsi d’être passé au crible d’une batterie d’indicateurs, aussi bien individuels que collectifs. À la fin de l’année, le responsable, au vu des résultats du commissaire placé sous son autorité, fait une proposition à sa hiérarchie, qui décide ou non d’attribuer la prime, par tranche de 10 % du salaire mensuel, et au maximum à 30 % des commissaires. Ces primes sont versées mensuellement l’année suivante. Un commissaire qui aurait pris un poste très difficile et réaliserait parfaitement son PPI peut ainsi toucher chaque mois 180 % de son salaire ; et 30 % de l’ensemble des commissaires touchent en primes au moins 10 % de leur salaire mensuel.

Or le contrôleur général, qui dirige le bureau des commissaires de la police nationale, nous a expliqué que les plus hauts gradés, situés au-dessus des commissaires divisionnaires — à savoir les contrôleurs généraux, inspecteur généraux et directeurs des services actifs (DSA) qui ne sont en tout qu’une centaine —, pourraient théoriquement prétendre aux primes attachées aux PPI. Pourtant, ils ne le font pas. Il se trouve qu’ils ne le demandent pas et ne définissent pas de PPI. En revanche, les nouveaux entrants dans le corps des commissaires, en particulier les jeunes qui sortent de l’école de Saint-Cyr au Mont-d’Or et qui sont de plus en plus souvent des femmes, se saisissent de cette opportunité pour augmenter leur salaire et donner de l’essor à leur carrière note. Mais plus on monte dans la hiérarchie et moins les agents acceptent de faire évaluer leur travail à l’aune de quelques indicateurs et objectifs. Là encore, la psychologie du chef redouble le fait que l’ampleur de la tâche et le côté réducteur de l’indicateur sont immédiatement reconnus.

Dernier exemple, tiré de l’étude sur les palmarès publiés par la presse états-unienne classant les meilleures écoles de droit du pays dès le début des années 1980 note. Ces classements ont d’abord été bricolés par des journalistes aventureux. Or, lors des premières moutures, il se trouve que la très prestigieuse université de Harvard n’était pas aussi bien classée qu’elle l’aurait souhaité. Que se passa-t-il ? Eh bien, les journalistes décidèrent de… repenser la méthode de construction de leur palmarès de façon à ce que cette université si reconnue y occupe la place qu’on attendait qu’elle occupe. Ce fut donc le palmarès qui dut s’adapter à l’élite, et non l’inverse.

Ces trois exemples attestent du rapport spécifique que les élites au pouvoir entretiennent avec la quantification et la commensuration. Certes, elles ne se soustraient pas à tout jugement ; le président de la République lui-même est d’une certaine manière évalué quantitativement lors des élections. Toutefois, être jaugé au regard du nombre de suffrages recueillis n’a évidemment pas le même sens qu’être mesuré au moyen d’indicateurs de performance. Dans un cas, la relation est sociale et politique, elle tisse un lien de représentation entre les électeurs et leur élu ; dans l’autre, il s’agit d’un rapport d’évaluation émis par un chef à l’égard de ses subordonnés, lesquels ne le choisissent qu’en des cas trop exceptionnels pour mériter notre attention. Les hauts fonctionnaires ont les moyens de construire un rapport distancié aux réseaux du benchmarking, d’en orienter les indicateurs et d’en assouplir la vérité. Ils peuvent discuter et relativiser la signification des mesures quantitatives grâce à la hauteur de vue dont ils disposent. Et, surtout, ils peuvent choisir de se soustraire à ce mode d’évaluation.

De surcroît, plusieurs indices nous laissent penser que ce ne sont pas toujours, et même rarement, les élites qui ont bataillé pour l’adoption d’un dispositif de benchmarking dans leur organisation. C’est ainsi que le préfet de police de Paris a bel et bien soutenu l’implantation de la « culture du résultat » — l’autre nom, laudatif, de la « politique du chiffre ». Mais celle-ci a d’abord concerné la seule police de sécurité publique, celle qui patrouille dans les rues, sanctionne les petits écarts au code de la route, fait cesser les rixes, etc. ; bref, celle qui lutte contre toute cette « violence en miettes note » qui se développe depuis les années 1980. Or, à cette époque, la police de sécurité publique était clairement moins prestigieuse que la police judiciaire, celle qui arrête les vrais bandits et fait tomber les gros bonnets. C’est ce dont témoigne Alain Quéant, l’un des artisans du développement de la police de sécurité publique, dans son livre intitulé Le Commissaire de police dans la société française note. Il y raconte qu’il se demandait alors comment il allait convaincre ses collègues de le rejoindre dans ce projet plutôt que d’aller à la judiciaire. Le management quantitatif a été soutenu par ceux qui s’engageaient dans la police de sécurité publique parce qu’il leur offrait une nouvelle échelle pour mesurer la grandeur de leur activité. Certes, la police judiciaire arrêtait bien de grands brigands, mais en petit nombre, alors qu’eux, à la sécurité publique, en arrêtaient un très grand nombre. Il fallait se doter d’outils qui mettent en valeur la quantité.

Le cas du benchmarking confirme ainsi la thèse de Ted Porter note : le nombre est (aussi) l’arme des faibles. On avance un argument quantifié quand on est en manque de légitimité et qu’on a donc besoin de l’objectivité numérique pour s’imposer. Ce sont souvent de nouveaux challengers qui ont défendu son introduction contre les routines installées, tandis que les élites traditionnelles ont laissé faire, jugeant sans doute inoffensif cet attirail d’indicateurs, d’objectifs, de mécanismes incitatifs.

Qu’est-ce que le benchmarking ? Nous avons essayé dans ce premier chapitre d’esquisser ses réseaux, à défaut de pouvoir en saisir une essence illusoire. Par benchmarking, nous entendons une démarche qui est à la fois une procédure de quantification et une technique de management, donc de mise en mouvement des agents afin qu’ils agissent sur ce qu’ils sont en train de mesurer. Cette démarche s’articule sur des réseaux métrologiques, discursifs, juridiques, qui se sont déployés et se déploient encore aujourd’hui dans l’appareil d’État français.

Une élite de très hauts fonctionnaires les y a importés depuis le monde de l’entreprise pour lutter contre ce qu’elle appelle les lourdeurs de la bureaucratie, mais a soigneusement évité de s’y soumettre elle-même. Et, sautant par-dessus les « patrons », elle a rencontré l’intérêt d’une frange intermédiaire d’employés de la fonction publique comme de consultants privés, nouveaux entrants dans l’administration, qui ont vu le benchmarking comme une opportunité et ont participé à son développement.

Aussi peut-on se servir du benchmarking comme d’un connecteur pour explorer les mutations contemporaines de l’administration et des services publics. On y observe une quantification généralisée des activités, voire un autodénombrement qui rend possible l’exercice d’un (auto) contrôle, associé à la comparaison entre individus ou équipes comme ferment d’émulation, et à la mesure de la performance individuelle comme facteur de mise en responsabilité. Le benchmarking accomplit donc dans un même geste une double action : décrire et transformer une situation, un état de fait, une portion de réalité. Il est, en ce sens, une politique de la réalité, si on entend par réalité tout ce qui peut être capté par des quantités et sur quoi l’administration managériale peut agir.

En tant que connecteur, le benchmarking peut être rattaché à toute une série d’opérateurs statistiques très mobiles et réutilisables (indicateurs, tableaux de bord, baromètres, etc.) qui, par de nouveaux avatars, se déclinent et s’ajustent à des doctrines du management ou des cadres législatifs. À travers les réseaux qu’il creuse dans l’État, il y implante un registre de discours et un répertoire de comportements dont l’ensemble forme ce qu’on pourrait appeler, faute de mieux, le régime du benchmarking. Afin de mieux le caractériser, nous en proposons une généalogie.

2. GÉNÉALOGIE D’UNE « DISCIPLINE INDÉFINIE »

Depuis une dizaine d’années, le dispositif du benchmarking — avec ses meilleures pratiques, ses indicateurs de performance, ses cibles chiffrées, ses tableaux de bord et ses palmarès — est ainsi devenu incontournable pour un ensemble de professionnels, traditionnellement peu versés dans les techniques managériales, comme les personnels de santé, les travailleurs sociaux, les policiers, les magistrats, les enseignants, les chercheurs ou les agents territoriaux.

Comment en est-on arrivé là ? Comment un tel procédé a-t-il réussi à s’imposer comme la solution organisationnelle au problème tenu pour universel de la compétitivité ? Réputé de « bon sens », il avait déjà cours de manière informelle, par qui a-t-il été programmé, documenté et systématisé ? Pour quoi faire et contre quelle autre façon de faire ?

À en croire le mythe fondateur, qui a beaucoup circulé tout au long de la décennie 1990 et qui est encore aujourd’hui repris dans la plupart des manuels de gestion, le benchmarking aurait été « découvert » dans les quartiers généraux de Xerox. Face à la « déferlante nippone », cette firme multinationale aurait forgé le benchmarking pour retourner l’arme de l’adversaire contre lui. L’idée viendrait d’un obscur ingénieur du département logistique, Robert C. Camp, communément reconnu comme le « père du benchmarking ». Cette image d’Épinal procède d’un effort d’édification, lequel participe lui-même de la mise en forme de cette technologie. Notre propos se veut donc iconoclaste, dans la mesure où il entend briser cette image trop lisse pour lui restituer ses aspérités.

Aux antipodes de la success story officielle mettant en scène un « inventeur génial », héros malgré lui d’une reconquête industrielle, on a assisté à une entreprise collective et orchestrée.

Proposer une généalogie du benchmarking ne consiste pas en une illusoire quête des origines qui, en repérant la source, permettrait de retracer son parcours tranquille sur un demi-siècle. Loin du récit linéaire, la petite histoire du benchmarking est émaillée d’équivoques, de ratés, d’antagonismes et de résistances. Elle est parcourue de rapports de forces et d’enjeux de pouvoir qui en font une histoire (micro) politique.

LEMANAGEMENTDE LA QUALITÉ, « UNE COURSESANSLIGNE D’ARRIVÉE »

« La qualité est une course sans ligne d’arrivée.

La priorité que nous avons accordée à la qualité a rendu l’entreprise Xerox plus forte, mais nous savons que nous ne serons jamais aussi bons que nous pourrions l’être, parce que nous essaierons toujours de nous améliorer.

Notre mission est l’amélioration continue de la qualité. »

David T. Kearns, P-DG de Xerox (1982-1990)

Indissociable d’un paradigme de management qui se donne pour objet la « qualité totale », le benchmarking participe d’une « discipline indéfinie » dont l’exercice a été rendu possible par la réunion de certaines conditions sociohistoriques et sociotechniques. En discernant ces conditions de possibilité, on comprendra mieux comment a été construite l’universalité du benchmarking, par qui, à quelles fins et avec quels effets.

Les gourous d’une « qualité totale »

Désigner les spécialistes de la qualité en termes de « gourous » est un lieu commun en management, dont la presse (The Economist, Businessweek ou encore Les Échos et Le Monde) est particulièrement friande pour évoquer certains consultants, experts et P-DG qui ont acquis une renommée internationale auprès des praticiens, mais aussi du grand public, à l’instar de Peter Drucker, Michael Porter ou Steve Jobs. Leur nom est le plus souvent associé à des success stories ou des best-sellers, qui font référence dans le monde des affaires. Les définitions de la qualité étant aussi élastiques et plurielles que celles qualifiant un gourou, la liste des maîtres à penser en la matière n’a rien de figé. Sans prétendre faire le tour complet du panthéon de la qualité, il est possible d’identifier certains des statisticiens et ingénieurs qui l’ont objectivée comme une réalité observable, maîtrisable, gérable, et comme une réalité « totale », systémique, servant de support à l’exercice non plus d’un contrôle ponctuel et direct, mais d’un gouvernement médiatisé par les grands nombres.

La mise en statistique de la qualité. La qualité des biens fabriqués a toujours donné lieu à une inspection. Sans remonter aux guildes du Moyen Âge, on songe immédiatement à la figure du contremaître surveillant le travail des producteurs directs. Au tournant du xxe siècle, le besoin accru d’interchangeabilité des pièces nécessitait de vérifier minutieusement leur conformité aux spécifications techniques fixées par les ingénieurs du bureau des méthodes. D’où les efforts de rationalisation organisationnelle d’un Taylor, grandement inspiré par un modèle de science soucieuse d’exactitude et de précision métrologique. Des inspecteurs à plein temps furent formés pour traquer les produits défectueux et des services dédiés au contrôle de la qualité furent créés. Mais la production de masse et l’accélération des cadences ont rendu de plus en plus coûteux ce criblage en bout de chaîne.

Un tout autre modèle scientifique fut alors mobilisé dans l’industrie. Issu de la révolution probabiliste et de la physique quantique, il inaugura une approche fondée sur la loi des grands nombres, le principe d’incertitude et l’hypothèse du hasard note. Longtemps inacceptables dans l’usine taylorienne, ces théories ont trouvé un terrain d’expérimentation avec les fabrications en grande série. Des méthodes statistiques d’inspection de la qualité ont ainsi été développées à partir des années 1920.

C’est au sein des laboratoires Bell (Bell Labs) que des chercheurs, en particulier Walter A. Shewhart, ont utilisé la théorie mathématique des distributions, les calculs de probabilité et les techniques d’échantillonnage pour placer les processus industriels sous contrôle statistique (statistical process control — SPC) note. Ils partaient du constat que tout système de production se caractérisait par une grande variabilité de la qualité des produits. Il fallait donc distinguer les variations dites « naturelles », inhérentes au système, impossibles à résorber complètement, des dysfonctionnements « accidentels » sur lesquels il était possible d’agir. Au lieu de lutter contre toute augmentation du nombre de produits défectueux, ils préconisaient en quelque sorte de domestiquer leur fluctuation, de la contenir dans une marge « normale » de variation. Dans cette optique, contrôler la qualité ne consistait plus à repérer un défaut sur les produits finis, mais à surveiller les perturbations observables tout au long du processus productif, et à intervenir seulement lorsqu’elles franchissaient le seuil de tolérance. D’où une nouvelle ingénierie de l’inspection, qui redistribuait entièrement les responsabilités.

Afin de rendre possible un contrôle continu des processus de fabrication, par tous et en tout point, Shewhart entreprit de traduire les calculs statistiques effectués en laboratoire, sibyllins pour les travailleurs, en courbes aisément compréhensibles. Grâce à un simple outil graphique — les cartes de contrôle (control charts ; voir figure 6, p. 75) —, il proposa d’équiper tous les opérateurs de façon à prévenir, autant que possible, les défauts, et à les signaler le cas échéant. On assistait ainsi à un changement de paradigme : de la qualité des produits à celle des processus, de l’inspection à la prévention, d’une fonction séparée à un système de management.

Figure 6. La carte de contrôle mise au point par Shewhart en 1924

Source : Denis Bayart, « Des objets qui solidifient une théorie : l’histoire du contrôle statistique de fabrication », art. cit., p. 13.

Au début des années 1930, les travaux de Shewhart avaient acquis une certaine notoriété scientifique, notamment grâce aux efforts de W. Edwards Deming qui les fit connaître hors des Bell Labs. Ce statisticien, formé aux théories probabilistes les plus en pointe de son époque, était alors chercheur au ministère de l’Agriculture, où il contribua à développer les méthodes d’échantillonnage aléatoire qui permirent à l’équipe de Roosevelt de mettre en œuvre les politiques redistributives du New Deal. Il enseignait en même temps à l’école supérieure formant les ingénieurs agronomes, et invita Shewhart à donner une série de conférences dont il compila les papiers dans un recueil aisément accessible, publié en 1939 note.

Pendant la Seconde Guerre mondiale, Deming promut la méthodologie de Shewhart dans l’industrie militaire, qui devait optimiser la fiabilité du matériel envoyé sur le front. Certains standards de qualité étaient imposés aux producteurs de munitions, et il restait à leur apprendre les méthodes statistiques pour les satisfaire au mieux. Sous la tutelle conjointe du Department of Education et du War Production Board, Deming dirigea un programme de formation des cadres à l’université de Stanford, qui contribua à essaimer largement les concepts et outils du contrôle statistique de la qualité (SQC). À l’issue de la guerre, un tel contrôle était exercé dans la plupart des secteurs industriels par des ingénieurs spécialisés, suffisamment nombreux pour créer une association professionnelle. En 1946, l’American Society for Quality Control (ASQC) note comptait deux cent cinquante-trois membres fondateurs issus de dix-sept entreprises, qui confièrent la présidence au directeur de l’assurance qualité des Bell Labs.

Pourtant, le développement de ce nouveau paradigme organisationnel fut assez rapidement stoppé aux États-Unis après la guerre. En effet, dans l’esprit de Shewhart, c’était bien tout au long et au plus près de la chaîne de production que la qualité devait être surveillée au moyen des cartes de contrôle, et non pas de manière hiérarchique ou exogène. D’où la faible adhésion des cadres supérieurs dont l’autorité était ainsi contestée par des informations statistiques à la disposition de tous, mettant en cause les dysfonctionnements systémiques, relevant de leur responsabilité, plutôt que les défaillances de la main-d’œuvre.

Malentendus japonais. Au Japon en revanche, la réception du SQC fut beaucoup plus favorable. Plutôt que de se satisfaire de postulats culturalistes, on peut supposer que l’arrivée au pouvoir d’une nouvelle génération de cadres, ayant besoin de gagner le soutien de leurs personnels pour relancer l’activité, après les purges intervenues dans les zaibatsu note, explique en partie ce succès. D’après Deming, la diffusion rapide et durable des méthodes de contrôle statistique dans ce pays tiendrait avant tout au volontarisme des dirigeants japonais. Contrairement à leurs homologues états-uniens, ils auraient compris que la qualité n’est pas un coût, mais une source de profits. Et la croisade engagée par Deming lui-même ne serait pas pour rien dans cette prise de conscience note.

Le Syndicat japonais des scientifiques et ingénieurs (Japanese Union of Scientists and Engineers, JUSE), fondé après guerre pour relever l’économie du pays, abritait en son sein un groupe de travail sur les applications industrielles de la statistique. Il s’intéressa tout particulièrement au contrôle de la qualité afin de remédier à la mauvaise réputation des biens d’exportation japonais. Deming fut ainsi invité en juillet 1950 à présenter ses méthodes aux capitaines d’industrie. Il en résuma l’esprit par l’équation suivante :

Améliorer la qualité → Les coûts diminuent parce qu’il y a moins d’erreurs, de réparations et de retards ; le matériel est mieux utilisé → La productivité augmente → Gagner des parts de marché grâce à une meilleure qualité et un prix plus faible → Affermir sa position sur le marché → Créer des emplois et plus d’emplois note.

Son message se voulait inédit en ce qu’il opérait un retournement de perspective : faire de la « non-qualité » un coût, et du consommateur l’acteur le plus important de la chaîne de production. Cette attention portée au client devait devenir le « principe de base du management japonais » selon Deming.

Une fois les dirigeants industriels convaincus, Deming se fit le champion du SQC dans toute l’île. Il se rendit à Tokyo, Osaka, Nagoya ou Hakata, devant un auditoire toujours plus nombreux de cadres, ingénieurs et chefs d’équipe (entre 15 000 et 20 000). Aux non-initiés, il proposait des séminaires de huit jours sur les rudiments du contrôle de la qualité. Avec les plus avertis, il approfondissait leurs connaissances en statistique mathématique. Même les ouvriers payés à l’heure auraient appris avec lui à établir, comprendre et utiliser des cartes de contrôle.

Il ne fut cependant pas le seul à avoir prêché la qualité au Japon. Son compatriote Joseph M. Juran fut également invité par le JUSE à tenir en 1954 des conférences, auxquelles assistèrent près de quatre cents cadres note. D’abord contrôleur de la production chez Western Electric où il avait été formé aux méthodes statistiques par les chercheurs des Bell Labs, il quitta l’entreprise après guerre pour se lancer dans des activités d’enseignement et de conseil en organisation. En 1951, il publia un premier manuel sur le contrôle de la qualité, qui devint un classique en management note.

Un troisième homme doit être mentionné ici : il s’agit d’un ingénieur de General Electric, Armand V. Feigenbaum, qui appartient à la génération suivante (il était de vingt ans leur cadet note). En 1951, lui aussi publia une somme de huit cents cinquante pages sous le titre Quality Control. Principles, Practice, and Administration, et fut sollicité par le JUSE. En 1956, il intitula un article paru dans la Harvard Business Review « Total quality control note », expression (TQC) qui rencontrera un énorme succès. Il entendait par là exprimer la vision totalisante d’un contrôle de la qualité s’exerçant sur toutes les pratiques d’organisation et de production, y compris en amont et en aval de la chaîne de fabrication.

Mais le Japon n’était pas un simple terrain d’expérimentation pour les « gourous de la qualité », voire un incubateur de leurs idées. De puissants acteurs nationaux jouèrent aussi un rôle décisif. En l’occurrence, il ne s’agit pas tant de l’interventionnisme du ministère au Commerce international et à l’Industrie — le fameux MITI — que de l’activisme du JUSE. Afin de généraliser l’implantation du TQC dans les usines japonaises, ce syndicat d’entreprises ne ménagea pas ses efforts : programmes de formation statistique, conférences faisant intervenir les experts internationaux les plus renommés, traductions d’ouvrages, publication de journaux, radiodiffusion d’enseignements pour atteindre la main-d’œuvre trop éloignée de la capitale. Il encouragea aussi la création dans les usines de petits groupes d’étude, réunissant une dizaine de travailleurs pour analyser les problèmes de production et élaborer des solutions à l’aide des méthodes statistiques. Ce furent les fameux « cercles de qualité » qui pullulèrent au Japon, puis dans les autres pays industrialisés note. Last but not least, le JUSE institua en 1951 un prix de la qualité pour récompenser les organisations vertueuses. Il le finança grâce aux droits d’auteurs non réclamés par Deming. Pendant un quart de siècle, ce Deming prize fut agité comme un pompon pour pousser les entreprises japonaises à appliquer le TQC.

Le contrôle statistique de la qualité a très tôt été considéré comme le ferment du « miracle économique » observé au Japon dans les décennies d’après guerre. Il serait au principe de la « révolution managériale » qui a substitué au mode d’organisation fordiste un nouveau paradigme, qualifié de toyotiste. Celui-ci se propose notamment de décomposer les collectifs de travail en « processus orientés vers le client », d’impliquer et de responsabiliser les employés par leur participation à des « cercles de qualité », de motiver les cadres par des primes et des salaires à la performance, de substituer l’incitation et l’autoévaluation aux règles contraignantes et à la surveillance hiérarchique. La qualité n’y est plus l’apanage d’inspecteurs ou de certains ingénieurs, mais concerne l’ensemble de l’organisation.

D’après Deming, la qualité au Japon serait ainsi devenue « totale » et l’impératif de son contrôle se serait imposé comme un « mot d’ordre national note ». Le prix qui porte son nom n’y serait pas pour rien. Avec le temps et une centaine de primés entre 1951 et 1985, le niveau d’exigence de ses critères d’attribution s’éleva, le rendant d’autant plus précieux et convoité. Pourtant, dans les milieux industriels, les critiques se multiplièrent contre leur formalisme qui rendrait les procédures de contrôle de plus en plus rigides et préjudiciables à la créativité. D’autres prises de parole contestaient l’honneur indûment consenti à Deming au détriment des protagonistes japonais du JUSE. Pour toutes ces raisons, le prix perdit de sa superbe dans l’archipel.

Or, au même moment, il attirait à lui plusieurs entreprises occidentales, dont Volvo, Dow Chemical ou Xerox. En 1988, le JUSE organisa à leur intention un séminaire en anglais sur le modèle japonais du contrôle de la qualité. Bien qu’une catégorie du prix Deming ait été créée dès 1984 pour récompenser des firmes étrangères, aucune n’avait osé candidater. En 1989, c’est la compagnie de distribution d’électricité Florida Power & Light qui se jeta à l’eau avec succès.

Mais insistons sur l’ironie de l’histoire. L’adhésion aux préceptes des « gourous de la qualité » procède en fait d’un malentendu. Le modèle de management dont Deming, Juran ou Feigenbaum se firent les apôtres était tenu pour la clé de la prospérité aux États-Unis, ce qui motivait son importation, alors qu’il y avait été plutôt délaissé après guerre. Il fallut attendre les années 1980 pour que ces personnalités, vénérées au Pays du Soleil levant, sortent de l’anonymat dans leur propre pays. Et ce fut précisément au moment où les dirigeants japonais prirent leurs distances avec ce modèle qu’il gagna une certaine audience outre-Pacifique.

Back in the USA. Ce fut dans le contexte d’une détérioration accélérée des profits au tournant des années 1980 que les grandes firmes états-uniennes engagèrent une transformation de leur mode de production et de leurs pratiques d’organisation, en prenant pour modèle ce qui avait été expérimenté ailleurs avec succès. Libéralisation des échanges internationaux oblige, elles étaient en effet de plus en plus confrontées à des concurrents étrangers, notamment japonais, qui venaient conquérir des parts de marché sur leur propre territoire. Les lois antitrusts se multiplièrent, les monopoles comme celui du système Bell (AT&T) furent démantelés, et les procès contre les fournisseurs de biens défectueux contribuèrent à démonétiser les produits made in USA.

Naturalisée comme une nécessité vitale, la restructuration des entreprises donna d’abord lieu à de vastes plans de licenciements pour qu’elles deviennent plus « maigres » (lean management). Les délocalisations d’usines et la montée du chômage affaiblirent les syndicats qui se rallièrent pour la plupart aux stratégies de compétitivité contre les rivaux japonais. L’étranger offrait ainsi une figure adverse utile pour remplacer le patronat comme cible du « nous » contre « eux ». La rhétorique de la guerre économique prit alors le pas sur la guerre froide à la une des journaux. Le 31 mars 1980, le leader des photocopieurs fut publiquement pris pour cible par Canon dans un article du magazine Forbes, qui titrait : « Xerox, here we come ». Le 12 janvier 1981, c’était cette fois dans les pages de l’hebdomadaire Fortune que la compagnie japonaise annonçait « faire une guerre totale » à son concurrent états-unien. L’offensive dura plusieurs années avant que le New York Times puisse proclamer le 6 novembre 1985 : « Xerox halts Japanese march ». Sous ce titre martial, le journaliste expliquait la tactique de Xerox, laquelle aurait consisté à s’adapter à la stratégie de l’adversaire et à retourner son arme contre lui.

Au-delà du cas Xerox et d’autres multinationales qui se familiarisèrent avec le management japonais par l’intermédiaire de joint-ventures, c’est l’Amérique tout entière qui, confrontée à la « déferlante nippone », ouvrit alors un débat public sur la réaction à adopter. En 1980, un documentaire intitulé If Japan Can… Why Can’t We ? fut diffusé par NBC dans le cadre de sa célèbre série White Paper qui touchait un large public. Il montrait comment ce pays s’était relevé de la Seconde Guerre mondiale et imposé sur la scène internationale comme une puissance industrielle de tout premier plan. Contre l’opinion communément admise qui expliquait le succès des recettes japonaises par des facteurs culturels et en déduisait leur impossible importation aux États-Unis, l’émission braqua les projecteurs sur leur concitoyen Deming, présenté en quelque sorte comme l’éminence grise des dirigeants nippons. C’est la première fois qu’une telle publicité était donnée au rôle joué par les experts états-uniens dans la « révolution de la qualité » amorcée au Japon depuis trois décennies. Le reporter y insistait : « Beaucoup de ce que font les Japonais leur a été enseigné par nous. » Outre son audience lors de sa première diffusion, la vidéo circula beaucoup dans les entreprises et les universités. Ce documentaire est souvent cité comme point de départ d’une reconnaissance nationale du management de la « qualité totale ».

Le terme « contrôle » étant associé aux États-Unis aux politiques interventionnistes du New Deal, il fut rapidement remplacé par « management ». Le modèle du « contrôle de la qualité totale » (TQC) fut ainsi traduit en « management de la qualité totale » (TQM). La transition est repérable dans un article publié en 1984, paradoxalement dans une revue de la Society for Advancement of Management créée par les disciples de Taylor note. Les auteurs y exhortaient les managers états-uniens à se convertir à la « philosophie révolutionnaire » que constituait le total quality control management system, abrégé en TQC/M. Au regard des cinq grands principes dégagés, il semble que, du TQC au TQM, seule une lettre change. Il s’agit toujours de : 1) rechercher la qualité avant les profits, ce qui suppose un renversement de perspective auquel les dirigeants doivent adhérer ; 2) développer le « potentiel humain infini » des employés à travers leur éducation, leur formation, leur responsabilisation et leur participation ; 3) satisfaire les exigences du client — interne ou externe — à qui sont destinés les biens et services produits par chaque processus constitutif de l’organisation ; 4) communiquer les faits et données statistiques et utiliser la mesure comme outil de motivation ; 5) développer un système de management qui conduise tous les employés à penser chaque décision et action en termes de qualité, de la conception du produit à sa vente.

Pourtant, une particularité du TQM est que, au-delà des seules stratégies d’entreprise, il a été peu à peu appliqué, pendant la décennie 1980, aux programmes gouvernementaux. On se souvient de la formule célèbre du président Reagan : « L’État n’est pas la solution, mais le problème. » Dans cet esprit, en 1986, il lança un programme fédéral d’amélioration de la productivité et de la qualité des services publics (Executive Order 12552) au moyen de cibles prioritaires, de normes, de systèmes de mesure, d’évaluations annuelles, d’incitations, de récompenses, ainsi que par la participation et la formation des employés. Il enjoignait tous les services ministériels et agences exécutives à devenir plus efficients d’ici 1992, et ce dans un contexte de restriction budgétaire plaçant les programmes nationaux en compétition pour obtenir des financements. Sa mise en œuvre fut confiée à l’organisme chargé de gérer les ministères et de préparer le budget (Office of Management and Budget, OMB). Dans une circulaire d’avril 1988, l’OMB proposait un ensemble de lignes directrices pour réaliser l’objectif présidentiel qu’il étendait explicitement à l’amélioration de la qualité, et plus seulement de la productivité comme dans l’intitulé du décret. La même année furent créés le President’s Quality Award et l’Institut fédéral pour la qualité (Federal Quality Institute, FQI) qui faisait office de centre d’échange d’informations (clearinghouse) et publia en 1989 une plaquette intitulée Total Quality Management. A Time for Decision.

En matière de management de la qualité, le Department of Defense (DoD) fut à nouveau un précurseur note — la guerre n’est jamais loin de la discipline managériale. Il expérimenta le TQM dans certaines bases militaires dès 1984. En 1988, il en généralisa l’usage avec le lancement de son Total Quality Management Master Plan, présenté ainsi :

Le management de la qualité totale (TQM) au ministère de la Défense est une stratégie pour améliorer constamment les performances à tous les niveaux, et dans tous les domaines de responsabilité. Il combine des techniques fondamentales de management, des efforts actuels d’amélioration, et des outils techniques spécialisés dans le cadre d’une structure disciplinée tournée vers l’amélioration continue de tous les processus. […] Accroître la satisfaction des usagers est l’objectif primordial. Cet « effort TQM » s’appuie sur le travail pionnier entrepris par le Dr W.E. Deming, le Dr J.H. Juran, et d’autres, et bénéficie des expériences d’amélioration continue des processus menées à la fois dans les secteurs privé et public.

Face aux coupes claires dans son budget et à l’accroissement des coûts des programmes militaires, son secrétaire Frank Carlucci note avait déjà pris des mesures de rationalisation de son administration, et relevé les exigences des cahiers des charges avec ses fournisseurs industriels. Le TQM a servi d’étiquette pour les regrouper toutes dans le cadre d’une stratégie apparemment cohérente, structurée autour de certaines idées directrices telles que l’« amélioration continue des processus », la « démarche participative » ou la « satisfaction du client » (ce qui, en matière militaire, a tout de même du piquant).

Inaugurée par le Républicain Reagan, poursuivie par son successeur Bush, cette politique de réforme de l’administration publique semble avoir survécu à l’alternance. Sous la présidence démocrate de Clinton, elle reçut l’étiquette de New Public Management (NPM). Sans réifier ces labels fourre-tout, dont le contenu varie évidemment en traversant les frontières spatiales et sectorielles note, ils peuvent néanmoins être appréhendés comme les marqueurs d’un changement paradigmatique dans la façon de conduire les organisations sociales, dont l’État.

Le credo d’une qualité indéfinie

Depuis les années 1920, la « qualité » a été construite par des statisticiens et des ingénieurs, puis par des consultants et des experts, comme un objet de connaissance, un outil de management et un fonds de commerce (des centaines de conseillers très prisés facturaient leurs services plus de 10 000 dollars la journée). Pour autant, elle demeure indéfinie au double sens du terme : qualifiée de « totale », aucune limite ne lui est assignée, et elle ne reçoit aucune définition précise. C’est d’ailleurs cet ésotérisme qui lui permet d’être tout-terrain et promue par des « gourous » dont les voix ne s’accordent pas toujours sans toutefois être dissonantes note. Mais on ne peut pas se contenter de cette plasticité. Qu’est-ce donc que la qualité ?

Aux yeux de Shewhart, la qualité d’un produit peut être appréciée à l’aune de spécifications techniques consignées dans un cahier des charges. Mais ces caractéristiques sont la traduction par l’ingénieur des besoins et des attentes du client. Sont jugés de bonne qualité les produits conformes aux spécifications. Il y a donc deux facettes de la qualité : l’une subjective, l’autre objective. Définir la qualité consiste à traduire les besoins futurs du consommateur en caractéristiques mesurables, de sorte à concevoir et fabriquer un produit satisfaisant à un prix acceptable note. Juran condense ces deux facettes en un slogan : Fitness for use, que l’on peut traduire par « aptitude à l’emploi ». Selon lui, elle inclut les deux significations dominantes de la qualité, à savoir : « 1) La qualité réside dans les caractéristiques du produit qui satisfont les besoins des clients et, ce faisant, procure une satisfaction produit. 2) La qualité consiste en l’absence d’imperfections note. »

Le Total Quality Management insiste sur la nécessaire décentralisation du contrôle de la qualité : sa responsabilité échoit à l’ensemble des personnels. Elle n’est plus simplement une fonction remplie par des inspecteurs, des contremaîtres, des services de conception ou du marketing, mais un enjeu d’« amélioration continue » des processus par tous. Chaque activité dans l’entreprise est ainsi conçue comme un process, avec ses inputs et ses outputs, ses coûts et ses bénéfices, ses objectifs et ses résultats. Quelle que soit sa nature, il s’agit toujours de produire un bien ou un service destiné à un client (interne ou externe à l’organisation). C’est donc ce dernier qui est tenu pour le juge en dernière instance, l’ultime évaluateur, celui dont le choix souverain se porte sur l’offre la plus compétitive, c’est-à-dire celle qui satisfait sa demande à moindre coût. Faire de la qualité, c’est répondre aux besoins du consommateur tout en proposant mieux que le concurrent. Se tourner vers le client ne suffit donc pas : il faut également savoir ce qui se fait de mieux ailleurs pour être à la hauteur de ses attentes.

La qualité est ici forgée comme un moyen de rendre omniprésente la figure exigeante et souveraine du client. Cette définition légère, délestée de toute technicité, indexée sur une nécessité exogène, rend possible la circulation de la qualité des usines aux universités en passant par le Pentagone. Mais, une fois adoptée, elle commande la mise en branle d’une lourde machinerie métrologique pour lui donner substance et équiper son management. Matérialisée dans des indicateurs et des cibles de performance, la demande impérative du consommateur — de voitures, de biens éducatifs ou de services régaliens — n’est plus lointaine, sur un marché extérieur ou fictif, mais tangible et pressante au sein même des processus organisationnels qui, tous, sont sommés de la satisfaire. L’objectivité de la « qualité » ne vise pas tant à exprimer la subjectivité des clients qu’à équiper un mode de coordination ni purement économique par le marché ni purement administratif par la hiérarchie, mais gouvernemental par un pilotage à distance.

La qualité apparaît donc comme une interface entre les producteurs et les consommateurs, l’offre et la demande. Une médiation qui n’a rien d’évident, non pas que l’entre-deux soit infranchissable, mais au sens où elle implique un lourd travail, notamment statistique, de mise en relation. Le management de la qualité fait ainsi intervenir de nombreuses opérations intellectuelles et matérielles ; elle convoque une grande hétérogénéité d’acteurs dont elle prétend orienter et coordonner les actions ; elle équipe une façon de conduire l’organisation pour qu’elle rencontre le marché ; elle semble détrôner les figures du patron, du contremaître et de l’inspecteur, pour couronner le hasard souverain, le « client-roi » ou l’« actionnaire tout-puissant », avec pour effet de dépersonnaliser les rapports de pouvoir en les médiatisant par des nombres.

Comme l’exprime le P-DG Kearns dans la citation que nous avons citée en exergue, ce dispositif de management enrôle les personnels de l’entreprise dans une « course sans ligne d’arrivée ». La course est sans fin, car la ligne d’arrivée est fuyante. L’objectif visé se dérobe en permanence car il consiste précisément en une « mission d’amélioration continue de la qualité », en un effort sans relâche pour faire mieux, en une tension constante pour être le meilleur. Poser la qualité comme un but à atteindre au moyen du benchmarking, qui consiste précisément à repérer les « meilleures pratiques » et à calculer des différentiels de performance, c’est objectiver un écart que l’opération même de sa réduction reproduit in (dé) finiment. Le benchmarking exerce ainsi une « discipline indéfinie note ». Il accomplit chez Xerox le devenir-Sisyphe de toute politique de la « qualité totale » :

Xerox commença à réaliser que le « voyage de la qualité totale » revenait à pousser une brouette pleine de pierres au sommet d’une colline. Si l’entreprise cessait de pousser, elle ne progresserait plus et finirait par redescendre au pied de la colline sous l’effet de la pesanteur note.

DANTOTSU, OU COMMENT ÊTRE LE MEILLEUR DES MEILLEURS

« Dantotsu est un mot japonais qui renvoie à l’effort pour être le “meilleur des meilleurs”.

Nous, les Américains, n’avons pas un tel mot, peut-être parce que nous présumons toujours que nous sommes les meilleurs. Xerox a découvert que nous ne pouvons plus partir de ce postulat note. »

Gary Jacobson et John Hillkirk, journalistes, 1986

L’un des fleurons états-uniens du management de la qualité était l’entreprise Xerox qui, contrairement à ce que l’on croit souvent, ne vend pas des photocopieurs, mais des photocopies, laissant ses machines en leasing dans les organisations. Alors que, au milieu des années 1950, on comptait aux États-Unis 20 millions de copies par an, on atteignait 9,5 milliards en 1965 et 2,5 milliards par jour en 1985, soit 10 par habitant. Xerox, qui était parvenue à rester le plus gros acteur du marché, était donc non seulement devenue une firme gigantesque, mais surtout, par l’intermédiaire de ses machines, se trouvait implantée au cœur névralgique de la plupart des organisations états-uniennes, publiques comme privées. En son sein, elle développa le souci de la qualité à son paroxysme et alla jusqu’à en faire son cheval de bataille : Xerox, the quality company, tel était son slogan dans les années 1980. Mais elle ne se contenta pas de gérer ses propres employés par la qualité. Elle eut l’idée, diaboliquement géniale, de proposer à ceux qui lui louaient des machines de leur vendre en sus des techniques de management. Xerox se mit alors à vendre de la qualité, non seulement celle de ses produits, mais aussi celle de sa structure. Elle ne se contentait pas de dupliquer des pages, mais aussi toute l’organisation qui allait autour. Au grand palmarès de la globalisation uniformisante (et capitaliste), Xerox mériterait assurément au moins une nomination.

Or c’est en son sein que la qualité managériale a pris le tournant, d’abord imprévu, du benchmarking. Nous avons donc décidé d’aller y voir de plus près. Pour qui veut accéder aux archives de la firme, il faut d’abord décrocher le sésame, sous forme d’autorisation officielle. Et c’est tout sauf une formalité — car les multinationales, prudentes, n’apprécient pas trop que l’on farfouille dans leur passé. Après avoir montré patte blanche et signé les engagements de confidentialité soigneusement préparés par les avocats de la firme, il faut se rendre à Webster, riante bourgade confinée au nord de l’État de New York, dans la banlieue de Rochester, le berceau de l’entreprise. Sa devise : « Là où la vie vaut d’être vécue » (Where life is worth living). Là, on découvre, au milieu des champs, derrière des barrières et des enclos grillagés, un entrepôt, non chauffé, mal éclairé, où circulent quelques chariots de manutention. Au fond à droite, une plaque mentionnant Xerox Historical Archives signale notre lieu de destination : une pièce sans fenêtre, gardée par une charmante — mais très seule — jeune femme, qui passe ses journées entre les rayonnages où sont stockés les copieurs muséifiés, une vitrine qui expose de vieilles photos, trophées ou mugs publicitaires, et des centaines de boîtes regorgeant de documents.

La rationalisation du benchmarking chez Xerox

En mettant le nez dans les cartons de Xerox, on découvre que le benchmarking a fait l’objet d’une abondante documentation. Loin d’être spontanée, sa propagation a été décidée, équipée, programmée. Les documents archivés révèlent une volonté, non pas d’ajustement aux spécificités industrielles de Xerox, mais bien d’universalisation. Ils sont notamment caractérisés par deux traits discursifs — atopie et achronie — qui contribuent à construire le benchmarking comme une technologie valable en tout temps, en tout lieu, internationalisable et généralisable à toutes les organisations. Ils contiennent peu de références au type d’organisation, au secteur d’activité ou aux produits de cette société multinationale. Leur objet est de construire un modèle de management transposable dans toutes ses filiales et divisions. Ils prennent la forme de récits atemporels, qui lissent les évolutions à l’image d’un progrès continu, unidirectionnel et univoque.

On trouve deux types de documents, correspondant à la double facette du benchmarking, à la fois « outil de preuve » et « outil de gouvernement note » : les uns, dispatchés dans toutes les unités, sont plutôt descriptifs et comparatifs, apportant des preuves supposées objectives à l’appui des décisions prises (management by facts) ; les autres, centralisés et coordonnés, sont d’ordre normatif et prescriptif, servant à gouverner les pratiques d’étalonnage.

Lorsque cette technologie prit forme au tournant des années 1980, Xerox s’était engagée dans une stratégie de contre-attaque face aux entreprises japonaises qui avaient déjà commencé à lui prendre d’importantes parts de marché. C’est en 1979 que l’expression competitive benchmarking semble avoir été utilisée pour la première fois au sein de la firme, dans le cadre de son groupe Manufacturing Operations (MO), à propos d’une étude comparative des coûts de fabrication unitaires engagée au Japon. À partir de là, l’expression se répandit comme une traînée de poudre.

Dans son laboratoire d’analyse compétitive situé sur le site industriel de Webster, le MO avait rassemblé une soixantaine de copieurs produits par la concurrence. On y démontait chaque appareil afin d’en étudier les caractéristiques, les composants et les performances. Le reverse engineering est une pratique courante et ancienne dans le monde industriel, mais ici, le but était bien plus ambitieux : il ne s’agissait pas seulement de copier les produits concurrents, mais de fixer et surtout de justifier, par comparaison, les cibles à atteindre.

Les business plans traditionnels établissaient déjà des objectifs chiffrés, mais on les définissait jusque-là en interne, selon des procédures classiques de prévision budgétaire. La logique consistait à partir de résultats passés afin de les projeter dans le futur. Lorsque des données relatives aux concurrents étaient utilisées, c’était le plus souvent pour prouver que les résultats « maison » étaient bons. L’expérience de competitive benchmarking procédait d’une tout autre démarche. On diagnostiquait où en était alors la concurrence et on se projetait à cinq ans afin d’estimer l’écart qu’il faudrait combler, ceci aussi bien en termes de coûts d’une fonction donnée exprimés en pourcentage des recettes que de frais généraux de personnel, de taux d’erreur de facturation ou de temps de réponse des services…

Le benchmarking en train de naître permettait de repérer les meilleurs scores, de calculer des différentiels et de fixer des objectifs qui permettraient de rattraper les leaders. Il matérialisait la concurrence en donnant à voir les performances enregistrées ailleurs et en les rendant tangibles sous forme de modèles et de cibles. Des tableaux (scoreboards) permettaient de les mettre en regard des résultats affichés par Xerox. Le but était ainsi de faire (ré) agir les cadres en suscitant une motivation élémentaire : « Ne pas vouloir faire moins bien que le voisin » — en anglais, keeping up with the Joneses.

Cette expérience de benchmarking conduite au niveau opérationnel des activités de fabrication fit rapidement des émules, au point de devenir en 1983 un mot d’ordre officiel de la direction. Dans un Livre vert exposant la nouvelle stratégie de l’entreprise, le benchmarking fut alors présenté comme un processus standard d’évaluation du succès de Xerox dans la satisfaction des demandes du client. On exigeait que chaque unité atteigne et maintienne une performance supérieure à celle du meilleur concurrent — ou du moins la parité — en termes de qualité, de coût ou de rapidité d’exécution. Pour ce faire, des benchmarks étaient établis pour chaque fonction majeure de l’entreprise. Il incombait à chaque unité de collecter les données nécessaires à l’analyse compétitive, de les actualiser, de projeter les niveaux futurs de la concurrence, et de prendre les mesures nécessaires pour réaliser et maintenir une supériorité compétitive.

Le recours effectif au benchmarking était reconnu et récompensé. Son usage n’avait rien d’obligatoire, mais les managers qui ne l’utilisaient pas s’exposaient à des reproches de la direction. En dix ans, leur nombre fut ainsi multiplié par dix-sept : quatorze « éléments de performance » faisaient l’objet d’un benchmarking en 1984 contre deux cents trente-sept en 1993.

En janvier 1984, Xerox publia une brochure : Competitive Benchmarking. What It Is and What It Can Do For You. Plusieurs fois réédité en interne, ce « petit livre rouge » (car telle était la couleur de sa couverture) était une sorte de mode d’emploi du benchmarking rédigé par le service « Qualité » (Xerox Corporate Quality Office) à destination de tous les employés. Les cadres initiés à la nouvelle doctrine — les managers of benchmarking competency — furent regroupés dans un réseau ad hoc — le competitive benchmarking network — chargé de porter la bonne parole dans chaque division de la firme.

Charles F. Christ, le rédempteur de Xerox. Un homme joua un rôle particulier dans cette histoire. La légende note raconte que, par un dimanche après-midi de novembre 1979, Charlie Christ, qui était alors vice-président du MO, aurait eu le choc de sa vie en découvrant, dans les pages de son New York Times, une annonce publicitaire pour un copieur Canon vendu à un prix inférieur au coût de fabrication d’un modèle comparable chez Xerox.

Christ décida de dépêcher sur-le-champ des missionnaires au Japon afin de percer à jour les secrets de la concurrence. Sur place, les ingénieurs états-uniens observèrent que leurs concurrents fabriquaient leurs produits deux fois plus vite, pour un coût deux fois moindre. Un ratio jugé tout particulièrement parlant fut mis en avant : à Xerox, pour un ouvrier assemblant directement les machines, on comptait deux employés occupant une fonction en support, contre un pour un au Japon.

En 1981, Christ adressa un « plan de survie » aux dirigeants du groupe. Il y présentait la « menace japonaise » comme le défi numéro un de la décennie 1980. Jusque-là, les gains de productivité (8 % par an) enregistrés entre 1975 et 1980, à la suite de la suppression de 2 500 emplois dans les usines nord-américaines (20 % des effectifs), étaient jugés satisfaisants par l’état-major de Xerox, qui se contentait d’extrapoler les évolutions passées pour projeter les objectifs à atteindre dans le futur. Le benchmarking mené par Christ jetait une tout autre lumière sur cette situation : en maintenant ce rythme et en projetant les progrès des concurrents japonais, Xerox aurait cumulé en cinq ans un désavantage compétitif de 21 %. Pour combler l’écart d’ici 1985, il fallait viser des gains annuels de 18 % sur le coût unitaire de fabrication. Christ déclina cet objectif en une liste de ratios et de niveaux étalonnés sur les performances des Japonais. Xerox n’était plus seul dans une course contre la montre, mais rivalisait avec beaucoup d’autres. Pour tenir la distance, il fallait en permanence les avoir à l’œil. Xerox devait se mesurer à ses concurrents, et le benchmarking en était le moyen.

Christ convainquit l’équipe dirigeante de lui confier une étude comparative avec des référents extérieurs, y compris hors des États-Unis. En 1983, il dressa un rapport d’évaluation positif qui valida la démarche et amorça un nouveau cycle de benchmarking. Il articula cet exercice sur une participation des employés à un travail de prospective, à travers la création des Xerox Horizon Teams. Il impliqua également les syndicats dans l’analyse comparative des produits, en faisant participer leurs représentants aux voyages d’étude et aux visites de sites. Mais le benchmarking en train de s’établir ne se contentait pas d’enrôler de plus en plus d’acteurs, de haut en bas de la hiérarchie. Il multipliait aussi les éléments servant à la comparaison. Au-delà des spécifications techniques des produits concurrents ou des performances comptables obtenues par les entreprises rivales, le regard des benchmarkers se déplaçait vers les processus non seulement opérationnels, mais aussi — et peut-être surtout — fonctionnels. Ils ne s’intéressaient plus simplement aux méthodes de fabrication, mais à tous les procédés organisationnels, employés par exemple pour contrôler les stocks ou prendre les commandes. Du reverse engineering au competitive benchmarking, des concurrents états-uniens aux challengers japonais, des produits aux processes, plusieurs glissements avaient eu lieu. Mais ce n’étaient pas les derniers.

Robert C. Camp et le culte des « meilleures pratiques ». « Bob » — comme il préfère se faire appeler — rejoignit Xerox en 1972. C’est à ce personnage que la littérature de management attribue en général l’« invention » du benchmarking. Même si, comme nous venons de le voir, cette paternité doit être relativisée, il faut tout de même lui rendre les honneurs qui lui sont dus. Nous avons profité de notre voyage aux États-Unis pour recueillir son témoignage. Voilà ce que nous avons pu apprendre au cours d’une série d’entretiens qu’il nous a accordés entre une conférence au Chili et une croisière en Bourgogne — son premier voyage en France, l’un des rares pays qu’il n’avait pas sillonnés en tant que « VRP » du benchmarking.

Après avoir suivi des études en ingénierie civile, travaillé chez Mobil Oil et Du Pont, Bob soutint une thèse en business administration. Ce cursus lui permit d’acquérir les compétences analytiques et techniques, la méthode scientifique, bref les prérequis indispensables à ses yeux du benchmarking. Ses premières expériences professionnelles l’amenèrent à se spécialiser dans le management logistique, dont il aimait la dimension quantifiable (on peut aisément mesurer, compter les éléments gérés), et dans la recherche opérationnelle tournée vers l’aide à la décision grâce au raisonnement probabiliste, à l’analyse des données et à la modélisation des processus.

Chez Xerox, Camp devint manager au sein de différents départements du groupe Logistics & Distribution (L&D) : il fut successivement en charge de la planification, des stocks, du transport et des consommables. En janvier 1981, son vice-président expliqua en réunion que les services de fabrication expérimentaient « quelque chose appelé benchmarking » et qu’il souhaitait en savoir plus. Il désigna Bob pour découvrir de quoi il retournait et lui accorda plusieurs mois pour se rendre dans le groupe MO, comprendre ce qu’il faisait, expérimenter à son tour et rendre compte de ses résultats.

Alors qu’il recherchait des entreprises avec lesquelles se comparer, Robert Camp tomba sur un article publié dans la revue Modern Materials Handling. On y présentait un système inédit, semi-automatisé, de traitement des commandes. Camp venait de dénicher un benchmark aussi performant qu’inattendu : non pas chez Canon ou Ricoh, ses concurrents directs, mais dans un tout autre secteur, chez « L.L. Bean », un vendeur par correspondance de vêtements et équipements de loisir en VPC. Il se rendit dans le Maine pour visiter l’entrepôt de L.L. Bean et constata que le retrait et l’emballage des produits y étaient 3,5 fois plus rapides que les opérations correspondantes pour les pièces de rechange chez Xerox.

Peu importe le secteur d’activité des organisations considérées, le benchmarking devait consister à rechercher les « meilleures pratiques » pour un process donné, sans exclusive a priori. Cette extension du domaine de la comparaison, qui revenait, aussi fantaisiste que cela parût de prime abord, à comparer des pommes avec des poires, emporta la conviction de ses supérieurs. Camp poursuivit sur sa lancée, analysant les opérations de l’American Hospital Supply Corp., qui, comme Xerox, bien que dans un tout autre secteur, avait à gérer des pièces de petite taille à faire circuler rapidement à travers tout le pays. Caterpillar lui servit de benchmark s’agissant de la distribution des machines elles-mêmes. Pour le service « Clients », c’est American Express qui servit de modèle. Et ainsi de suite pour toutes les unités. Dorénavant, le champ d’investigation dessiné par le benchmarking n’avait plus de barrière ni d’extériorité : on pouvait braconner, en quelque sorte, hors de son marché. Le terrain de compétition devenait sans frontières, ni géographiques ni sectorielles.

Par ce geste d’arraisonnement des « meilleures pratiques » où qu’elles se trouvent, Camp décloisonnait le benchmarking, qui n’était plus, au sens strict, « concurrentiel », c’est-à-dire limité à l’évaluation comparative d’entreprises en concurrence directe dans un même secteur d’activité. Dans l’optique de Camp, c’est désormais partout qu’il faut rechercher ses partenaires de benchmarking, c’est-à-dire des organisations présentant au moins un process comparable au sien, susceptibles de faire mieux que soi et disposées à échanger des informations.

Dès lors que la base du raisonnement est le process, et non plus le produit final, il devient possible de sortir d’une logique de pure concurrence économique (lutte pour conquérir des parts de marché). Camp reconnaît qu’un processus de stockage ou de facturation n’a pas à proprement parler de concurrent. Aussi précise-t-il qu’il entend le terme competitor au sens large ; en français, il privilégierait sans doute le terme « compétiteur », qui évoque le registre de la compétition scolaire ou sportive, voire du concours. « Émule » pourrait également convenir dans la mesure où le benchmarking se pratique entre « partenaires » censés partager des expériences et échanger des informations (two-way sharing process) dans un climat de « confiance ». À l’expression en vigueur chez Xerox, competitive benchmarking, Camp préfère donc celle de non-competitive [ou] noncompetitor benchmarking. Il forge également d’autres expressions, telles que best practice benchmarking, functional [ou] generic benchmarking. En multipliant les qualificatifs, il veut démonétiser le competitive benchmarking au profit d’une démarche plus large.

En 1982, Camp fut nommé manager of benchmarking competency dans le groupe L&D. Il ne réalisait pas lui-même les études de benchmarking, mais il était la « personne-ressource » qui encadrait les projets d’évaluation comparative, constituait les équipes et en conseillait les membres. En outre, il collaborait avec la direction « Qualité » et ses homologues dans les autres groupes pour construire une méthodologie harmonisée.

La démarche du benchmarking se veut « disciplinée » et « rigoureuse ». Camp l’a structurée à l’image d’une enquête scientifique : recherche bibliographique, état de l’art, collecte de données, élaboration de questionnaires, conduite d’entretiens, constitution de panels, visite de sites, consultation d’experts, choix d’une métrique, calculs d’écart, etc. C’est cette approche méthodique, progressive, incrémentale — d’une part pour sélectionner les organisations avec qui se comparer et pour rendre commensurables les données recueillies, d’autre part pour prendre contact avec elles et examiner leurs pratiques — qui différencie le benchmarking des formes antérieures d’analyse compétitive. C’est par la quantification de la « qualité » qu’elle est supposée restaurer la compétitivité. Le benchmarking sert à prendre des mesures au double sens du terme : après avoir évalué des grandeurs, il fixe des cibles et un plan d’action pour les atteindre. Camp l’exprime en ces termes :

On ne peut améliorer que les choses que l’on peut mesurer. Si on ne peut pas les mesurer, comment savoir comment les améliorer ? Et si l’on veut être compétitif, il faut se mesurer au monde extérieur note.

À la fin des années 1980, Camp fut chargé d’un programme de formation (Xerox Benchmarking for Quality Workshop Training Program), destiné aux employés dans un premier temps, puis élargi aux entreprises clientes. Les sessions d’une journée et demie consistaient à apprendre aux managers ce qu’était le benchmarking, comment le mettre en pratique, choisir ses partenaires et collecter une information pertinente. Face aux demandes d’information écrites, Camp entreprit de rassembler tous les supports de formation dans un document unique, sur lequel il travailla pendant son temps libre en 1987-1988. Le manuscrit gagna en ampleur, jusqu’à former un livre qu’il intitula : Benchmarking. The Search for Industry Best Practices that Lead to Superior Performance. Il ne s’agissait pas d’un récit autobiographique, mais d’une sorte de manuel écrit de façon impersonnelle. Camp ne s’y met pas en scène. S’il fait peu référence à des personnalités nommément désignées, c’est par souci d’abstraction, de naturalisation. Il veut y présenter le benchmarking comme une technique tout terrain, sans feu ni lieu, détachée des contingences de Xerox et prétendant à l’universalité.

Camp avait estimé que si chaque librairie spécialisée en achetait un, il écoulerait 3 000 exemplaires. En cinq ans, il en vendit 50 000. Cet engouement ne s’explique ni par l’efficacité redoutable du benchmarking, qui l’aurait rendu incontournable, ni par le talent littéraire de son auteur, ni même par un pur effet de mode managérial. Cet ouvrage, publié en 1989, bénéficia en fait de la formidable publicité du prix Baldrige — l’équivalent états-unien du prix Deming — décerné à Xerox la même année. D’où l’énorme succès de librairie, qui se confirma par la suite avec sa traduction en quatorze langues.

L’intérêt suscité par le best-seller de Camp se traduisit par de multiples sollicitations, notamment de la part des clients de Xerox qui souhaitaient l’inviter à tenir des conférences, à animer des formations ou à donner des conseils. Y répondre nécessitait de beaucoup voyager, y compris à l’étranger, autant de déplacements peu conciliables avec son activité professionnelle normale. Or ses supérieurs étaient en désaccord sur la marge de manœuvre à lui laisser : les « gens de la vente » souhaitaient qu’il se consacre à la promotion du benchmarking, mais « les opérationnels avaient d’autres priorités note ». La décennie 1990 vit en effet l’émergence d’autres méthodes — comme le business process reengineering, dont nous relaterons l’implantation dans la police new-yorkaise — auxquelles les dirigeants de Xerox eurent recours. Le benchmarking fut par conséquent quelque peu délaissé. C’est pourquoi Camp décida en 1995 de quitter Xerox, après vingt-trois ans de maison, pour « se faire le champion » du benchmarking à travers le monde.

Acte de baptême. Si, dans la littérature managériale, Camp est systématiquement mentionné comme le « père du benchmarking », nous venons de voir que ce casting limité occultait d’autres protagonistes. Dans les archives, les auteurs des documents relatifs au benchmarking sont des services plus que des personnes. La mise au point de cette technique apparaît ainsi comme une entreprise collective. Dans le récit oral de Camp, il y a un « nous » favorable à une définition large du benchmarking tourné vers les « meilleures pratiques », et un « eux » focalisé sur le « benchmarking concurrentiel ». Autrement dit, il y a un travail de coconstruction antagonique de cette méthode. Il n’y a donc ni invention ni inventeur au sens courant de ces termes. Camp n’a pas « trouvé » le benchmarking, il ne l’a bien évidemment pas créé ex nihilo.

De même que le management de la « qualité totale » est souvent présenté comme un modèle importé du Japon, le benchmarking est souvent associé à une devise nippone : dantotsu, « s’efforcer d’être le meilleur ». Il n’y a pas un rapport de traduction littérale entre ces deux termes, mais se pose la question de savoir dans quelle mesure l’esprit dantotsu renvoie à une pratique qui pourrait avoir préfiguré celle du benchmarking. Quand on demande à Camp si les méthodes japonaises ont été une source d’inspiration, il admet que Xerox a « importé » certaines techniques de production comme, par exemple, le système kanban d’approvisionnement en flux tendu, mais insiste sur le fait que le benchmarking s’en distingue. C’est une technique de management, une méthode pour dénicher les « meilleures pratiques » de production et d’organisation. Dans ce cas, le sens de circulation est inversé : ce sont les Japonais, par l’intermédiaire de Fuji Xerox, qui auraient emprunté le procédé à Xerox.

Formaliser ce qui était informel, baptiser ce qui restait innommé : telles sont les opérations qui autorisent Camp à dénier aux Japonais l’invention du benchmarking. Certes, ni Camp ni Xerox n’ont forgé le mot-valise benchmarking, mais ils en ont cristallisé une définition reprise dans tous les documents internes, puis dans les publications externes :

Nous le définissons comme le processus continu de comparaison de nos produits, services et pratiques avec nos concurrents les plus rudes ou avec les entreprises reconnues comme les leaders.

Si Xerox a établi une procédure de benchmarking rationalisée en cinq phases (voir figure 3, p. 42) et subdivisée en dix étapes, la firme ne l’a pas pour autant brevetée. Le nom lui-même n’est pas protégé : il ne donne lieu à aucune marque déposée ou droit d’auteur. Ni brevet donc ni copyright. Pourquoi ? Parce que Xerox ne souhaitait pas dans un premier temps divulguer cette pratique, mais surtout parce que le mot appartient au domaine public.

Il faut s’y résoudre : le benchmarking ne bénéficie pas d’une appellation d’origine contrôlée. Impossible d’identifier qui, pour la première fois, a employé ce terme dans le contexte de l’entreprise, ni de vérifier la conformité de ses usages à certaines règles définitoires. En revanche, on a pu déterminer quand et comment il est devenu le dénominatif d’une technique managériale, laquelle a fait l’objet d’efforts de rationalisation et de normalisation. Ce sont ces efforts qui ont donné consistance à une catégorie suffisamment distinctive pour faire sens et se diffuser.

La dissémination hors de Xerox

1989 est une année charnière dans la carrière du benchmarking. C’est cette année-là que Xerox devient lauréat du prix Baldrige, que Camp publie son livre fondateur et qu’une commission chargée d’étudier la perte de productivité de l’industrie états-unienne lui donne ses lettres de noblesse. Les seize membres de cette commission pluridisciplinaire, tous éminents professeurs au Massachusetts Institute of Technology (MIT) note, avaient dirigé huit équipes de recherche qui, pendant deux ans, avaient enquêté dans huit secteurs d’activité, visité deux cents entreprises et cent cinquante usines, mené cinq cents interviews, aux États-Unis, au Japon et en Europe. Cette vaste étude déboucha sur un ouvrage de référence, paru en 1989 : Made in America. Regaining the Productivity Edge. Ses résultats et recommandations furent présentés au Sénat et largement médiatisés. Ils mettaient l’accent sur le « benchmarking compétitif » :

Un certain nombre d’entreprises ont commencé à reconnaître le besoin d’explorer le monde entier pour y trouver les meilleures pratiques et transférer les nouvelles idées et méthodes par-delà les frontières. Le concept de « benchmarking compétitif » est aujourd’hui largement accepté dans les entreprises américaines. Chez Xerox par exemple, on attend de chaque département qu’il conduise une enquête globale pour trouver l’entreprise ou l’unité organisationnelle qui remplit le mieux sa fonction. C’est ce niveau de performance qui devient alors l’objectif à atteindre pour l’unité de Xerox note.

Par la suite, c’est le travail d’un certain nombre d’entrepreneurs de benchmarking qui œuvrèrent activement à en disséminer les usages. Au premier rang de ces entrepreneurs figure bien évidemment Camp. Après avoir quitté Xerox, il devint consultant et créa le Best Practice Institute™, présenté comme un institut international de recherche, de formation et de conseil, membre du Global Benchmarking Network (GBN) dont Camp fut le premier président en 1994. Il publia en 1995 un autre livre sur le business process benchmarking note, puis, en 1998, un ouvrage collectif de six cent quarante pages présentant une trentaine d’études de cas dans l’industrie des produits et des services, mais aussi dans les secteurs associatif, gouvernemental et éducatif note. Il écrivit de nombreux articles dans des revues professionnelles note, contribua à des manuels note, répondit à de multiples interviews dans la presse internationale, intervint sans relâche dans des conférences à travers le monde. Il participa également au développement de logiciels et de didacticiels, à l’élaboration de supports pédagogiques, à des ateliers d’« apprentissage en ligne » (e-learning), à la création de plates-formes d’échange d’informations. Bref, la promotion de cet outil de gestion devint son activité principale et se révéla rémunératrice en biens à la fois matériels et symboliques.

Mais Bob ne fut pas le seul à investir cette niche juteuse. Dès juin 1988, le cabinet Kaiser Associates, alors consultant pour AT&T, rassembla diverses études de cas dans un « guide pratique » pour faire du benchmarking sa spécialité note. D’autres anciens cadres de Xerox se lancèrent aussi dans le business du benchmarking. Michael Spendolini créa un cabinet de consultants (MJS Associates) et publia The Benchmarking Book note. Quant à Gregory Watson et Mark Czarnecki, qui participèrent, avec Camp, à la fondation de l’International Benchmarking Clearinghouse, ils devinrent respectivement vice-président de Xerox Quality Solutions et fondateur du Benchmarking Network tout en publiant des ouvrages sur le sujet note. Mohamed Zairi lança une revue scientifique sur le sujet, d’abord intitulée Benchmarking for Quality Management and Technology, puis rebaptisée en 1999 Benchmarking : An International Journal note. Comme ni le nom ni le procédé ne sont protégés par le droit de la propriété intellectuelle, les définitions et les méthodes (à cinq, huit, dix, onze ou quinze étapes) ont pullulé tout au long de la décennie 1990.

Toutes ces entreprises concomitantes de rationalisation favorisèrent la propagation de la technologie du benchmarking dans tous les pays et toutes les sphères d’action sociale, notamment dans les services publics. Les domaines de l’éducation et de la santé furent parmi les premiers concernés note. Déjà en son temps, le management scientifique, associé au nom de Taylor, prétendait « faire de l’organisation industrielle, et en particulier de l’organisation de la production, un modèle au xxe siècle pour les pratiques d’autres sortes, administratives, culturelles, sinon politiques, médicales, scientifiques, etc. note ». Il nous reste à discerner comment et sous quelle forme le « management de la qualité », équipé du benchmarking, s’est faufilé dans les appareils d’État.

BENCHMARKS : DES CHIFFRES POUR CONVAINCRE, DES CIBLES POUR GOUVERNER

« Progresser de façon constructive sur le front de la compétitivité exige des actions à tous les niveaux — de la part des entreprises et des gouvernements, des industriels, des décideurs politiques et des leaders d’opinion. Mais une action crédible, produisant des résultats visibles, exige des données fiables, une définition rigoureuse des objectifs, un processus qui mobilisera les efforts et concentrera les énergies, un intérêt systématique pour les meilleures pratiques. C’est cela qu’offre le benchmarking note. »

Antonio Borges, doyen de l’Institut européen d’administration des affaires (Insead), 1996

Le benchmarking, ça produit des benchmarks, c’est-à-dire des cibles, des objectifs à atteindre qui ne sont pas fixés dans l’absolu, en fonction des diktats d’un patron exigeant, mais relativement à ce qui se fait de mieux dans le monde. La force du benchmark ne réside donc pas tant dans la poigne d’un chef ou dans la scientificité d’un pourcentage que dans la performance qu’il met en relief. Aux sceptiques et aux incrédules, il oppose la preuve d’un meilleur résultat enregistré ailleurs. Les faits sont têtus, les chiffres parlent d’eux-mêmes : ils résistent aux contestations et introduisent de l’indiscutable dans les négociations. En cela, les benchmarks sont de puissants leviers de gouvernement qui servent à emporter la conviction pour faire faire sans user de la contrainte physique ou de l’obligation légale. Ils sont censés orienter les conduites vers un but en jouant sur l’émulation, l’incitation, le défi compétitif. La pratique du benchmarking semble ainsi permettre de surmonter la crise des bureaucraties, qu’elles soient d’entreprise ou d’État. Elle œuvre à légitimer des décisions dont la normativité ne relève ni du droit ni de la hiérarchie, mais de données probantes. Chez Xerox, on parlait d’un « management par les faits » (management by facts). Mais ce souci de la démonstration ne fait a priori pas bon ménage avec la raison d’État, ni même avec l’électeur souverain. Comment le benchmarking — avec tout son barda d’indicateurs de performance, de mesures statistiques, d’objectifs quantifiés, de « bonnes pratiques » — s’est-il fait accepter dans la sphère des politiques publiques ?

« Réinventer le gouvernement »

Réinventer le gouvernement. Ou comment insuffler l’esprit entrepreneurial dans le secteur public : tel est le titre du livre d’Osborne et Gaebler note. Rappelons que ces auteurs en appelaient rien moins qu’à une « perestroïka américaine » dont les mots d’ordre seraient : incitation, décentralisation, responsabilisation, mise en concurrence, gestion par projet, obligation de résultats, satisfaction du client, etc. On retrouve ainsi sous leur plume un certain nombre de concepts et d’outils qui traduisent, à l’intention des décideurs publics, les principes du « management de la qualité » entre autres expérimentés chez Xerox. Leur cible est la gabegie bureaucratique entretenue, selon eux, par deux défauts caractéristiques de l’administration de type wébérien : pour ceux qui travaillent, la hiérarchie et la soumission aux règles de fonctionnement rendraient impossible tout accomplissement, tout épanouissement personnel ; pour ceux qui y sont confrontés comme usagers ou clients, elle serait parfaitement inefficace, lente et trop chère.

Certes, il ne suffit pas d’un livre pour « réinventer le gouvernement ». Cependant, cet ouvrage a participé, avec d’autres acteurs, techniques et programmes, d’un ensemble de conditions qui rendirent cette « réinvention » de plus en plus acceptable, possible, voire incontournable.

Le goût de la distinction publique. Au cours des années 1980, aux États-Unis, ces « entrepreneurs de qualité » firent valoir le rôle des autorités publiques dans le « miracle économique » japonais. Outre le contrôle statistique des processus et l’attitude des dirigeants industriels, l’amélioration de la qualité des produits s’expliquait également par une politique volontariste du gouvernement note. À l’ère Reagan, il peut paraître paradoxal que des chefs d’entreprise et des consultants aient recommandé une intervention étatique, mais celle-ci se bornait dans leur esprit à des formes d’action incitatives.

En 1985, Malcolm Baldrige, alors secrétaire du Commerce, mandata un groupe d’industriels pour travailler à l’organisation pratique d’un programme national de promotion de la « qualité », dont étaient supposées découler une augmentation de la productivité, une baisse des coûts et une hausse importante des profits. Il leur confia entre autres la tâche de déterminer les critères d’attribution d’un prix qui serait la clé de voûte de ce dispositif.

Une telle initiative n’avait rien d’évident à l’époque, ni de prioritaire, et fut d’ailleurs accueillie plutôt froidement. En 1986, un premier projet de loi fut enterré, notamment parce qu’il incluait le gouvernement fédéral lui-même parmi les organisations ciblées par le programme. L’année suivante, l’idée de confier au National Bureau of Standards (renommé National Institute of Standards and Technology en 1988) la gestion du prix, cette fois confinée au monde des affaires, avait fait son chemin et rallié un certain nombre de membres du Congrès, alors majoritairement démocrates. Cette agence du ministère au Commerce avait à leurs yeux l’avantage d’être sans doute la moins politisée de tous les services de l’administration note. Mais ce fut surtout le décès accidentel de Baldrige qui débloqua la situation note : la loi dite d’« amélioration de la qualité nationale » fut immédiatement votée par acclamation, puis ratifiée par le président Reagan en 1987.

Dans son discours, le président déclara avoir créé le prix Malcolm Baldrige pour renforcer le « bien-être de l’économie nationale » et sa « capacité à être compétitive » en distinguant publiquement des entreprises modèles. S’il lui donna le nom de son défunt secrétaire au Commerce et ami personnel, c’était pour rendre hommage dans un même geste à l’homme d’affaires et à l’homme d’État note qui, à ces deux titres, « pratiquait le type de management promu par cette récompense : une attention étroite aux besoins du client et une importance toute particulière accordée à la qualité des produits et services livrés note ». Avec sa double casquette, Baldrige incarnait une certaine conformité entre gestion privée et administration publique, qui justifiait l’extension du domaine d’application de ce programme au-delà du monde industriel.

Matérialisé par une médaille portant l’inscription Malcolm Baldrige National Quality Award — The Quest for Excellence, le prix est remis par le président des États-Unis ou le secrétaire au Commerce à l’occasion d’une cérémonie rassemblant élites politiques et économiques. D’après les termes de la loi, « le prix doit être décerné seulement aux organisations qui ont considérablement amélioré la qualité de leurs produits et/ou services, et qui ont effectivement fait la preuve d’un management de la qualité en y impliquant et en formant les personnels à tous les niveaux note ». Un jury ad hoc procède à l’examen des dossiers de candidature, ainsi qu’à une visite sur site, pour évaluer les pratiques d’organisation au regard des critères retenus, lesquels comportent notamment l’usage effectif du benchmarking.

En 1988, les trois premiers prix furent remis à deux entreprises industrielles (catégorie B, Manufacturing companies), Motorola et Westinghouse Electric, ainsi qu’à une PME (catégorie A, Small businesses). À partir de 1990, et tous les deux ans, des entreprises de prestation de services furent récompensées (catégorie C, Companies which primarily provide services). En 1998, le Congrès vota l’ajout des catégories D (Health care providers) et E (Education providers). Une sixième fut créée en 2004 et baptisée Nonprofit, ce qui ouvre un vaste champ de lauréats possibles. Les deux premiers furent, en 2007, la ville de Coral Springs et le Centre de recherche, de développement et d’ingénierie d’armement de l’armée des États-Unis (U.S. Army Armament Research, Development and Engineering Center). Le contraste est frappant entre ces deux récipiendaires : l’une s’affiche comme une « communauté d’excellence » où il fait bon vivre, travailler et élever ses enfants ; l’autre comme un « centre de létalité ». Mais, dans les deux cas, ils visent l’« amélioration de la qualité » de ce qu’ils produisent (environnement de vie ou systèmes de munitions) et la « satisfaction de leurs clients » (administrés ou soldats).

Le programme Baldrige participe ainsi d’une institutionnalisation du « management de la qualité » comme mode d’organisation susceptible de s’implanter partout. Il contribue à documenter, à formaliser, à codifier, à normaliser une façon de gouverner les activités humaines, dont le benchmarking est un des leviers. Inspiré du prix Deming créé au Japon trente-six ans plus tôt, il a fait des émules outre-Atlantique, où la Fondation européenne pour le management de la qualité (European Foundation for Quality Management) a inauguré en 1992 son propre « prix d’excellence ». Au sein même des États-Unis, il a été reproduit au niveau local et par trente-cinq États. À l’échelon fédéral, il a été complété dès 1988 par une récompense destinée aux agences du pouvoir exécutif. L’objectif était de décerner un « prix présidentiel pour la qualité » (President’s Quality Award) qui reconnaisse les performances dans l’administration publique suivant les mêmes critères que le référentiel Baldrige.

« Ce qui est bon pour Xerox est bon pour l’école. » Outre les incitations produites par un dispositif honorifique, tel que le programme Baldrige, des acteurs clés ont pu jouer en des points stratégiques un rôle décisif pour favoriser la diffusion du benchmarking dans le secteur public. Prenons l’exemple de David T. Kearns, le P-DG de Xerox au moment où cette entreprise reçut le prix en 1989. Cette année-là, il fit la une du Financial World comme « homme de l’année » et présida le « Mois de la qualité nationale » (National Quality Month). Dans une interview parue dans le magazine de l’ASQC note, il expliqua avoir accepté cet honneur pour partager les leçons que Xerox avait tirées de son expérience en matière de « management de la qualité ». Ayant bénéficié des échanges d’informations et de « bonnes pratiques » avec ses partenaires de benchmarking, ainsi qu’avec les autres candidats et lauréats du prix Baldrige, il entendait à son tour prêcher la bonne parole et convertir non seulement ses pairs mais, plus généralement, toutes les personnes responsables d’une organisation quelle qu’elle fût. Il se fit ainsi connaître comme l’un des plus fervents promoteurs du « management de la qualité totale » aux États-Unis.

Qui est ce missionnaire de la « qualité totale » ? Né en 1930 dans l’État de New York, Kearns rejoignit la Navy après une licence en administration des affaires obtenue à l’université de Rochester en 1952. Deux ans plus tard, il fut recruté par IBM où il devint vice-président du département « Informatique ». En 1971, il entra chez Xerox avec l’ambition d’en prendre les rênes. Ce fut chose faite dès 1977 : il fut catapulté directeur de l’exploitation (chief operating officer) ; en 1982, il devint directeur général (chief executive officer) et président (chairman) en 1985. Il appartint également aux conseils d’administration de Time Inc., Chase Manhattan Corp., Junior Achievement et de l’université de Rochester ; il fut membre de la Business Roundtable, du Council on Foreign Relations, de la Commission trilatérale et du Business Council. En 1986, le président Reagan le plaça à la tête de la President’s Commission on Executive Exchange, qui administre un programme d’échanges entre cadres du secteur privé et du gouvernement fédéral.

En 1990, il quitta son fauteuil de P-DG de Xerox pour être nommé dans la foulée secrétaire adjoint de l’Éducation par le président Bush. Sa stature de sauveur de Xerox ainsi que l’ouvrage programmatique — Winning the Brain Race. A Bold Plan to Make Our Schools Competitive note — qu’il avait publié dès 1988 semblent l’avoir désigné comme homme de la situation, dans un contexte où ce secrétariat était discrédité par diverses affaires et polémiques note. Lorsque Bush fit appel à ses services, Kearns accepta cette charge pourtant de second rang. On pourrait expliquer ce dévouement en paraphrasant la célèbre formule de Charles Wilson, P-DG de General Motors nommé secrétaire à la Défense par le président Eisenhower en 1953 : « Ce qui est bon pour les États-Unis est bon pour Xerox et vice versa. » Dans cette optique, le destin d’une communauté politique est lié à celui de ses entreprises, si bien que les capitaines d’industrie sont tout à fait légitimes pour participer au gouvernement étatique. Ils en auraient même le devoir.

Partant du constat que la montée en puissance du Japon, et donc de ses firmes, reposait en grande partie sur le niveau d’instruction de sa population, Kearns en déduisait que « l’avenir de Xerox et l’avenir de l’industrie américaine dépendaient d’une augmentation de l’offre de personnes qualifiées note ». C’est pourquoi, dans la continuité de sa mission jugée accomplie chez Xerox, il partit en croisade pour réformer le système scolaire de son pays. Dans les deux cas, il s’agissait de développer le management de la qualité en vue de conforter la compétitivité. Kearns préconisait un mode opératoire consistant à faire jouer les normes managériales contre l’autonomie professionnelle, à exercer une pression exogène en faisant intervenir les concurrents et les clients à satisfaire. Kearns proposait tout simplement d’appliquer à l’école ce qui avait marché chez Xerox sous la forme d’un « plan audacieux pour rendre les écoles compétitives dans la course mondiale des cerveaux ».

Pour ce faire, Kearns accepta la présidence d’une société privée à but non lucratif, la New American Schools Development Corporation (NASDC), qui fut créée en 1991 par des chefs d’entreprise. À l’écart du monde « officiel » de l’éducation, elle procéda à une mise en compétition de projets de réforme éducative, montés localement par des équipes mêlant pédagogues et managers, pour financer leur mise en œuvre et identifier ceux qui serviraient d’étalon national. Son activité a été au cœur de l’initiative de l’administration Bush America 2000. Une fois les Démocrates revenus aux affaires, cette stratégie fut poursuivie sous le nom Goals 2000 : Educate America.

Dans son dernier ouvrage, paru en 2000 et coécrit avec le consultant James Harvey note, Kearns avance notamment l’idée de sous-traiter la gestion des écoles à des opérateurs privés, responsables de la « qualité » et de la « compétitivité » de leur établissement, donc libres d’adopter les programmes scolaires et de recruter les enseignants de leur choix, mais soumis à un contrôle de leurs performances par des fonctionnaires publics. Une idée pleine d’avenir…

Malade, Kearns prit sa retraite hors de Washington, tout en restant membre du conseil d’administration, ainsi que de ceux de la Fondation Ford et de l’université de Rochester. Plus que le patron du renouveau de Xerox, il reste dans les mémoires comme le « champion de la réforme de l’Éducation note ».

Benchmarking versus reengineering. Le management « à la Kearns », chez Xerox comme au ministère de l’Éducation, représente l’archétype prôné par Osborne et Gaebler pour rénover l’action publique. De même, lorsque William J. Bratton fut nommé en 1994 chef de la police new-yorkaise par le maire Giuliani, il entreprit un ensemble de réformes qui inscrivirent son administration dans le « mouvement de Reinventing Governement note ». Mais, outre le benchmarking et l’échange des bonnes pratiques, Bratton inaugura un « plan ambitieux de reengineering » directement inspiré par le best-seller de Hammer et Champy note qui, à sa façon, n’a pas été étranger au développement sans précédent du régime de benchmarking.

Au moins trois effets organisationnels majeurs sont attendus du reegineering. D’une part, les salariés sont supposés s’impliquer personnellement dans leur travail bien davantage que par le passé. Ils ne doivent plus se contenter de respecter scrupuleusement les consignes du supérieur ou du bureau des méthodes, mais sont incités à libérer leur imagination, à ouvrir leur champ des possibles. Ils sont censés profiter ainsi d’un sentiment d’accomplissement au travail sans précédent.

D’autre part, cette responsabilisation des salariés permet de réduire les coûts de gestion, puisqu’ils se contrôlent eux-mêmes bien plus efficacement que n’importe quel système de surveillance. Une conséquence de cet autocontrôle est qu’il faut bien admettre quelques irrégularités, mais elles restent acceptables tant qu’elles ne coûtent pas plus cher que ce que la suppression du contrôle a permis d’économiser. Par ailleurs, la rémunération n’est plus calculée, comme par le passé, en fonction du grade et du nombre d’heures travaillées, mais en fonction des résultats pour l’organisation. Bien sûr, cela demande d’établir de nouvelles mesures de la performance, quantifiées si possible, afin d’éviter l’arbitraire.

Enfin, la reconfiguration d’ensemble de l’entreprise à laquelle aboutit le reengineering se solde par la suppression de nombreuses tâches jugées inutiles ou inefficaces. D’où des vagues de licenciements massifs perçues comme des adaptations à un environnement concurrentiel où le changement permanent est nécessaire à la survie. Telle est la rançon de la responsabilité et de l’autonomie nouvelles concédées aux personnels : une cure d’amaigrissement organisationnel dans l’esprit du lean management, en plus radical.

Contre le couple poussiéreux de la règle et de l’obéissance, le reengineering s’appuie sur l’innovation et la responsabilisation, lesquelles passent par un système d’évaluation des performances et par une diminution importante du nombre d’échelons dans l’organisation. En cela, le reengineering rejoint le benchmarking, sans toutefois reproduire le même modus operandi. Tandis que le benchmarking consiste à comparer les processus productifs d’industries très différentes et débouche sur des objectifs quantitatifs, les partisans du reengineering insistent pour leur part sur l’inventivité des équipes en place et semblent plus circonspects à l’égard des cibles chiffrées. Mais, au fond, ce sont les similitudes qui l’emportent et il semble souvent difficile de démêler leurs usages tant leur application donne lieu à des procédés hybrides.

Quoi qu’en disent leurs promoteurs, soucieux de différencier des techniques en concurrence sur le marché des outils de management, benchmarking et reengineering partagent un même credo : le culte de la « qualité totale » comme gage de compétitivité ; la croyance que cette dernière résulte des efforts de tous dans l’organisation et ne saurait être contrôlée par un groupe spécifique d’employés ; la pratique d’une quantification de cette qualité pour permettre son « amélioration continue » par des innovations constantes à tous les niveaux. Ce sont ces préceptes qui furent importés dans les administrations publiques, non seulement aux États-Unis, mais dans tous les pays membres de l’OCDE, notamment ceux de l’Union européenne.

« Cap sur l’entreprise Europe note »

Depuis sa création après guerre, l’OCDE s’est toujours évertuée à collecter des données sur ses pays membres — les plus riches et industrialisés du monde — en vue de produire des statistiques comparables à l’appui de ses recommandations. Ne bénéficiant d’aucune compétence supranationale, encore moins d’une légitimité démocratique, sa seule source de pouvoir réside dans les informations inédites qu’elle publie sous forme d’études économiques, de panoramas statistiques, de rapports prospectifs. Celles-ci lui confèrent un certain ascendant sur les gouvernants dans la mesure où leur publicité et leur transparence engendrent une pression exercée à la fois par le « public » (médias, lobbies, syndicats, électeurs) et par les pairs. Ces publications, qui chiffrent et donnent à voir les résultats nationaux dans la plupart des domaines d’action publique, servent en effet de support à des « examens mutuels » et à une « surveillance multilatérale », qui constituent les deux modes détournés par lesquels l’OCDE peut agir sur les États, leur faire faire ce qu’elle préconise. Bref, cette organisation internationale met à la disposition de ses membres tous les ingrédients nécessaires à la pratique du benchmarking.

Toutefois, ce n’est que dans les années 1990 qu’elle a entrepris de promouvoir le benchmarking en tant que tel comme pièce maîtresse d’une « nouvelle gestion publique ». En 1994, une étude « hors-série » est publiée sous le titre : « La gestion des performances dans l’administration : mesure des performances et gestion axée sur les résultats ». Le benchmarking y est présenté comme l’opérateur d’une « révolution culturelle » faisant passer les agents d’État « d’une culture d’application des règles à une culture de la performance ». Afin de propager une telle révolution, jugée souhaitable, le réseau sur la gestion des performances (Performance Management Network) créé au sein du service PUMA (PUblic MAnagement) remet, en 1996, un rapport sur les activités de benchmarking dans le secteur public qui valorise un certain nombre de « bonnes pratiques » en la matière.

La même année et dans le même esprit, la Commission européenne et la Table ronde des industriels européens (ERT) note co-organisent un séminaire sur le thème : « Le benchmarking pour les décideurs politiques. Vers la compétitivité, la croissance et la création d’emplois note ». Préparé par deux directions générales (DG) de la Commission — Industrie et Affaires économiques et financières — en collaboration avec le groupe de travail « Compétitivité » de l’ERT, cet événement a été placé sous la présidence d’Antonio Borges, alors doyen de l’Insead. Par sa carrière dans la banque, le conseil et la haute administration internationale, il incarne une passerelle entre l’Europe et les États-Unis, le public et le privé. Le 21 mars 1996 ont ainsi été réunis à Bruxelles plus de quatre-vingts représentants des États membres, des institutions communautaires et du monde des affaires. Avant tout destiné aux responsables publics, ce séminaire a accueilli des chefs d’entreprise afin qu’ils témoignent de leur expérience en matière de benchmarking. Sir David Simon — P-DG de British Petroleum, vice-président de l’ERT et membre du Groupe consultatif sur la compétitivité auprès de la Commission — y a exposé l’intérêt de ce procédé en des termes qui n’en limitent pas l’usage aux multinationales, mais en font une technique utile à toute organisation.

Dans le cas d’une entreprise complexe comme BP, le benchmarking est utilisé pour évaluer les performances à tous les niveaux d’activité, tout au long de la chaîne de production, depuis les coûts de recherche et de développement de nouveaux gisements de gaz et de pétrole jusqu’au rendement financier global pour les actionnaires. Dans chaque cas, le benchmarking n’est pas qu’une mesure de la performance accomplie, mais aussi un guide qui aide les managers et le personnel à établir les cibles futures et les incitations pour les atteindre note.

L’enjeu de cette rencontre à la frontière des secteurs public et privé est de familiariser les gouvernants nationaux avec le benchmarking. Dans un contexte où les discours sur la compétitivité sont devenus « obsessionnels note » parmi les dirigeants publics, notamment aux États-Unis et en Europe, il s’agit de leur donner les moyens d’assouvir leur obsession. Vous voulez être compétitifs, voici comment faire : benchmarker ! Un extrait des actes du séminaire résume parfaitement la logique développée. Seize ans après, elle n’a d’ailleurs rien perdu de son actualité. D’où l’intérêt d’en citer un long passage :

Nous vivons dans un monde sans attache. Les entreprises fabriquent leurs produits là où c’est le mieux pour elles, et peuvent changer de localisation à tout moment. […] Les grandes entreprises [européennes] se comparent depuis longtemps aux géants des États-Unis ou du Japon. On peut faire beaucoup sur la base des données publiées. […] À mesure que la concurrence mondiale s’intensifie, les petites et moyennes entreprises sont également prises dans le filet. […] L’énigme concerne les administrations publiques, vers qui l’attention se tourne maintenant. Bien sûr, la compétitivité d’une nation n’est pas la même chose que la compétitivité d’une seule entreprise. Les pays ne peuvent pas fermer boutique du jour au lendemain — mais ils peuvent entrer en déclin s’ils sortent de la compétition. […]

Alors, le benchmarking peut-il les aider ? Oui.

Pour commencer, il peut mettre en évidence les réalisations positives de pays très différents […]. Les gouvernements doivent reconnaître aujourd’hui que tous les systèmes économiques et sociaux dans le monde sont en concurrence pour attirer les entreprises mobiles. Les facteurs de production sont mobiles, innovants et tournés vers le monde, si bien que les pays se trouvent en concurrence pour les attirer. Les investisseurs benchmarkeront certainement l’attractivité relative des différents lieux d’implantation de leurs projets […] et les gouvernements qui ne font pas de même ne peuvent qu’être perdants.

Le benchmarking peut aussi aider les gouvernements à justifier les inévitables choix difficiles en affermissant leur résolution note.

Outre la compétitivité, l’autre idée-force qui sert de pivot à l’argumentation en faveur du recours au benchmarking par les gouvernements nationaux est sa prétendue neutralité quant à l’élaboration des politiques publiques.

Le benchmarking repère le « meilleur de la classe », tire des leçons de son expérience, et puis s’efforce de faire aussi bien, sinon mieux. […] L’avantage politique du benchmarking en matière d’action publique est qu’il permet aux gouvernements de travailler ensemble à une conception commune de ce qu’il faut faire — et puis de décider chacun de la voie à suivre. En ce sens, le benchmarking est neutre quant aux politiques publiques adoptées note.

L’année suivante, la Commission européenne en remet une couche. Dans une communication intitulée « Benchmarking : mise en œuvre d’un instrument destiné aux acteurs économiques et aux autorités publiques note », elle encourage à nouveau les gouvernements nationaux à utiliser cette technique managériale pour administrer efficacement leur population et leur territoire. De plus, un « groupe de haut niveau sur le benchmarking » est créé par la DG Industrie. Dans un rapport remis en 1999, un étalonnage systématique des « conditions-cadres » de l’activité économique, et non plus seulement des politiques industrielles, est conseillé en vue d’aider les États membres à les rendre plus attractives aux yeux des investisseurs et des travailleurs qualifiés note. Potentiellement, c’est donc tout l’« environnement » social, juridique, culturel et administratif des entreprises qui devient la cible du benchmarking. Autrement dit, que ce soit la qualité des transports publics, le nombre de diplômés en science, le niveau du salaire minimum ou le régime fiscal, plus rien n’y échappe. Si bien que Jacques Santer, alors président de la Commission, a pu s’exclamer : « We are all benchmarkers now note ! » Il ne croyait pas alors si bien dire…

Au printemps 2000, c’est l’ensemble des chefs d’État et de gouvernement des pays membres de l’UE qui adopte le benchmarking comme technique de coordination intergouvernementale. À l’occasion d’un sommet extraordinaire tenu à Lisbonne au printemps 2000, ils en font l’outil principal pour « devenir l’économie de la connaissance la plus compétitive et la plus dynamique du monde note ». La méthode est clairement énoncée dans les conclusions de ce Conseil européen. Elle compte quatre étapes, qui ne sont pas sans rappeler les quatre phases de la démarche suivie par Xerox puis vulgarisée par Camp (Planning, Analysis, Integration, Action) :

— définir des lignes directrices pour l’Union, assorties de calendriers spécifiques pour réaliser les objectifs à court, moyen et long terme fixés par les États membres ;

— établir, le cas échéant, des indicateurs quantitatifs et qualitatifs et des critères d’évaluation par rapport aux meilleures performances mondiales, qui soient adaptés aux besoins des différents États membres et des divers secteurs, de manière à pouvoir comparer les meilleures pratiques ;

— traduire ces lignes directrices européennes en politiques nationales et régionales en fixant des objectifs spécifiques et en adoptant des mesures qui tiennent compte des diversités nationales et régionales ;

— procéder périodiquement à un suivi, une évaluation et un examen par les pairs, ce qui permettra à chacun d’en tirer des enseignements note.

Il s’agit par-là de « diffuser les meilleures pratiques » et d’« aider les États membres à développer progressivement leurs propres politiques ». On retrouve ainsi tout à fait l’esprit du benchmarking tel qu’il a été pensé et pratiqué dans le monde des entreprises privées. Comment ce type de procédé managérial s’immisce-t-il dans les cénacles de la diplomatie internationale ? Non pas par l’évidence de son efficacité universelle, mais par les efforts conjugués de groupes de pression et de cabinets de consultants qui trouvent une audience attentive au sein de la Commission et de la présidence portugaise du Conseil européen. L’une comme l’autre ont en effet besoin d’instruments apparemment plus souples, moins contraignants que le droit pour amener les États souverains à collaborer sur de nouveaux terrains sensibles, comme ceux de la protection sociale ou de l’éducation.

À l’instar de l’OCDE, l’UE ne s’est pas contentée de nouer des « partenariats de benchmarking » entre ses membres. Elle les a incités à reproduire ce mode d’organisation au sein même de leur administration publique. La propagation s’est faite non seulement par écrit, à travers les recommandations émises à chacun, mais aussi par le fait, dans les comités chargés de convenir de statistiques comparables et de benchmarks ou dans les bureaux ministériels tenus par l’obligation de reporting, de pratiquer une certaine évaluation comparative. Dans le cas français, la pleine entrée en vigueur de la LOLF en 2006, suivie du lancement en 2007 de la RGPP, a institutionnalisé une transformation rampante des processus décisionnels et de la fabrique des politiques publiques sur le modèle entrepreneurial du management par objectifs. Ni de droite ni de gauche, cette métamorphose des modalités de l’agir étatique n’a rien de conjoncturel ou de transitoire, sans pour autant être définitive. Elle s’est déployée sur plusieurs décennies dans la plupart des secteurs, aussi bien privés que publics, et se révèle d’autant plus difficile à saisir qu’elle se décline en cascade à tous les niveaux organisationnels. Comprendre ses manifestations en France, dans les services publics, nécessitait ainsi d’avoir une vue d’ensemble de la portée du phénomène benchmarking. C’est chose faite.

Nous voici parvenus au terme de notre généalogie du benchmarking, qui nous a conduits des laboratoires Bell au Conseil européen en passant par les annales du prix Deming au Japon et les archives de Xerox. La piste a été sinueuse, et pour cause, il n’y a pas de héros ni de grand moment de la découverte qui aurait rendu l’histoire plus linéaire. C’est par une série de déplacements, de prises en main, de malentendus, d’appropriations, d’hybridations que s’est formée cette technologie de gouvernement. Aussi célèbre que soit le benchmarking aujourd’hui, son pedigree n’a pourtant rien de pur. Il tient davantage du bâtard. De son histoire quelque peu embrouillée, on peut néanmoins tirer plusieurs enseignements avant de s’attaquer aux terrains de la police, de l’hôpital et de l’école.

Le benchmarking a été forgé dans les entreprises privées ; on remarquera le rôle capital de la photocopie et — en arrière-plan sans que nous y ayons insisté, mais le lecteur l’aura peut-être noté — des industries d’armement. Après un détour par le Japon, c’est aux États-Unis qu’il a été rationalisé. Jusque-là, point de surprise. Plus étonnant en revanche, le fait qu’il ait été conçu comme une arme antibureaucratique supposée libérer les agents des liens hiérarchiques pour leur rendre des marges d’initiative.

Ce qui nous amène à l’autre point saillant : le recours à une quantification incessante de toutes les activités, à tous les échelons, dans un but de « qualité totale » et de « compétitivité internationale ». Deux impératifs qui permettent de plier les agents à une « discipline indéfinie », bien plus perverse que les consignes du contremaître ou que la dure loi du pouvoir souverain. Au lieu de nous soumettre à des ordres ou à des règles, le benchmarking parvient ainsi à orienter notre engagement dans l’action, à gouverner ce que l’on a tendance à croire de plus personnel : nos initiatives.

3. TERRAINS D’EXPÉRIMENTATION ET DE LUTTE

Le benchmarking rassemble des éléments très divers : les instruments d’une « nouvelle quantification publique », des théories managériales ou encore des outils juridiques. Ils se sont liés peu à peu et sans grand organisateur. Reste à savoir comment ce réseau a affecté l’Europe et, plus précisément, l’administration publique française.

Nous avons exploré trois terrains : la police, l’hôpital et l’université.

La police nationale, en tant qu’elle relève du domaine régalien, est un cas passionnant à étudier car elle est devenue le lieu d’une tension inédite entre deux régimes de normes, le droit et le management. C’est notamment la police de proximité, dont l’efficacité a été souvent questionnée, qui a offert un point d’entrée au benchmarking. On cherchera à appréhender comment celui-ci s’est déplacé au sein de cette institution coercitive et en quoi il a modifié les pratiques de ses agents et, ce faisant, la nature des relations entretenues avec la population.

Avec l’hôpital, c’est à une autre facette de l’État que s’est attaqué le benchmarking. Contre les règles d’administration d’un service public, il a fait prévaloir des principes gestionnaires souvent jugés incompatibles avec une valeur aussi cardinale que la santé. On s’efforcera de saisir cette antinomie tout en discernant comment les promoteurs du benchmarking s’y sont pris pour la surmonter.

Par contraste, l’université apparaît comme une cible privilégiée du benchmarking en ce qu’elle est devenue, à l’ère du « capitalisme cognitif note », un acteur stratégique de l’« économie de la connaissance ». Son organisation ne saurait ainsi échapper au crible d’indicateurs de performance qui la soumettent à des impératifs d’attractivité et de compétitivité. Toutefois, cette logique n’a rien d’évident ni d’infaillible, comme en témoignent les mobilisations sans précédent qui ont animé l’enseignement supérieur et la recherche ces dernières années.

Dans chacun de ces trois secteurs, le benchmarking présente un visage particulier, qui s’est dessiné au gré des alliances et des résistances rencontrées au moment de son implantation. Il s’est en effet chaque fois confronté à des antagonismes, à des acteurs qui se sont opposés à lui pour des raisons spécifiques et qui lui ont, à leur tour, donné une physionomie singulière.

POLICE

La police, malgré sa centralité dans un appareil d’État classiquement défini par le « monopole de la violence légitime », a pourtant été l’une des premières administrations où le benchmarking a été implanté et développé. Cela illustre la rencontre entre les anciennes prérogatives des États nationaux et la managérialisation des bureaucraties contemporaines. Que se passe-t-il lorsqu’on organise des administrations publiques chargées d’exercer la souveraineté de l’État selon des préceptes qui ont été pensés dans un cadre privé ?

Pour répondre, nous avons commencé en 2005 une enquête de terrain sur la « politique du chiffre » au sein de la police nationale. Nous avons étudié tous les échelons de la police de sécurité publique en France, des simples gradés (l’accès aux gardiens ne nous a pas été accordé) jusqu’au préfet de police Jean-Paul Proust. Au cours de ces premières investigations, nous avons fait une découverte inattendue, celle d’une French connection dont la piste nous menait jusqu’à New York. C’est par là que nous commencerons.

Origine new-yorkaise du benchmarking en police de sécurité publique

En 1994, le candidat républicain Rudolph Giuliani fut élu maire de New York après une campagne centrée sur la « qualité de la vie » et la « lutte contre l’insécurité ». Il était ainsi la preuve vivante que le thème du crime et de la violence, dont les courbes statistiques avaient atteint des sommets inédits, pouvait, une fois érigé en préoccupation centrale de la population, devenir le vecteur d’une conquête du pouvoir politique.

Au lendemain de son élection, il nomma William Bratton à la tête du NYPD (New York City Police Department). Le nouveau police commissioner avait déjà dirigé, dans les années 1980, la police de Boston, puis, en 1990, la police du métro de New York, où il avait obtenu des résultats très remarqués. C’est sous l’autorité du binôme Giuliani-Bratton que la « politique du chiffre » fut impulsée dans la police new-yorkaise. Elle reçut un nom de baptême : « Compstat » — un dispositif d’évaluation spécifique qui reposait sur une comptabilisation très méticuleuse à la fois de la « délinquance » et de l’activité des agents.

Vitre cassée et reengineering. Compstat alliait deux innovations. La première consistait à réformer le NYPD conformément à la doctrine de Reinventing Governement : « Un élément central de la nouvelle administration était un plan ambitieux de reengineering qui fut immédiatement mis en œuvre. » Celui-ci reposait sur les préceptes de Hammer et Champy, auxquels Bratton avait adjoint « deux concepts essentiels : le benchmarking et le partage des bonnes pratiques note ».

L’autre nouveauté consistait à associer le benchmarking et la théorie de la « vitre cassée note » de George L. Kelling et James Q. Wilson, selon laquelle la police doit d’abord se soucier du sentiment d’insécurité des citoyens, et que celui-ci est principalement alimenté par la visibilité d’une série de petits désordres publics — mendicité, prostitution, ivresse publique, ventes à la sauvette, graffitis… Cette théorie veut que si l’on tolère cette « violence en miettes note », des crimes plus graves trouvent un terreau propice pour se développer. D’où l’image : il suffit d’une seule vitre cassée sur une façade pour que les habitants de la ville jugent que le quartier est mal famé, qu’ils cessent de le fréquenter ou le quittent, laissant alors le champ libre à de petits délinquants qui casseront davantage de vitres, et ainsi de suite.

De son expérience dans le métro new-yorkais, Bratton avait retenu une leçon : en sanctionnant tous les menus écarts à l’ordre, à commencer par les fraudes au titre de transport, les policiers prenaient en même temps dans leurs filets un grand nombre de suspects de crimes plus importants. Les grands délinquants étant aussi, par leur comportement quotidien, de petits délinquants, et sanctionner les vitres cassées, les petites entorses à l’ordre public, permettait par ricochet de renforcer aussi la lutte contre les crimes les plus graves.

Cette logique centrée sur la sécurité publique a une implication importante : ce sont alors les fonctionnaires au plus près du terrain, de la vie sociale, qui se mettent à orienter l’action de toute la police. L’initiative se déplace de l’autorité centrale vers ses ramifications les plus proches de la société, qui devient désormais l’instance à laquelle les forces de l’ordre doivent réagir note.

Afin de sanctionner ces simples désordres qui, auparavant, lui échappaient, un nouveau droit pénal a vu le jour, petit à petit. Non seulement le droit fut transformé — au point même que le droit civil put être utilisé à des fins pénales note —, mais également sa mise en œuvre : comme l’avoue impudemment Kelling, la police a été « délibérément menée aux limites de la légalité note ». Elle a été incitée, explique-t-il encore en utilisant une métaphore sportive, à « rogner les angles », comme le font les coureurs qui trichent pour gagner quelques mètres dans les tournants.

Cela impliquait d’inverser largement les valeurs associées à ce qu’on appelle en anglais la police discretion, c’est-à-dire la marge de manœuvre laissée au policier sur le terrain. Il ne s’agissait plus de pousser des cris d’orfraie lorsque des agents flirtaient avec les limites de la loi. La police devait au contraire être incitée à recourir à sa créativité, à son pouvoir d’initiative, ceci dans toute sa latitude note. Kelling, qui est par ailleurs associé au think tank conservateur Manhattan Institute, se fait partisan de la manière forte, quitte à empiéter sur les libertés individuelles. Ce qu’il préconise « n’a rien à voir avec de la police douce note ».

Concrètement, Bratton commença par donner davantage de pouvoir aux commandants de circonscription (precinct commanders). À mi-chemin entre les plans généraux échafaudés par les administrateurs centraux (déconnectés des contraintes locales) et les agents de patrouille sur le terrain (trop ignorants des plans généraux), leur point de vue était le plus approprié à la lutte contre les « vitres cassées ». Ce furent eux les fers de lance de sa réforme :

J’ai encouragé les commandants de circonscription à faire preuve d’initiative, et je leur ai dit que je les jugerai à leurs résultats. Je ne les ai pas pénalisés pour avoir pris des mesures qui n’avaient pas été couronnées de succès, mais je regardais d’un mauvais œil ceux qui n’en prenaient pas du tout. Les directeurs de circonscription se voyaient attribuer les succès. Ils étaient responsables des progrès, mais ils devaient rendre des comptes en cas d’échec note.

Ils obtinrent en particulier le droit d’utiliser les ressources humaines de leur commissariat comme bon leur semblait. Une demande se faisait-elle sentir en sécurité publique, ils pouvaient y affecter des fonctionnaires travaillant dans d’autres services comme le judiciaire ou le renseignement.

L’accent fut en même temps placé sur l’évaluation des commissaires. Leur activité fut quantifiée dans le plus grand détail. Les seven majors, sept catégories de crime établies depuis les années 1930 — à savoir le meurtre, le viol, le vol à main armée, l’agression aggravée, le vol simple, le cambriolage et le vol de véhicule à moteur (auxquels a été ajouté l’incendie volontaire en 1979) —, restèrent prioritaires, mais elles furent complétées par d’autres. Jack Maple, un policier du NYPD que Bratton avait rencontré pendant son expérience dans le métro et qui « était un grand collectionneur de statistiques note », leur adjoignit une multitude de nouvelles données qui concernaient non seulement les désordres urbains, mais aussi l’activité du commissariat : dénombrement des personnels, des patrouilles, des arrestations et des déferrements, des véhicules, etc. Bref, il établit peu à peu un tableau de bord qui permettait de mettre en relation, quantifiée, les ressources et les résultats du commissariat. Puis il mit au point le réseau informatique capable de les centraliser et de les éditer aisément.

Tous les deux mois, les commandants de circonscription étaient convoqués au quartier général de la police de New York, pour rendre des comptes devant Bratton et son état-major. Le mot « Compstat » désigne d’abord ces séances. Elles commençaient à 7 heures du matin. Les commandants se présentaient trois par trois avec leurs données. Ils devaient les commenter et prouver qu’ils avaient, effectivement, fait baisser les statistiques des seven majors et expliquer leur stratégie. Évidemment, le fait d’être évalués les uns devant les autres engendrait des rapports de compétition propres aux techniques de benchmarking. Les séances étaient d’une grande violence, Bratton se permettant d’humilier et de sanctionner très brutalement ceux qui n’atteignaient pas les résultats escomptés. « Les récompenses et les punitions étaient déterminées en fonction des résultats, et étaient les unes comme les autres distribuées à tour de bras : alors que plus de 75 % des commandants de circonscription avaient été remplacés au bout de dix-huit mois [sic !], on assista aussi à des promotions obtenues à une vitesse sans précédent note. »

Ces innovations s’accompagnèrent d’une baisse importante des statistiques de la criminalité. Certains arguèrent qu’il ne s’agissait là que d’un hasard et que ces succès apparents avaient en réalité d’autres déterminants. Mais il était difficile de n’y voir qu’une pure coïncidence. On parla d’un « miracle new-yorkais ». Le modèle fut imité dans de nombreuses villes états-uniennes, puis dans les polices du monde entier. En 1996, Compstat reçu le prix « Innovations dans le gouvernement américain » sponsorisé par la fondation Ford et l’École Kennedy de management public de l’université Harvard. Compstat devint même un personnage — si l’on ose dire — de la série télévisée Sur écoute (The Wire), qui met en scène d’impitoyables séances d’évaluation de commissaires à Baltimore note.

Importation en France. Lorsqu’il fut nommé préfet de police de Paris en 2001, Jean-Paul Proust, reçut un conseil de la part du Premier ministre d’alors, Lionel Jospin : qu’il aille voir ce que faisaient ses collègues à l’étranger. Le haut fonctionnaire fit un voyage à New York et en revint emballé. Convaincu par le dispositif Compstat, il décida de le rapporter dans ses bagages. Comme il nous le confiait lors d’un entretien en 2005 :

Alors, moi ce qui m’avait beaucoup intéressé dans cette expérience, c’est le fait de pouvoir, en direct, avoir un contact direct, sur le travail [des commissaires], avec un certain nombre de données qui permettent de mesurer un peu leur travail, d’avoir ce contact direct avec les commissaires, au lieu d’utiliser trop les écrans hiérarchiques, qui sont lourds dans une maison comme la préfecture de police, où forcément il y a toute une cascade hiérarchique. Comme préfet de police, j’ai considéré que ce système new-yorkais permettait au chef d’avoir une vue précise de ce qui se passe sur le terrain et de connaître tous ses commissaires note.

On entend la tonalité discrètement antibureaucratique du propos : le préfet voulait orienter sa police vers plus de management et moins d’« écrans hiérarchiques ». Il convenait certes selon lui d’adoucir les modalités du dispositif états-unien car la police de Paris ne méritait pas de « passer à la casserole », de se faire « littéralement engueuler » comme à New York, étant donné les rapports internes en vigueur dans l’administration française note. Mais Compstat, « c’est vraiment de l’évaluation de leur travail », nous expliquait-il.

Cet outil avait aussi, aux yeux de cet ancien directeur de cabinet de Jean-Pierre Chevènement, une autre vertu. L’expérience de la police de proximité lancée à la fin de la décennie 1990 par le ministre de l’Intérieur avait en effet buté sur un problème d’évaluation : son action étant avant tout tournée vers la prévention des infractions, on manquait de données pour en faire apparaître les effets. Difficile de distinguer entre le « bon agent » qui s’activait sans relâche pour nouer des contacts avec la population, et le « mauvais » qui ne faisait rien. Compstat promettait, grâce aux vertus de la comparaison chiffrée entre les secteurs, de faire apparaître dans toute son ampleur le travail d’une police de proximité injustement méprisée par la prestigieuse police judiciaire note.

C’est à partir de cette première expérience à la préfecture de police de Paris que le benchmarking s’est ensuite diffusé dans la police nationale. Nicolas Sarkozy, ministre de l’Intérieur avant de devenir président de la République, en a été lui aussi un fervent partisan. Parmi ses inventions personnelles, on trouve le « sarko-mètre », qui consistait à convoquer à son ministère les cinq directeurs de la sécurité publique ayant eu les pires résultats et les cinq ayant eu les meilleurs.

De ce point de vue, la différence entre préfet de « gauche » et président de droite réside d’abord dans le recours à la violence dans les interactions : alors que J.-P. Proust la jugeait inutile, N. Sarkozy y avait recours de façon systématique dans ses relations avec ses subordonnés, la mettant même volontiers en scène comme, par exemple, lors de la fameuse séance d’évaluation de la police de proximité de Toulouse en 2003 note. Pour le premier, la prime suffisait à inciter les commissaires à prendre des initiatives ; pour le second, la peur de l’humiliation devait redoubler la sanction positive.

Les deux se distinguent en outre par le choix des variables jugées prioritaires. La police de proximité des années 1990 était pensée comme plutôt soft (pour reprendre la dichotomie de Kelling), valorisant la prévention. La droite au pouvoir a répudié ce terme pour y préférer la conception hard de la « vitre cassée », valorisant la sanction.

Ajoutons que si les invectives présidentielles de Toulouse ont jeté l’opprobre sur la police de proximité au niveau national, il n’en a pas été de même à la préfecture de police de Paris. Compstat, qui y avait d’abord été établi au sein de la Direction de la police urbaine de proximité (DPUP), fondée par le commissaire Quéant en 2000, a de fait été maintenu (moyennant quelques modifications sur lesquelles nous reviendrons) et reconduit en 2010 sous Alain Gardère (qui a ensuite été nommé préfet délégué à la sécurité de Marseille) lorsque cette direction a été unifiée avec les directions de la sécurité publique des trois départements limitrophes et prit le nom de Direction de la sécurité de proximité de l’agglomération parisienne (DSPAP). L’appellation « proximité » a donc été conservée tout au long de cette histoire.

Photo 1. Une séance de Compstat à la préfecture de police de Paris présidée par le préfet Proust

Le préfet Jean-Paul Proust est en costume noir. À sa gauche, les commissaires en train de se faire évaluer et leurs équipes ; à sa droite, les directeurs des principales directions.

Source : Liaison, magazine de la préfecture de police de Paris, 2004.

Fonctionnement actuel

La quantification de l’activité policière est loin d’être une innovation due à Compstat. Depuis les années 1970, les plus hauts niveaux hiérarchiques utilisaient des chiffres pour la communication du ministère de l’Intérieur avec le public. Ils étaient alors régis par un « théorème » énoncé (plaisamment) par le sociologue Pierre Demonque en ces termes : « Sur une courte période, les statistiques de la délinquance varient en proportion inverse de la popularité du ministre de l’Intérieur auprès des agents chargés de collationner les données qui les fondent note. » La spécificité des quantités actuelles est qu’elles servent également à évaluer, outre la seule politique du ministre, les commissaires eux-mêmes et, par extension, les agents de tous les échelons.

Voyons comment le benchmarking de la police fonctionne aujourd’hui en France. Commençons par l’exemple archétypique de l’évaluation des commissaires, puisque c’est pour eux que la méthode a été inventée. De façon régulière, tous les deux mois pendant la période entre 2000 et 2009, puis seulement une fois par an aujourd’hui, ils sont convoqués par le préfet de police à Paris. Ils se déplacent alors à la préfecture — ou, depuis 2009, invitent le préfet de police dans leur commissariat — et présentent leurs résultats au moyen d’un diaporama qui comptait, en 2010, trente-quatre diapositives.

Les chiffres portent sur trois grands ensembles d’objets (voir figure 1, p. 31). Premièrement sur la délinquance, et en particulier sur le nombre d’atteintes aux biens (dégradations, vols, cambriolages) et aux personnes (agressions, violences, bagarres) s’étant déroulées dans leur arrondissement pendant la dernière période. Deuxièmement sur ce que les policiers appellent l’« activité », constituée elle aussi de plusieurs paramètres. En judiciaire, on utilise surtout l’élucidation, complétée par le déferrement et la garde à vue. En sécurité publique, la main courante informatisée indique, dans le plus grand détail, d’une part, les faits portés à la connaissance de la police, même s’ils n’accèdent pas à la plainte (par exemple, le cas d’une personne voulant faire inscrire un précédent sans que cela constitue une plainte formelle, comme c’est souvent le cas avec les violences intrafamiliales) et, de l’autre, l’occupation de la voie publique (patrouilles, transports sur les lieux d’infractions, visites, etc.). Enfin, le troisième grand ensemble d’informations porte sur les ressources du commissariat en personnels (combien y en a-t-il ? combien étaient disponibles pendant la période considérée ?), en matériels (combien de véhicules à deux ou quatre roues et combien disponibles ? combien de gilets pare-balles ?), etc. Ces données proviennent d’une troisième source, les services des ressources humaines des différentes forces de l’ordre.

La liste précise des variables jugées pertinentes pour l’évaluation du travail n’est cependant pas gravée dans le marbre. Il peut ainsi y avoir une négociation entre les évalués et les évaluateurs sur ce qui compte dans le travail, sur les définitions de ce qu’est un travail bien fait et sur les contraintes pesant sur les agents. Les commissaires ont par exemple obtenu du préfet de faire figurer dans les évaluations non pas le nombre de véhicules attribués à chaque commissariat, mais le nombre de véhicules en état de marche, qui lui est bien inférieur à cause des lenteurs des services de réparation de la préfecture. Ces interventions des agents évaluées restent cependant in fine largement marginales.

La haute hiérarchie établit annuellement des variables stratégiques, en fonction des priorités du moment. Par exemple, en 2005, c’était la vente à la sauvette (de bibelots souvenirs) et les vols à l’italienne (à deux sur un scooter, celui qui est derrière arrachant les sacs à main). En 2011, on parle plutôt des délits financiers sur Internet ou des vols à l’arraché de téléphones portables. Pendant la même période, le taux d’élucidation est devenu hautement stratégique, jusqu’à ce que le nouveau ministre Manuel Valls exprime en 2012 le souhait de revenir sur ses usages. De même, le nombre de gardés à vue a été prioritaire, jusqu’à ce que la publicité d’un certain nombre d’excès vers 2009 l’ait fait aussi passer au second plan. Ces modifications ont d’importants effets sur le travail actuel des forces de l’ordre, puisqu’on ne lutte pas du tout de la même façon contre les délits à la carte bleue, les ventes de souvenirs à la sauvette sur le Champ-de-Mars ou encore les vols violents.

Muni de ses chiffres, le commissaire central d’arrondissement se présente devant le préfet. Il explicite son analyse de la situation et montre qu’il est parvenu à obtenir des effets positifs sur la délinquance. Bien sûr, il peut arriver que la situation soit particulièrement difficile et que la délinquance ne baisse pas. Dans ce cas, il doit prouver qu’il a tout de même pris cette difficulté à bras-le-corps et qu’il a imaginé une réponse dont il doit pouvoir estimer qu’elle aura un effet avant la prochaine séance où il sera convoqué.

Photo 2. Le commissaire Ramon muni de son dossier d’évaluation en 2011

Deux concepts décrivent cette activité. Premièrement, la prise d’initiative désigne l’action du commissaire au moment où il invente une réponse au problème que les chiffres lui posent. A priori, l’initiative pourrait être décrite comme étant distribuée (dans la production des chiffres, leur mise en tableau, les traditions policières, les rapports hiérarchiques, etc.), c’est-à-dire inséparable de l’ensemble des éléments rassemblés par d’autres personnes dans la situation. Mais l’effet visé par ce concept est inverse : il consiste à mettre en exergue, en visibilité, l’action d’une seule et unique personne. Le commissaire se lève, il est seul face à ses statistiques, c’est lui personnellement qui en fait le commentaire, c’est à lui que les questions sont adressées. Les liens qui l’unissent à tous ceux qui ont préparé son travail sont effacés. La situation est tout entière formatée pour qu’une action puisse être attribuée à une personne, le commissaire.

Deuxièmement, l’initiative doit pouvoir être valorisée, jugée positive ou négative : c’est ce à quoi sert le concept de mise en responsabilité. On repère l’oxymore dans cette formule : d’une part, certes, les commissaires sont responsables, ce qui indique que l’initiative leur est propre. Mais, dans le même temps, ils sont passifs, ils subissent l’action de qui les met en responsabilité, autrement dit de leur supérieur qui valorise leurs initiatives. Ils sont actifs et passifs à la fois. L’action et l’évaluation se mettent ainsi à se dérouler au même moment, elles tendent à se confondre.

Mais si le passage des faits aux valeurs est un problème philosophique abyssal, dans ce régime d’action il est simple comme la différence entre le vert et le rouge. En effet, chaque série de chiffres est commentée en marge par une petite flèche caractérisant la variation des données (croissante, décroissante ou stable) et chacune de ces flèches est simplement colorée — en rouge ou en vert — selon que la variation est jugée positive ou négative par la haute hiérarchie administrative. Pourtant, la coloration demande un important travail en amont, comme nous le rappelle l’exemple, présenté dans le chapitre 1, du désaccord entre police et gendarmerie concernant l’interprétation du taux de sanctions pour conduite en état d’ivresse. La valeur des variations est établie par la haute hiérarchie, qui se réserve ainsi ce droit d’orienter et de juger l’activité de son administration.

Pour motiver les agents à s’engager dans le benchmarking, deux outils, très classiques en management d’entreprise, ont été développés dans la police : les objectifs chiffrés et les primes.

Les objectifs chiffrés des forces de l’ordre pour l’année sont établis par une directive du ministre de l’Intérieur. Elle n’est pas rendue publique parce que, nous explique en 2011 le commissaire Monard, spécialiste « Police » au cabinet du ministre Claude Guéant, cela pourrait nuire à leur efficacité (en bonne stratégie, on ne dévoile pas ses objectifs avant de les avoir atteints). Ce dernier a cependant accepté de nous expliquer comment ils étaient établis.

Chaque préfet les discute avec son directeur départemental de la sécurité publique, ainsi que son colonel chef de la gendarmerie. Il soumet le résultat — chiffré — de ces discussions au cabinet du ministre, lequel les centralise et établit les objectifs de chaque département. Les objectifs portent surtout sur des variables prioritaires et donc problématiques. Lorsque le cabinet « estime qu’il y a matière à porter davantage l’effort sur ce type d’infraction », il détermine un objectif ambitieux. Il s’agit alors rien moins que de « politique, au sens noble du terme », explique notre interlocuteur. Il faut tout particulièrement travailler sur les variables qui « engendrent plus d’émotion » dans la population. C’est par exemple le cas des violences dites « crapuleuses » — accompagnées d’un vol — et « non crapuleuses » — souvent dans le ménage, ou entre automobilistes — qui augmentent sans cesse. Le cabinet détermine donc en un seul mouvement les variables qui lui semblent politiquement les plus importantes et les objectifs nationaux.

Ces objectifs sont ensuite redistribués par le cabinet auprès des préfets qui, eux-mêmes, les transfèrent à leurs subordonnés jusqu’aux échelons les plus bas. Étant donné le caractère « sensible » de ces objectifs (nous y reviendrons), un commissaire central nous a expliqué qu’il demandait à ses subordonnés de ne pas les transmettre à leurs troupes par écrit, mais à l’oral, pendant l’appel, pour qu’ils ne puissent pas être communiqués à la presse.

Le zèle des agents peut être récompensé par des primes. La prime de responsabilité et de performance (PRP) qui permet aux commissaires de toucher jusqu’à 180 % de leur salaire a déjà été présentée dans le chapitre 1. Pour les gardiens, les gradés et les officiers, d’autres primes sont aussi versées depuis quelques années sous forme collective et individuelle. Elles dépendent du mérite des équipes ou des agents, du moins tel que l’évalue le commissaire qui les dirige. En pratique, il semble que les primes collectives soient principalement versées par rotation, pour que personne n’en soit exclu. Pour les primes individuelles, elles sont demandées par le commissaire. Or le montant de ces primes étant assez peu élevé pour les grades de gardiens et gradés (quelques centaines d’euros par an), elles se révèlent assez peu motivantes.

Ces outils managériaux ont enfin été accompagnés, comme aux États-Unis, de nombreuses modifications du droit, à tous les niveaux, donnant les coudées plus franches aux commissaires. Lors d’une séance d’évaluation en 2005, le préfet de police Pierre Mutz insistait en notre présence sur le fait que les commissaires ne devaient pas hésiter à demander les arrêtés dont ils estimaient avoir besoin. Dans une perspective similaire, la définition des coups et blessures volontaires a connu depuis les années 1980 une extension législative sans précédent note. Plus généralement, la loi d’orientation et de programmation pour la sécurité intérieure (LOPSI 1) de 2002 et, en 2011, la loi d’orientation et de programmation pour la performance de la sécurité intérieure (LOPPSI 2) ont toutes deux élargi de façon importante les pouvoirs de la police en matière de sécurité publique.

Pour finir, le benchmarking peut être décliné à tous les échelons hiérarchiques au moyen d’un instrument capital : le découpage géographique. À chaque échelon revient une certaine portion du territoire, dans lequel il doit faire preuve d’initiative. Les « aires d’initiative, de responsabilité et d’échange » (AIRE), qui ont été définies et utilisées dans les années 2000 à Paris — à raison de cinq ou six par arrondissement — pour y fidéliser des patrouilles à pied, portent un nom particulièrement éloquent. Ces AIRE étaient agrégées par circonscription (un arrondissement dans Paris, à peu près une commune en petite ceinture), par secteur réunissant plusieurs circonscriptions, puis par département. Depuis sa création en 2010, la DSPAP regroupe Paris et les arrondissements de la petite ceinture. Chaque élément de ces découpages est placé sous l’autorité d’un responsable qui doit faire la preuve de ses performances locales, de façon à ce que son supérieur hiérarchique puisse demander les résultats de tous ceux dont il est responsable et, à son tour, rendre des comptes à son supérieur. Grâce aux découpages territoriaux, le benchmarking policier peut prétendre remonter tous les niveaux de la hiérarchie, depuis la base jusqu’au sommet.

La culture du résultat a contribué à opérer un grand retournement des sources de l’action policière. Alors que nous étions habitués à penser qu’elle constituait le bras armé de l’État, elle est aujourd’hui organisée pour réagir aux mouvements du crime et de l’insécurité, qui ne sont rien d’autre que des mouvements de la société. La gouvernementalité néolibérale décrite par Foucault est on ne peut mieux illustrée par cette évolution de la police. À travers elle, l’État gouverne depuis la société.

Les agents soumis au benchmarking vivent une situation d’évaluation constante, une course à la performance entre collègues, mais aussi une variation permanente des priorités, des objectifs qui leur sont assignés, ainsi que des principes censés valoriser leurs actions. L’instabilité de leur situation est flagrante. Ces changements sont justifiés par le fait qu’ils correspondent à ceux de la criminalité qui, elle aussi, s’adapte toujours. Mais, très concrètement, ces transformations sont médiatisées par les représentations matérielles disponibles de la délinquance : des documents, des tableaux de bord ou des flèches colorées. Matérialisations graphiques qui sont elles-mêmes transformées par les personnes qui décident de rendre telle atteinte prioritaire, telle variation positive ou négative — ces personnes que nous avons aperçues dans le cabinet du ministre, dans celui du préfet de police de Paris, dans ces lieux de pouvoir où sont produits les nouveaux objectifs, les nouvelles priorités, les nouvelles colorations d’indicateurs. Mais ces acteurs, à la différence de leurs subordonnés, ne sont pas soumis au benchmarking. Ils siègent en bout de la table (comme le préfet Proust sur la photo) et c’est depuis cette position d’extrémité hiérarchique qu’ils décident à la fois des évaluations et de la transformation des valeurs. Pour eux, le monde reste stable.

Surrégime

Le développement du benchmarking en contexte policier a suscité de nombreuses critiques. Une partie d’entre elles fait valoir que la police n’est pas plus performante que par le passé, qu’elle reste toujours aussi procédurière et bureaucratique, bref, que ces transformations managériales sont largement illusoires rapportées à leurs promesses d’efficacité note. Cela est en partie vrai, mais que la politique du chiffre n’ait pas produit les effets annoncés ne veut pas dire qu’elle n’en a produit aucun. On pourrait même dire que ses effets propres, que les problèmes qu’elle pose tiennent au contraire à un phénomène d’excès, d’emballement, de surrégime. À force d’inciter les agents à l’initiative, il lui arrive d’en engendrer trop, jusqu’à outrepasser ce juste milieu qui, selon une longue tradition remontant jusqu’à Aristote, caractérise l’activité de l’homme prudent note.

Pression psychologique. Les agents du secteur privé se plaignent depuis longtemps de la pression de l’évaluation quantitative. Le sociologue Alain Ehrenberg en a analysé les effets : lorsque la norme sociale n’est plus « fondée sur la culpabilité et la discipline, mais sur la responsabilité et l’initiative note », lorsque le management demande aux agents de s’engager corps et âme dans l’organisation, mais que ceux-ci ne parviennent pas ou plus à répondre à ces attentes, la situation d’échec peut se prolonger en souffrance psychique. Dans la dépression, « l’individu est confronté à une pathologie de l’insuffisance plus qu’à une maladie de la faute, à l’univers du dysfonctionnement plus qu’à celui de la loi : le déprimé est un homme en panne note ». L’insuffisance de l’individu n’est que l’autre face d’un trop-plein de sollicitation subjective : « Chacun doit assumer la tâche de tout choisir et de tout assumer note ». Mais il y a des limites psychiques à cette capacité d’engagement : lorsqu’ils les atteignent, les individus cessent de fonctionner et s’effondrent.

« Pression » : c’est le terme qu’utilisent les syndicats de gardiens et gradés — aussi bien Alliance qu’Unité SGP — lorsqu’ils remettent en cause la politique du chiffre. C’est aussi celui qu’emploie la veuve d’un policier pour expliquer le suicide de son mari à Poitiers en 2004. C’est encore le mot choisi par une policière de Cagnes-sur-Mer dans la lettre qu’elle laissa lors de son suicide en juillet 2011. Le benchmarking met les agents sous pression, et parfois en dépression.

Prolifération des objectifs. Le psychisme n’est cependant pas le seul point de débordement de cette pratique. Le capteur statistique peut lui aussi entrer en surchauffe. Comme l’a pointé le rapport de la Cour des comptes du 30 juin 2011 intitulé L’Organisation et la gestion des forces de sécurité publique, la police connaît actuellement une phase de croissance inflationniste de ses indicateurs. En 2003, deux pages et demie permettaient de définir les trois objectifs « majeurs » des orientations stratégiques de la direction. En 2010, le détail de ces instructions nécessitait huit pages entières, qui ne déroulaient pas moins de quarante-huit actions « prioritaires ». On assiste clairement à une « multiplication des objectifs », ce qui, sous la plume des sages, est loin d’être un simple constat, mais constitue aussi une critique explicite note. Il y a trop d’objectifs : quarante-huit indicateurs ne peuvent raisonnablement pas tous être « prioritaires ».

Comment en est-on arrivé là ? Un exemple suffira à le comprendre. Pour inciter les agents à être proactifs, une des variables rendues cruciales dès 2002 est le taux d’élucidation. Or il est vite apparu que celui-ci pouvait être artificiellement manipulé. Par exemple, les infractions à la loi sur les stupéfiants sont faciles à établir. Or constater un fait de consommation ou de vente de drogue consiste ipso facto à l’élucider, puisque le contrevenant est pris sur le fait. Si vous voulez faire monter votre taux d’élucidation, il vous suffit donc de contrôler des petits dealers à tour de bras. Cela reste pratiquement sans effet sur le trafic, mais peu importe : vous avez obtenu les chiffres voulus. Il en est de même pour les infractions relatives à la législation sur les étrangers (les « sans-papiers ») dont les lieux de travail sont à peu près connus des services de police (chantiers, restauration). L’action a beau être inefficace, se focaliser sur ces catégories d’infractions permet de transformer avantageusement les statistiques.

En réaction, la hiérarchie a alors distingué deux types d’élucidations, avec, d’une part, la catégorie des infractions révélées par l’activité des services (IRAS), regroupant le trafic et l’usage de stupéfiants, le recel, le port d’arme prohibé, les infractions à la loi sur les étrangers, le travail illégal et les faux documents, c’est-à-dire les infractions pour lesquelles le taux d’élucidation est aisément contrôlable ; et, de l’autre, l’indicateur de pilotage des services (IPS), qui agrège les autres atteintes, soit les vols avec violence ou à main armée, les cambriolages, les vols à la tire, les vols de véhicule, les vols à la roulotte et les dégradations et destructions. Le taux d’élucidation a ainsi été ventilé en plusieurs variables.

La description de l’activité des agents se trouve ainsi précisée, mais son évaluation complexifiée d’autant. L’autorité évaluatrice devra en effet contrebalancer les IRAS avec les IPS, qui peuvent bien entendu varier selon des pentes opposées, ce qui ne manque pas d’engendrer des arguties et des complications. Les faits ne parlent plus d’eux-mêmes. Il n’y a plus un seul indicateur, mais plusieurs. Ce mécanisme se répète en cascade pour toutes les variables, de telle sorte que les indicateurs en trop grand nombre finissent par compliquer le gouvernement de la police au lieu de le simplifier.

Autoritarisme. Dans le privé, le benchmarking vise à produire de l’efficacité pour gagner des parts de marché. Mais la théorie du marché suppose que l’offre et la demande disposent symétriquement du pouvoir de se retirer de la transaction. Quelle que soit l’efficacité des méthodes de management utilisées par le vendeur, si un prix d’échange n’est pas atteint, l’acheteur peut toujours décider de ne pas conclure la vente. Dans le cas des services de l’État, et de la police plus que tout autre, cette symétrie n’a aucun sens. Une personne qui se fait mettre en garde à vue, contrôler, dresser un procès-verbal ne peut en aucun cas se soustraire à l’interaction. La loi prévoit des recours possibles a posteriori, mais, au moment de l’intervention, les citoyens sont en théorie forcés de se soumettre. On se trouve dans un modèle diamétralement opposé à celui de l’échange marchand.

Dans ces conditions, le benchmarking comporte un grave risque : que les policiers les plus zélés en fassent trop, qu’ils sortent du cadre prévu par la loi et commettent des abus de pouvoir. Un commissaire central d’arrondissement à Paris nous a rapporté le cas d’un gardien qui, soucieux d’atteindre ses objectifs de verbalisation, se rendit dans un parking de trois cents places et mit des PV, en l’absence des conducteurs (donc sans aucun effet de pédagogie), à tous les véhicules présentant des contrôles techniques qui n’étaient pas à jour. Un autre commissaire central raconte :

En banlieue, une fois, on leur disait qu’ils ne faisaient pas trop d’amendes. Alors ils avaient pris une avenue où les gens se stationnaient la nuit ; bon, c’était une tolérance qui datait de plusieurs années parce qu’il n’y avait pas de difficulté à la circulation ni au stationnement. Et, une nuit, ils ont aligné quarante voitures. Donc, voilà, le lendemain matin, j’avais un courrier du maire, des habitants qui se plaignaient. Et [le policier] était dans son droit effectivement puisque les gens étaient mal stationnés. Mais il y avait une tolérance là comme il peut y avoir des tolérances dans des villes de banlieue ou de province, où on sait qu’on peut stationner là la nuit si à 8 heures on est parti. Donc, là, il y avait un fonctionnaire zélé qui a verbalisé trente ou quarante voitures. Donc la population s’est plainte, le maire s’est plaint aussi. Et il a fallu recadrer les fonctionnaires, mais intelligemment parce qu’ils étaient dans leur droit note.

Ce type de comportement est directement lié à la mise en place de dispositifs d’évaluation quantitative :

Le zèle, j’en ai quand je démarre le dispositif […]. Un peu de colère, de contrariété, on rentre on dit : « Ben voilà, j’en ai ramené 100, 200. » […] J’arrive dans un arrondissement, je mets en place le système, et les chiffres explosent. C’est une réaction zélée par rapport à la mise en place d’un nouveau dispositif note.

Dans les cas rapportés ici, les fonctionnaires se livrent exactement à ce que Kelling appelait « rogner les angles ». Ils sont habiles, mais ils frôlent la limite de leur devoir d’exemplarité, de rectitude. L’incitation à l’initiative les pousse à négliger les limites imposées par le règlement. Ce phénomène de triche, les théoriciens du reengineering, rappelons-le, le prévoyaient tout en le jugeant négligeable. Ce n’est pas l’avis aujourd’hui de certains représentants du Syndicat des commissaires de la police nationale, qui, eux, identifient des conséquences graves. Le problème est que ces excès de zèle aboutissent à sanctionner toute une « zone grise » de personnes qui, auparavant, ne l’auraient pas été :

[Les effets du benchmarking] ont touché pas seulement les délinquants habituels, ça a touché toute la population. L’aspect routier, par exemple y a des gens qui se sont retrouvés en garde à vue qui n’y auraient pas été, ce qui fait qu’une partie de la population qui n’était pas délinquante est assimilée à une population délinquante classique… c’est l’inflation juridique et la politique un peu hard liée aux seuls résultats chiffrés, plus la rémunération des préfets qui est basée pour deux indicateurs sur trois là-dessus… [qui a causé tout ceci] note.

Le benchmarking, en suscitant systématiquement l’initiative, l’intervention, la performance, se met à produire du surrégime : une demande excessive d’investissement qui peut provoquer la dépression, un excès d’indicateurs qui rend la police ingouvernable, un excès de zèle qui provoque des abus d’autorité.

Ces excès sont attisés par d’incessants changements qui font que les agents n’ont pas le temps de construire une vue d’ensemble sur leur activité. Leur expérience est sans cesse battue en brèche, remise en cause, par les modifications managériales qui exigent un nouveau savoir vécu. Cela rend particulièrement difficile l’exercice de cette vieille qualité qu’est la prudence, tant est inhibée la capacité des agents à synthétiser « des vues d’ensemble et le sens du particulier note ». Le benchmarking rend l’action policière dangereusement imprudente.

Résistances

En ce sens, les personnels policiers ne sont pas les seuls à souffrir du benchmarking : les citoyens ont eux aussi des raisons de s’en plaindre et de s’en inquiéter. Les oppositions au benchmarking policier émergent pourtant d’abord de l’intérieur de l’administration, de la part des agents ou des managers eux-mêmes.

Chanstique. Au niveau individuel, la méthode la plus courante, bien que largement cachée, pour résister au benchmarking s’appelle en jargon policier la « chanstique ». Ce nom provient du verbe argotique « chanstiquer », qui signifie modifier, transformer et, dans le patois de la maison poulaga, ruser avec les chiffres note. Si vous ne voulez pas participer à la course quantitative généralisée, vous pouvez vous débrouiller pour que les chiffres courent à votre place.

Même si l’ampleur de cette pratique de manipulation reste difficile à cerner puisqu’elle est illicite, de nombreuses sources en attestent. En janvier 2011, un gendarme de Vouvray a été condamné pour avoir détruit une vingtaine de dossiers de plaintes. Pour justifier son geste, il a expliqué que, craignant de voir son taux d’élucidation baisser et d’être mal noté, il avait opté la solution radicale de jeter les plaintes à la broyeuse à papier. Ce genre de cas, strictement répréhensible, n’atteint que très rarement la pleine lumière publique. Plus fréquemment, ce sont des fonctionnaires de police excédés qui crachent le morceau dans des livres, des articles ou des entretiens. On trouve de nombreux témoignages venant de gradés, d’officiers, de commissaires, et même d’un ancien directeur de la sécurité publique de l’agglomération parisienne note.

L’art de la « chanstique » consiste la plupart du temps à jouer avec les règles de report statistiques note. Par exemple, si la période qui va être évaluée est mauvaise parce qu’on a manqué d’activité, on peut, comme nous l’avons évoqué plus haut, « faire du shiteux » comme disent les policiers, c’est-à-dire interpeller les petits dealers dont on connaît l’adresse et, plus généralement, faire augmenter très soudainement les IRAS. Autre astuce : il peut arriver qu’un fait soit constaté quelque part — par exemple à Bordeaux — mais qu’il mette en cause une personne qui vit ailleurs — par exemple à Paris. Dans ce cas, le commissariat de Paris entendra la personne mise en cause et pourra compter le fait comme élucidé. Dans la manœuvre, Paris gagnera un fait élucidé sans fait constaté, tandis que Bordeaux gardera un fait constaté sur les bras.

Si le niveau de la criminalité monte défavorablement au thermomètre du commissariat, il est toujours possible de faire baisser artificiellement la température. Il suffit de prendre son temps pour clore certaines affaires, de sorte à reporter leur enregistrement à une période plus clémente. Une autre technique classique consiste à refuser de prendre des plaintes ou à proposer une simple déclaration en main courante à la place.

La chanstique est le revers de la médaille du benchmarking. Les agents, auxquels on laisse une part d’initiative individuelle, peuvent utiliser cette marge de manœuvre pour trafiquer les évaluations. L’activité statistique est alors conduite pour elle-même, indépendamment des missions policières et de leurs effets sur le réel.

C’est comme si le sol se dérobait sous les pieds des policiers. Alors qu’ils sont censés lutter contre la délinquance, ils se mettent à produire une délinquance fictive. Le soi-disant réalisme de la politique du chiffre refuse de voir qu’il est aussi, et de façon inconciliable, un constructivisme.

Syndicalisme. La position des syndicats à l’endroit de la politique du chiffre varie en fonction des grades qu’ils représentent. Les organisations de commissaires ne sont pas majoritairement contre. Ils sont attachés au dispositif de la « prime de performance et de responsabilité » qu’ils ont d’ailleurs largement participé à mettre au point. En revanche, les syndicats de gardiens et de gradés y sont unanimement opposés et n’hésitent pas à l’écrire. Dans son cahier revendicatif de 2009, Alliance demande l’« arrêt de la course aux chiffres » et Unité SGP, dans son programme de 2010, s’offusque de la situation du policier « pressurisé, accablé d’objectifs chiffrés. »

Cette différence s’explique par la profonde inégalité de traitement entre le haut et le bas de la hiérarchie. Les commissaires établissent eux-mêmes leurs objectifs en concertation avec leurs supérieurs, et d’importantes marges de manœuvre financières ont été dégagées pour leurs primes. Pour eux, le jeu de la politique du chiffre peut être très rémunérateur. Au contraire, confie un fonctionnaire, « pour les gradés et gardiens c’est un peu compliqué. Pourquoi ? Parce qu’ils sont très nombreux [alors qu’il n’y a que 1 750 commissaires en France]. Du coup ça coûte, un, plus cher, et deux, en termes d’évaluation c’est un dispositif qui est lourd note ».

Il n’est donc pas question de les associer à ce dispositif. Leurs primes sont très inférieures, même en proportion de leur traitement, et les processus d’attribution loin d’être aussi individualisés. Les échelons les plus bas de la hiérarchie n’ont donc pas grand-chose à gagner à jouer la politique du chiffre, ce qui suffirait à expliquer leur forte opposition.

Les positions syndicales permettent de bien saisir l’entrelacs d’intérêts associés au benchmarking. L’élite des hauts fonctionnaires s’allie aux commissaires nouveaux venus, se trouvant au bas de leur grade, pour le promouvoir ; tandis que les commissaires divisionnaires, ceux qui sont parvenus au grade informel de « patrons », se trouvent associés aux gardiens et gradés pour s’y opposer.

Aide psychologique. La police est une institution paternaliste. On ne peut nier que les chefs essaient d’y prendre soin de leurs subordonnés. Ils ont fini par entendre leurs récriminations à l’encontre du benchmarking et ont ébauché un certain nombre de correctifs.

Depuis 1996, un Service de soutien psychologique opérationnel (SSPO) recueille les plaintes et les souffrances exprimées par les agents du ministère. Michel Gaudin, alors directeur de la police nationale, l’a mis en place à la suite d’une vague de suicides alarmante qui, étant donné la date, ne pouvait pas avoir de relation avec la généralisation du benchmarking. Ce service a depuis connu un développement très important, puisque ses effectifs sont passés d’un seul agent à sa création à cinquante-huit temps complets, répartis sur tout le territoire national en 2010. Il gère deux types de problèmes. Premièrement, les traumatismes engendrés par certains événements singuliers. Cette dimension fondamentale de l’activité est en croissance puisqu’on est passé de 370 actions post-traumatiques en 2001 à 1 011 en 2010. Elle reste cependant quantitativement marginale comparée au second pan de l’activité, consistant à répondre aux appels des fonctionnaires qui livrent une situation douloureuse, appels qui peuvent être suivis d’entretiens de soutien. Le graphique ci-dessous montre l’importance et la régularité de cette croissance depuis 2000, date de l’implantation de Compstat à Paris.

Figure 7. Activité du Service de soutien psychologique opérationnel (SSPO), Direction des ressources et des compétences de la police nationale (DRCPN)

Les appels sont les coups de fil reçus par le SSPO ; les entretiens sont les discussions à deux entre un psychologue du SSPO et un plaignant, qu’ils se déroulent en tête à tête ou au téléphone. Source : Données fournies lors d’un entretien au sspo.

Cette croissance peut s’expliquer, d’une part, par le fait que le soutien psychologique se banalise dans une administration où les agents étaient traditionnellement réticents à se montrer en situation de faiblesse. C’est d’ailleurs l’interprétation avancée par sa fondatrice, Éliane Theillaumas :

Alors l’institution était rétive à la psychologie, mais maintenant la psychologie a pénétré l’institution policière. Le psy, ils ont réussi à s’en servir. Ils ont un mode opératoire. C’est reconnu comme un outil par la hiérarchie, par l’institution note.

Au vu de ces données, cependant, il est impossible d’écarter l’hypothèse d’une croissance du malaise dans les effectifs policiers. Les thèmes exprimés de façon récurrente par les agents sont ceux de la « pression » des chiffres, du manque de personnel, du poids des objectifs à atteindre, de la compétition entre équipes, de la baisse de la considération de la population, ou du manque de temps passé au commissariat pour socialiser plutôt que pour produire. Le SSPO s’est en réalité mis à soulager les agents des effets de la politique du chiffre.

Comment procède-t-on ? Face à une plainte, l’agent du SSPO commence par étudier la situation globale du policier en souffrance psychique. Il doit garder en tête que les problèmes ont des causes « plurifactorielles ». Lorsqu’un individu émet un grief contre l’institution, les psychologues du service cherchent à réintroduire des éléments extérieurs à la scène restreinte présentée par le plaignant — à commencer par sa famille ou son caractère. Si on est mal avec son chef, pensent les psychologues, c’est souvent aussi qu’on est mal avec sa femme ou ses enfants :

Les facteurs de protection ne sont pas toujours la famille. D’ailleurs, parmi les gens qui se suicident, il y en a qui sont en couple avec des enfants. D’habitude, c’est un facteur de protection, or ça ne l’est plus. Pourquoi ? Parce que c’est quand même une source complémentaire de problème. [Or la famille] aussi à aucun moment, elle dira « mais moi aussi je n’ai pas réussi à m’adapter, moi aussi j’ai redoublé de reproches », etc. note.

Le service d’aide psychologique prétend soulager les plaignants, mais sa méthodologie consiste, alors même que les agents dénonçaient l’institution, à charger les proches d’une partie de la responsabilité de leur mal-être. L’institution se dédouane ainsi elle-même de certains méfaits qu’on lui attribue. La psychologie n’est en aucun cas une instance critique installée au sein de l’institution, puisqu’au contraire elle apaise en la protégeant. Signe de cette contradiction : la dextérité avec laquelle le SSPO est capable d’assembler des statistiques destinées à faire la preuve de ses performances et à défendre ses initiatives montre à quel point il a intégré, y compris pour lui-même, les principes du benchmarking. Le SSPO soulage sans doute, mais sans s’attaquer à la racine du mal.

Promotion du discernement. La psychologie n’est cependant pas le seul moyen de corriger les méfaits du benchmarking. Michel Gaudin, cette fois en 2010, alors qu’il était préfet de police de Paris, a fait éditer une petite brochure d’une vingtaine de pages intitulée Déontologie et discernement dans l’exercice du métier de policier. Ce fascicule est distribué à chaque nouvelle recrue. Surnommé le « petit Livre bleu de la police », il est composé du code de déontologie policière, de la circulaire sur l’exercice de l’autorité hiérarchique du 4 septembre 2009 et de la lettre adressée par le préfet Grimaud aux policiers de la préfecture de police après les événements de Mai 68. Extrait :

Le devoir d’obéissance des subordonnés et l’obligation de rendre des comptes ne sauraient à cet égard atteindre la capacité des fonctionnaires de tous les grades à prendre des décisions avec discernement et mesure, tout particulièrement lorsque l’emploi de la force doit être envisagé note.

Le discernement est donc une qualité de jugement qui ne doit pas être entièrement subordonnée à l’obligation d’obéir et de rendre des comptes. Mais quelle est cette qualité ? Peut-on la définir davantage ?

En droit administratif, elle se rapporte au devoir qu’a un agent de ne pas exécuter un ordre illégal note. Mais tel qu’utilisé ici, c’est-à-dire dans un contexte d’exercice de la police urbaine de sécurité, le discernement ne fait pas l’objet d’une définition juridique spécifique. Il désigne simplement la capacité des agents à prendre en compte la totalité du contexte au moment d’intervenir note ou, pour le dire avec les mots de l’ancien préfet de police :

Y a pas de définition… la définition, c’est l’exercice de l’intelligence [rires] donc moi j’ai diffusé le Petit Livre bleu, et je quitterai l’administration, ce sera ma conclusion, quand j’aurai inventé la circulaire qui permet de diffuser l’intelligence note…

Le discernement est donc l’exercice de l’intelligence, sans plus de précision. Mais à quoi sert donc une notion aussi peu définie ?

Question — Pourquoi avez-vous besoin de cette notion de discernement ?

Gaudin — Parce que je trouve que la déontologie, c’est aujourd’hui dépassé […]. La déontologie sous l’angle de la courtoisie, le respect de l’innocence de la personne, tout ça c’est évident, mais ce n’est pas suffisant. Ce qui est également important, c’est l’intelligence des situations, parce que c’est ça, le discernement. Quelle définition on peut donner ? L’intelligence des situations.

On me disait par exemple tout à l’heure, un important élu du 18e, on parlait de ça et il me dit : « La semaine dernière, y a un ami qui m’a signalé le fait suivant : une voiture de police qui s’est arrêtée, y avait un garçon, sans doute d’origine étrangère, comme vous en voyez comme moi dans les restaurants, qui vendait des roses, hein. » Bon, c’était illégal, c’est de la vente à la sauvette, mais bon, à la limite, si le policier — c’est ça le discernement — veut faire remarquer à l’intéressé que ce n’est pas légal, il lui dit : « Monsieur, ce n’est pas légal », voilà. Mais Daniel Vaillant me disait : « Ils l’ont pris et ils l’ont fichu dans la voiture pour l’emmener au commissariat » ; non, ils l’ont même pas pris, ils ont pris sa botte de roses, son gros bouquet de roses, et puis ils l’ont laissé sur le trottoir, voilà. Moi, je trouve que ce n’est pas bien. Ça c’est… quand on a du discernement et qu’on est policier, on ne fait pas ça note.

Pour le préfet de police, le code de déontologie est « dépassé ». C’est que la logique du « code » relève de l’ancien monde bureaucratique, celui que le benchmarking prétend supplanter. La saynète rapportée par de si augustes bouches (un ancien ministre de l’Intérieur s’adressant au préfet de police de Paris) sert à le montrer. En saisissant le bouquet de fleurs, les policiers s’apprêtaient à « faire un bâton », c’est-à-dire une interpellation comptabilisable comme vente à la sauvette. Las, un ancien ministre socialiste au cœur sensible, et pour qui la rose est un symbole qui compte, assistait en catimini à la scène. À noter que l’on ne sait pas exactement, dans ce récit, si le manque de discernement concerne le fait d’arrêter un « garçon, sans doute d’origine étrangère » ou de l’avoir fait devant un témoin assez influent pour aller moucharder l’incident au préfet. Ce dernier aurait voulu non pas qu’ils cherchent à faire une saisie de plus, mais qu’ils aient une intelligence de la situation suffisante pour ne pas risquer de choquer le bourgeois en terrasse. Dans cette situation sensible, ils auraient dû se contenter d’un rappel à l’ordre.

Le discernement apparaît donc comme une ampleur de vue permettant de saisir les spécificités d’une situation ainsi que les conséquences possibles d’une intervention. Il est constitué, en l’occurrence, comme une ressource permettant aux forces de l’ordre de résister à la tentation du chiffre. Paradoxalement, on se souvient que, à New York, Kelling faisait appel à lui pour, au contraire, autoriser des actions orientées par le chiffre. Mais, aujourd’hui, en France, le discernement est le nom d’une qualité subjective — l’intelligence — dont les édiles à la fois déplorent le manque chez leurs subordonnés, quitte à en rire, et font la promotion dans des brochures censées la leur communiquer. Selon un schéma typique d’injonctions contradictoires, les agents sont en même temps sommés de se plier à la bêtise binaire du chiffre et de s’y opposer en mobilisant leur « discernement » comme contrefeu. Chaque agent ou sa patrouille se voit alors confier le soin d’arbitrer en son for intérieur ou en petit comité entre une action orientée par le benchmarking et une autre qui le serait par le discernement note. L’institution leur refile le bébé sans avoir elle-même clarifié sa propre position, puisque ceux-ci restent bien entendu benchmarkés corps et biens. Autrement dit, elle se défausse sur les personnes d’un arbitrage particulièrement difficile à effectuer. La promotion du discernement confie hypocritement à des agents la tâche de résister à la logique du chiffre que cette même institution leur impose.

Confrontation aux objectifs politiques. Pendant la période où il promouvait le discernement des gardiens et gradés, le préfet Gaudin a aussi innové tout en haut de la hiérarchie policière. Depuis 2009, il ne convoque plus ses commissaires centraux, trois par trois, sur l’île de la Cité, mais se déplace lui-même dans les commissariats. Cette procédure a plusieurs conséquences importantes. D’abord, elle estompe le caractère compétitif de l’épreuve (puisque les commissaires ne sont pas évalués en présence les uns des autres) ; ensuite, elle permet au préfet d’observer, par lui-même, les conditions de travail de ses hommes ; enfin, elle permet, à la suite de la séance d’évaluation, d’inviter le maire d’arrondissement à venir échanger avec les représentants de la police.

Pour reprendre les termes du préfet de police, la présence du maire « nous permettait de confronter le résultat [chiffré du commissaire] avec la façon dont il est perçu par les élus et comment on travaille en partenariat note ». Il s’agit donc bien de

Photo 3. Une salle d’évaluation dans le 12e arrondissement de Paris en 2011

Dressée dans la salle de sport d’un commissariat, la table où se déroulera quelques instants plus tard l’évaluation. Le préfet et son cabinet s’asseyent en face de l’écran ; les directeurs centraux à sa gauche ; et l’équipe du commissariat central à sa droite. Une fois la présentation du commissaire terminée, le maire sera introduit et viendra s’asseoir avec son directeur de cabinet sous l’écran de projection, face au préfet de police.

jauger un peu plus qu’une simple perception de l’action policière, mais d’aller jusqu’à envisager une confrontation ou un partenariat avec le maire et, à travers lui, la population. Cette procédure permet donc un jugement en retour de la population sur sa police.

Lors des deux séances auxquelles nous avons assisté, il n’y a cependant pas eu d’opposition, ni même de différence de position, exprimée par les maires. Le ton était plutôt à la louange, avec cependant quelques inflexions, quelques nuances dans les priorités. Un maire (socialiste) a expliqué que ce qui comptait pour la population, c’était moins la sécurité — qui bon an mal an est assurée, disait-il — que la tranquillité, c’est-à-dire ne pas voir se développer de marché à la sauvette, ne pas laisser de sentiment d’insécurité s’installer, sanctionner sévèrement les établissements de nuit bruyants. Dans un autre cas, un maire (socialiste lui aussi) a regretté, très rondement, de ne pas avoir été informé assez tôt d’une expulsion de sans-papiers, de telle sorte qu’il s’est trouvé pris au dépourvu par les appels de ses concitoyens, et a demandé à l’être plus tôt dorénavant, ce à quoi le préfet s’est engagé.

L’asymétrie de la situation joue cependant un rôle évident dans cette connivence apparente. Le préfet de police de Paris est placé sous l’autorité du ministre de l’Intérieur — et non du maire de Paris —, de sorte que ce que lui dit le maire d’arrondissement n’a aucun caractère obligatoire. En outre, concrètement, autour de la table, on trouve assis une quinzaine de cadres du plus haut rang de la police parisienne. Lorsque le maire arrive dans le commissariat, accompagné de son seul directeur de cabinet, le rapport de forces saute aux yeux. Quand bien même les discussions sont courtoises et bienveillantes, il est très seul face à ses puissants interlocuteurs. L’invitation permet donc effectivement au maire d’arrondissement d’exprimer une évaluation de l’activité policière ; mais, dans ce cadre, sa voix n’est qu’un souffle bien fluet.

En résumé, il est clair que le benchmarking de la police rencontre en interne de réelles résistances. Les agents chanstiquent, les syndicats le dénoncent, et la plus haute administration s’efforce à son tour de lui apporter des correctifs et le laisse savoir. Pourtant, les trois innovations qu’on peut attribuer au préfet Gaudin — psychologie, discernement et politisation — apparaissent moins comme des freins au développement du benchmarking visant son démantèlement que comme des corrections apportées aux biais de la méthode qui servent in fine à son raffinement. La psychologie soulage les souffrances des troupes, le discernement permet de résister à la tentation du chiffre, l’invitation du maire accorde un strapontin à la population dans le théâtre évaluatif de la preuve. Mais, au fond, ces nouveautés ne s’opposent pas au benchmarking, elles le consolident.

Le benchmarking, importé de New York, a été initialement présenté à la police française comme une technologie managériale égalitaire en ce qu’elle pouvait s’appliquer à tous les échelons hiérarchiques, et positive en ce qu’elle était censée motiver les agents à être davantage proactifs, surtout en matière de sécurité publique.

Finalement, qu’avons-nous observé ? D’abord, les inégalités entre échelons persistent, voire s’accentuent. On distingue une élite très restreinte composée du ministre de l’Intérieur et de son cabinet, de la très haute hiérarchie de la direction générale de la police nationale et enfin du préfet de police de Paris et de son cabinet, qui ne sont pas benchmarkés eux-mêmes, mais qui déterminent les objectifs chiffrés de leur administration et évaluent les plus hauts fonctionnaires. En dessous d’eux, on trouve d’une part les commissaires les plus gradés, qui ne voient pas d’intérêt à ces nouvelles techniques, et de l’autre les commissaires et officiers nouveaux entrants qui sont soumis au benchmarking, mais de façon assez personnalisée et avec des moyens suffisants pour qu’ils y trouvent des bénéfices et le supportent. Enfin, tout en bas, les gardiens et gradés sont eux aussi benchmarkés, mais de façon si mécanique qu’ils n’y voient aucun intérêt catégoriel.

L’administration attend de ceux qui sont soumis au benchmarking qu’ils soient réactifs aux modifications rapides de la délinquance en prenant des initiatives responsables. Mais ce mot d’ordre se traduit dans les faits par une incessante modification des objectifs de l’action policière. Les agents benchmarkés sont placés dans une situation instable qui peut aisément tourner au surrégime si l’on n’y prend garde, ayant comme effet le plus déplorable d’engendrer des abus de pouvoir sur la population. Cette instabilité est d’autant plus grande que les agents, la plupart du temps par mesure de protection, se livrent à la chanstique, c’est-à-dire qu’ils manipulent les chiffres. On leur demande donc de s’adapter aux modifications incessantes d’une réalité dont ils savent par ailleurs qu’elle est pour une bonne part manipulée. On comprend alors la profondeur de la plainte, récurrente dans leurs bouches, selon laquelle l’action policière a « perdu son sens ».

La haute hiérarchie a partiellement entendu ces reproches. Concrètement, elle a développé un soutien psychologique opérationnel des troupes qui ne constitue en aucun cas un réel contrepoids au benchmarking. Elle a aussi promu le discernement policier comme intelligence de la situation opposée à la course aux chiffres. Mais le discernement reste un exercice solitaire qui, en isolant les agents, augmente d’autant leur mal-être. Enfin, elle a invité le maire — représentant dans ce cas la population — à venir discuter les objectifs avec elle. Mais l’asymétrie dans laquelle les édiles se trouvent face à la police ne leur laisse qu’une infime marge de manœuvre dans la production de l’objectif finalement retenu.

Le nouveau gouvernement socialiste a annoncé qu’il remettrait en cause le benchmarking dans la police. S’il s’agit de changer les objectifs et les indicateurs utilisés, en mettant par exemple en sourdine l’importance de l’élucidation, cela ne changera en rien la structure compétitive et déstabilisante du mécanisme. Une autre voie consisterait à reconnaître que la mise en responsabilité placée au cœur du dispositif n’est qu’une émancipation illusoire, une machine à reproduire des inégalités, de la précarité et du mensonge. C’est par là que l’on pourrait commencer à s’attaquer au fond du problème.

HÔPITAL

Parmi les services publics, la santé constitue un autre grand terrain de prédilection du benchmarking. Ce sont à la fois la « qualité » des soins et les pratiques organisationnelles de l’hôpital qui sont passées au crible de grilles d’évaluation comparatives. Bien avant que ne s’engage en France une course à la performance hospitalière, l’« industrie des soins de santé » (health care industry) états-unienne s’est très tôt intéressée à la technologie de benchmarking mise au point chez Xerox. L’implantation de ce dispositif managérial y fut facilitée dans ce pays par le rapport individualisé et marchand que la population entretient aux institutions médicales et au système d’assurance sociale. Dans le cas français, où la médecine est davantage socialisée, il a fallu plusieurs programmes d’action publique, des lois, des plans, la création de structures d’appui et la construction d’indicateurs, bref, un lourd travail législatif, institutionnel et statistique.

Le cas de l’hôpital n’est pas sans similitude avec celui de la police. Les réformes du benchmarking viennent des États-Unis et ont été importées par de très hauts fonctionnaires passés par le privé qui, en sautant par-dessus l’échelon des patrons, ont rencontré l’intérêt de toute une frange d’employés intermédiaires du champ qu’on peut qualifier d’outsiders note car ils appartiennent à des catégories de nouveaux entrants. Ces réformes ont eu comme effet d’avoir creusé les inégalités de traitement entre patients, reléguant encore davantage ceux qui ont le moins de ressources, de même que la police s’est mise à sanctionner une frange « grise » de personnes qui ne l’auraient pas été auparavant.

Prélude états-unien

Le premier cas de benchmarking recensé dans le secteur de la santé par le volumineux ouvrage de Camp note concerne des pratiques médicales en chirurgie cardiaque. Une étude conduite en 1987 par le U.S. Department of Health and Human Services — équivalent du ministère de la Santé — avait révélé une grande disparité des taux de mortalité entre établissements, ce qui avait fait éclater une controverse quant à la pertinence de données collectées par l’administration. À la suite de cette polémique, un groupe réunissant cliniciens, directeurs d’hôpital et personnel de recherche fut créé en Nouvelle-Angleterre afin de remédier au manque d’informations relatives aux maladies cardio-vasculaires. Ce consortium régional se donna pour mission d’« améliorer sans cesse la qualité, la sécurité, l’efficacité et le coût des interventions médicales note ».

On construisit une base de données, qui mit à nouveau en évidence la grande disparité statistique des taux de mortalité, à la fois entre établissements et entre chirurgiens. On décida alors de mettre sur pied une forme de benchmarking collaboratif en quête des « meilleures pratiques » en vue d’une « amélioration continue de la qualité ». Conformément à la démarche de Camp, on organisa au cours de l’année 1990 des visites de site croisées entre partenaires de benchmarking afin d’observer et de comparer les processus mis en œuvre. On s’accorda sur une métrique commune et on mit en place un forum pour discuter des résultats. Camp met en avant la réussite de cette expérience : cette initiative « pluridiciplinaire, scientifiquement rigoureuse, bon marché et agréable note » s’est déroulée dans un climat de confiance entre partenaires, tous soucieux de faire baisser la mortalité, et dans un milieu de travail dénué de pression à la performance. Ce récit d’un benchmarking cool et humaniste lui permet de démarquer sa méthode de celle du reengineering, qui se signalait à l’époque par un cortège de licenciements et de restructurations brutales.

Mais ce premier usage, collaboratif, du benchmarking à l’hôpital, né de la volonté de préserver l’entre-soi des médecins contre l’intrusion des pouvoirs publics, demeura minoritaire. Dans la pratique c’est une forme de benchmarking gestionnaire promu comme un outil d’optimisation des pratiques administratives qui prit le dessus.

En 1993, l’American Hospital Association (AHA) consacra un numéro de sa revue professionnelle au benchmarking. En couverture s’étalait l’image d’une médaille d’or portant cette inscription : Best Practices note. Il s’agissait de dresser un premier état des lieux de l’introduction de cette méthode. Camp, longuement interviewé, y expliquait que, dans le secteur de la santé, le benchmarking est surtout profitable aux procédures administratives, telles que l’admission des patients ou la facturation : à la différence des pratiques médicales proprement dites, ces activités peuvent être comparées avec leurs équivalents dans d’autres secteurs, comme l’hôtellerie ou d’autres prestataires de services. Dépasser la singularité des établissements hospitaliers et la suffisance des personnels médicaux (Don’t be smug !, « Ne soyez pas suffisant note ! »), faire admettre qu’il y a sûrement quelqu’un, ailleurs, qui fait mieux que soi : tel serait l’apport du benchmarking.

De fait, l’état des lieux dressés par la revue montrait que la plupart des expériences de benchmarking concernaient les performances organisationnelles des hôpitaux plutôt que les pratiques cliniques elles-mêmes. On ne trouvait encore que peu de cas de comparaison avec des partenaires hors du secteur médical — à l’exception notable de quelques établissements, dont le Mid-Columbia Medical Center, qui avait entrepris de comparer en 1991 le processus de formation de son personnel d’accueil avec celui de Disney World et du Ritz-Carlton de Naples (en Floride), réputés bien meilleurs.

Le cas du St. Joseph’s Medical Center est également intéressant. Lors d’une vaste opération de benchmarking des procédures d’admission des patients conduite en 1992, on procéda en deux temps note. On prit d’abord pour étalon un cercle de partenaires familier formé par vingt-huit autres membres de l’AHA. Cette première phase révéla entre autres que les patients du St. Joseph devaient signer douze formulaires pour être hospitalisés, alors que d’autres établissements n’en réclamaient que deux. D’où la création d’une « équipe qualité » pour travailler à atteindre le benchmark de deux. Mais, dans une seconde phase, on décida d’élargir le cercle de la comparaison : avec l’aide de l’International Benchmarking Clearinghouse géré par l’American Productivity & Quality Center, on prit pour référent des organisations d’autres secteurs, des entreprises telles que The American Airlines, Marriott Corporation, Avis Rental Car ou Prudential Insurance, toutes sélectionnées pour l’« excellence » de leurs pratiques en matière de réservation, d’enregistrement, de programmation.

Figure 8. Benchmarking des procédures d’admission des patients hospitalisés (St. Joseph’s Medical Center of Stockton, California, 1992)

Source : « Benchmarking. Learning from the best », The Healthcare Forum Journal, vol. 36, nº 1, janvier-février 1993, p. 19.

Une autre expérience de benchmarking hospitalier, qui a créé un précédent reproduit de multiples fois, notamment en France, portait sur le service des urgences. Au Cleveland Memorial Hospital, on avait comparé la durée d’attente des patients avec celle enregistrée parmi les deux cent cinquante établissements membres de la même association (Sun Health Alliance). Il en ressortait des écarts de 30 et 90 minutes, que l’on expliquait par divers facteurs, dont l’existence d’un triage efficace, d’un bon système de suivi des patients ou d’un protocole autorisant les infirmières à prescrire des tests avant que le médecin voie le malade.

En cette première moitié des années 1990, les publications concernant le benchmarking des hôpitaux se multiplièrent, contribuant ainsi à le banaliser. Dès 1992, le réseau des Voluntary Hospitals of America diffusa une brochure à ses membres sur ce thème note. En 1994, le bureau de l’inspecteur général du U.S. Department of Health and Human Services fit de même paraître un rapport de benchmarking sur les procédés employés dans le secteur privé pour évaluer le degré de satisfaction des clients note. Cette étude comparative faisait suite à un décret présidentiel de 1993 note qui stipulait que les agences gouvernementales devaient être « orientées vers le client » (customer-driven) et qu’elles devaient en conséquence leur proposer une qualité au moins égale à celle obtenue par des organisations privées pour des services analogues (the best in business). L’inspecteur général identifiait dix entreprises dont l’activité était comparable à celle de la Sécurité sociale (Social Security Administration) et de l’assurance maladie (Health Care Financing Administration).

Parmi ces entreprises, quatre étaient lauréates du prix Baldrige. Au vu de tels partenariats de benchmarking, les administrateurs du prix conduisirent une enquête en 1995 pour déterminer si le secteur de la santé (et celui de l’éducation) était prêt à rejoindre la « communauté Baldrige ». Quarante-six organisations médicales posèrent leur candidature, attestant d’une certaine maturité quant à l’implantation de dispositifs de management de la qualité. En 1998, le Congrès vota la création d’une nouvelle catégorie (Health care providers) mais il fallut attendre 2002-2003 pour voir les premiers hôpitaux récompensés. Aux États-Unis, le déploiement du benchmarking dans le secteur de la santé aura donc pris une décennie. Le cheminement sera au moins aussi long en France, où il a emprunté d’autres voies.

La course à la performance hospitalière

Pour comprendre comment le benchmarking a pris pied dans l’administration française de la santé, il faut partir du « Programme de médicalisation des systèmes d’information » (PMSI) mis en place au début des années 1980.

Ce programme mesure la « production » de chaque unité médicale à l’hôpital. Il repose sur une nomenclature des actes médicaux, chacun étant affecté d’un certain nombre de points dits « ISA » (indice synthétique d’activité). Par exemple, aujourd’hui encore, un accouchement sans complication par voie basse vaut 1 000 points ISA et une appendicite en vaut 1 139. Avec le PMSI, chaque unité médicale peut faire la somme de tous les actes qu’elle a effectués pendant un an et les rapporter à son budget. La direction, de son côté, peut comparer les unités entre elles, et en particulier identifier celles dont le point ISA est le plus coûteux, c’est-à-dire celles qui semblent surdotées.

Les chiffres du PMSI ont été utilisés de deux façons différentes, qui ont toutes deux contribué au déploiement du benchmarking au sein du réseau hospitalier : les palmarès et audits.

La sentence des palmarès. En 1995, le propriétaire du mensuel Sciences et Avenir, qui avait décidé de donner un coup de fouet à ce vénérable magazine de vulgarisation scientifique, recruta trois journalistes en leur confiant une tâche originale : établir un palmarès des hôpitaux, sur le modèle de celui publié aux États-Unis par la revue US News and World Report. D’importants moyens leur furent alloués, spécialement en temps, puisqu’ils eurent la liberté de préparer leur première publication pendant plus d’un an note.

Parmi ces trois journalistes, deux étaient des docteurs en médecine générale qui s’étaient détournés de l’exercice du métier pour écrire, et le troisième avait toujours été journaliste, réputé pour ses compétences d’enquête et de débrouillardise. S’ils avaient des contacts dans le champ médical, leur position restait extérieure, donc largement dominée. Ils développèrent leur palmarès dans un esprit à la fois anti-institutionnel et « républicain », pour reprendre l’expression de l’un deux. Ils s’attendaient à ce que leur publication suscite des réactions virulentes de la part des « mandarins » de l’administration médicale. Leur argument « républicain » était qu’introduire la transparence dans le service public de la santé permettrait à ses usagers de choisir en toute connaissance de cause l’hôpital où ils se feraient soigner. Mais l’objectif éditorial, bien sûr, était avant tout de réussir un scoop rapportant prestige et argent.

Les premières sources d’informations qu’ils parvinrent à obtenir en 1997, après avoir saisi la Commission d’accès aux données administratives (CADA), étaient des rapports d’examen des budgets hospitaliers. Ceux-ci contenaient, établissement par établissement, des évaluations internes — médicales et administratives — ainsi que des statistiques annuelles d’activité. Mais ces données n’étaient pas assez riches pour réaliser un véritable classement des établissements. Les auteurs publièrent donc une « liste noire » des hôpitaux, qui recensait les plus mal notés. Cette liste fit grand bruit et parvint aux oreilles du conseiller « Santé » d’Alain Madelin, qui était à la fois chirurgien et énarque. L’initiative l’avait enthousiasmé, pour des raisons aussi bien idéologiques (il souhaitait libéraliser le marché de la santé) qu’intéressées (il avait fondé une entreprise de publication d’informations relatives à la qualité des prestations médicales). Il invita la petite équipe de journalistes à exploiter les données du PMSI (ce qu’ils obtinrent encore une fois après une requête de la CADA) et leur fournit l’expertise informatique nécessaire pour cela. Ce nouveau jeu de données leur permit, cette fois, de produire un palmarès complet des cinq cent douze hôpitaux français, publié en 1998, toujours dans Sciences et Avenir.

Le succès éditorial fut immédiat : le magazine augmenta ses ventes de 750 % pour atteindre un record jamais égalé de 350 000 exemplaires vendus en kiosque. La presse généraliste, jusqu’au prestigieux Monde, reprit et diffusa l’information. Dans le corps médical, les réactions furent beaucoup plus mitigées. Les médecins critiquaient surtout le fait que des acteurs extérieurs se permettent de juger leur activité sans en connaître les véritables contraintes, qu’ils réduisaient de façon simplificatrice par pure soif du scoop. Pour ceux qui travaillaient dans les établissements classés en bas du palmarès, de petites structures provinciales, il s’agissait ni plus ni moins de diffamation. Le magazine Sciences et Avenir se vit d’ailleurs intenter plus d’une trentaine de procès qui le condamnèrent à de lourds dommages et intérêts. Au total, les défaites judiciaires lui coûtèrent la coquette somme de 550 000 francs, ce qui eut pour effet de brouiller les journalistes avec leur rédacteur en chef. En 1999, la petite équipe quitta Sciences et Avenir pour rejoindre Le Figaro Magazine qui publie leur classement tous les ans, mais sans la queue du peloton, les derniers hôpitaux du palmarès.

Les autorités publiques furent elles aussi, dans un premier temps, largement opposées à ce classement. La Fédération hospitalière de France jugea qu’il était beaucoup trop fragile méthodologiquement pour bénéficier d’une telle visibilité. De leur côté, les parlementaires, attentifs aux dangers que le palmarès faisait courir aux établissements locaux, montèrent au créneau contre sa publication et s’efforcèrent de compliquer l’accès aux données du PMSI. En particulier, ils parvinrent à rendre inaccessibles les chiffres sur la mortalité dans les structures hospitalières.

Mais d’autres acteurs, et non des moindres, prirent la défense de cet outil de benchmarking, notamment le secrétaire d’État puis ministre délégué à la Santé, Bernard Kouchner. Celui-ci s’en saisit comme un levier pour engager sa politique de restructuration des hôpitaux. Le plan de réforme prévoyait une concentration accrue des établissements, un gain en « transparence », un renforcement du pouvoir des responsables administratifs au détriment de celui des médecins, et enfin la large diffusion d’une culture de la « performance ». En 1992 déjà, à la suite de la parution d’une « liste des urgences à éviter », Kouchner avait déclaré dans le journal Le Monde qu’il fallait « en finir avec l’hôpital-silence note ». Dix ans plus tard, lors d’un colloque organisé par l’OCDE sur la mesure de la performance des systèmes de santé, il allait dans le même sens en affirmant qu’il fallait, « bien entendu, essayer de rendre les indicateurs de performance les plus visibles et transparents possible note ». Dans le même esprit, Gilles Johanet, conseiller-maître à la Cour des comptes et directeur de la Caisse d’assurance maladie des travailleurs salariés, prit clairement position en faveur de ce palmarès. Certains des plus hauts dirigeants de l’administration publique de la santé se trouvèrent donc alliés objectifs des journalistes.

L’alliance fut consommée en 2004, lorsque le nouveau ministre de la Santé, Philippe Douste-Blazy, annonça qu’un « classement » des hôpitaux en fonction de leurs performances en matière d’infections nosocomiales serait publié par le ministère lui-même. Pour ce faire, il pouvait s’appuyer sur le tableau de bord de ces infections qui avait pu être dressé grâce aux indicateurs comparables développés dans le cadre du projet COMPAQH (Coordination pour la mesure de la performance et l’amélioration de la qualité hospitalière) note. Après avoir sélectionné une batterie de quarante-trois indicateurs de qualité, on établit un benchmarking des trente-six établissements participants. Outre la généralisation de ces indicateurs à l’ensemble des hôpitaux, l’objectif était de promouvoir divers « modes d’utilisation » de ces données, qui pouvaient servir à piloter les établissements, à les classer et à développer des dispositifs d’incitations économiques.

La publication de palmarès des hôpitaux dans la presse a ainsi contribué à instiller la logique de la performance dans l’administration de la santé. Elle a notamment encouragé le ministère à se doter d’indicateurs permettant la comparaison et le classement des établissements. Mais d’autres acteurs doivent à cet égard être mentionnés, telle la Mission nationale d’expertise et d’audit hospitaliers (MEAH).

L’épreuve des audits. Le rôle joué par la MEAH dans la diffusion des réseaux du benchmarking a été très bien décrit par Nicolas Belorgey dans son ouvrage L’Hôpital sous pression. Enquête sur le « nouveau management public » note. Plusieurs années d’investigation lui ont permis de produire une analyse détaillée des mutations du travail hospitalier engendrées par les nouvelles méthodes de management.

À la suite de la réélection de Jacques Chirac à la présidence de la République en 2002, son ministre de la Santé, Jean-François Mattei, lança le plan « Hôpital 2007 ». Il s’agissait de « moderniser l’offre de soins » par trois types de mesures. Les premières entendaient rénover le parc immobilier hospitalier. Les deuxièmes mettaient en place la « tarification à l’activité » (T2A), consistant à financer les hôpitaux non plus, comme c’était le cas auparavant, en fonction des dépenses de l’exercice passé, mais en fonction d’une estimation de leur activité totale dans l’année, calculée sur la base de leurs points ISA. La T2A promouvait ainsi une « logique de responsabilisation » où chacun devait faire la preuve de ses propres performances et de sa capacité à faire recette pour attirer de nouveaux crédits. Le troisième train de mesures concernait l’organisation interne des établissements. Elles prolongeaient la « logique de responsabilisation » qui présidait à la T2A en introduisant des méthodes managériales pour « faire plus avec moins ». Cette « nouvelle gouvernance hospitalière » fut l’occasion de procéder à la fusion des services en « pôles d’activité » censés rendre le fonctionnement général plus souple et mettre le personnel médical face à ses responsabilités économiques. À cet effet, les médecins se virent proposer un intéressement individuel lié à leurs résultats financiers.

Chacun de ces trois ensembles de mesures fut doté d’une structure d’appui chargée d’encadrer leur réalisation. C’est dans le cadre du troisième volet que fut créée la MEAH en 2003. Rattachée à la Direction de l’hospitalisation et de l’organisation des soins (Dhos) du ministère de la Santé, elle a été l’un des principaux vecteurs pour le développement du benchmarking dans les hôpitaux. Aujourd’hui, elle a intégré l’Agence nationale d’appui à la performance des établissements de santé et médico-sociaux (Anap), institué par la loi HPST pour « aider les établissements de santé et médico-sociaux à améliorer le service rendu aux patients et aux usagers, en élaborant et en diffusant des recommandations et des outils dont elle assure le suivi de la mise en œuvre, leur permettant de moderniser leur gestion, d’optimiser leur patrimoine immobilier et de suivre et d’accroître leur performance, afin de maîtriser leurs dépenses note ».

La MEAH, comme l’agence qui lui a succédé, est structurellement très proche des missions de contrôle de gestion définies par la LOLF. Bien qu’elle dépende du ministère, elle s’apparente à un cabinet de conseil ayant pour tâche d’auditer les établissements sur la base du volontariat et de diffuser des « bonnes pratiques » non contraignantes. Elle se présente volontiers comme un « facilitateur » de la « conduite du changement » par l’adoption, volontaire et non conflictuelle, de nouvelles techniques d’organisation orientées vers la performance. Si son personnel est composé d’une dizaine d’agents de la fonction publique hospitalière, elle recrute des cabinets de consultants chargés de mener des audits dans les hôpitaux. Les ressources intellectuelles de ces consultants proviennent largement des manuels de management, comme l’attestent les références, parfois implicites, au livre de Hammer et Champy sur le reengineering ou à d’autres best-sellers, dont La Stratégie du projet latéral note, réputé être un « classique de la conduite de projet ».

La MEAH déploie le benchmarking à trois niveaux différents. D’abord, elle évalue des établissements pour lesquels elle produit des benchmarks. Ensuite, elle gère ses propres employés au moyen d’indicateurs d’activité comme le « taux de mise en œuvre », qui mesure le nombre d’actions effectivement engagées. Enfin, en 2006, elle a mené son propre audit, destiné au ministre, à qui elle souhaitait apporter la preuve d’une « valeur créée » par son action, sans doute pour la rapporter à son coût.

Dans les établissements, l’audit se déroule en trois « vagues » : le pilote, l’approfondissement et le déploiement. Les deux premières durent chacune à peu près deux ans et se terminent par des « comités techniques nationaux » tenus au siège de la Mission à Paris. La dernière, dans un esprit très proche de celui du reengineering, vise à briser les structures en silos des établissements, qu’elle éclate en une quinzaine de chantiers différents.

Pour comprendre le type d’action que mène la MEAH, concentrons-nous sur le cas des urgences étudié par Belorgey. Comment réorganiser les services des urgences pour augmenter leur efficience ? La question est difficile, d’autant plus qu’elle en implique une autre, encore plus complexe : comment se définit l’« efficience » d’un service des urgences ? Dans la grille de lecture adoptée par la MEAH, cela revient à se demander quel indicateur retenir pour évaluer le travail des urgentistes. Plusieurs options étaient possibles. On pouvait par exemple se référer au nombre de décès. Mais il n’est jamais sage, pour construire un indicateur, de choisir une variable portant sur un échec. De même, adopter un indicateur monétaire aurait pu être très mal interprété par les patients (qui auraient eu le sentiment de voir leurs vies bradées). La MEAH décida finalement de se focaliser sur le critère du temps de passage dans les services. Après tout, le temps d’attente était l’une des principales récriminations formulées par les « usagers », ce qui ajoutait une couche de légitimité à cette démarche évaluatrice. L’agence montra que les délais entre l’enregistrement et le départ d’un patient variaient de 115 à 355 minutes note, une information que la Cour des comptes rendit publique dans son rapport de 2006 note. Cette inégalité de traitement, publiquement intolérable, offrait aux réformateurs la justification dont ils avaient besoin en même temps qu’un benchmark tout trouvé. Optimiser l’efficience se traduirait désormais ainsi : réduire les délais d’attente par une meilleure organisation des services.

Mais qu’est-ce qui détermine ce temps de passage ? On peut identifier quatre facteurs. Primo : plus la densité de médecins de ville dans le bassin de recrutement de l’hôpital est élevée, plus le nombre de patients se présentant aux urgences est faible, et donc plus le temps de passage sera bref. Secundo : l’origine sociale des patients. Plus ils sont dotés en capitaux (économique, social, culturel), plus ils peuvent passer rapidement car ils sont en meilleure santé, déjà habitués au fonctionnement de l’hôpital, familiers du jargon médical et capables de décrire précisément leurs symptômes. Tertio : le degré de gravité des motifs de la consultation. Cette variable suit une courbe en cloche : lorsque la cause de la consultation est bénigne, la personne est très vite renvoyée chez elle ; lorsqu’elle est gravissime, le patient est très vite orienté vers un autre service de soin (le cas extrême étant la personne décédée envoyée à la morgue). Sur l’échelle distribuant la « classe clinique des malades aux urgences » (CCMU) en sept postes, ce sont les patients à l’échelon trois ou quatre qui attendent le plus longtemps. Enfin, quarto, les contraintes organisationnelles influencent elles aussi le temps de passage.

Or la MEAH ne prend en compte que le quatrième facteur, en négligeant complètement tous les autres. Elle pointe par exemple le temps « perdu » en pauses, la présence ou non d’un spécialiste, la flexibilité personnelle de tel ou tel urgentiste. Si l’attente est trop longue, ce n’est pas en raison d’un manque de moyens financiers, mais d’une insuffisante qualité des personnels. Telle est la conclusion que tire la MEAH à partir d’une étude comparative de dix-sept sites d’urgence. Il s’agit de montrer qu’il n’y a pas de lien direct entre le niveau de ressources du service et le temps de passage du patient. Le principal facteur déterminant serait le niveau de qualification de l’équipe médicale : « Plus il est élevé, plus le temps de passage est court. » L’autre source d’allongement de l’attente serait une mauvaise organisation des services. Toujours sur la base de comparaisons chiffrées entre divers services, la MEAH constate que les urgentistes peuvent améliorer la gestion des flux en organisant différents circuits selon l’état des patients, en améliorant leur relation avec les services disposant de plateaux techniques (biologie, imagerie) ou en se dotant de tableaux de bord. Afin d’encourager les initiatives réformatrices, elle a élaboré un recueil de « bonnes pratiques », des recommandations ainsi que des guides méthodologiques censés aider chacun à mener une réflexion sur son organisation.

Pour caractériser les opposants et les promoteurs de ces réformes, on peut retenir l’opposition entre established et outsiders proposée par Belorgey. Les premiers, qui sont les opposants, disposent dans le champ du soin d’un fort capital, lequel tend à être démonétisé par les nouvelles techniques de management. En particulier, on compte parmi eux les grands patrons dépossédés de leurs prérogatives. Les outsiders sont ceux qui n’ont pas de tradition familiale dans l’hôpital, qui commencent à s’y intégrer et qui, du coup, comme dans la police, ont intérêt à s’associer aux réformes promues par la très haute administration et aux grands consultants pour s’y faire leur place.

Quels sont les effets de cet indicateur dans les services ? Au bout de deux ans d’expérimentation dans plusieurs établissements, Belorgey en a discerné trois grands types.

Le premier résulte de l’informatisation ayant accompagné la mise en place de l’indicateur. Le nombre de patients en attente dans le service est affiché automatiquement dès qu’un médecin consulte le système, ce qui, évidemment, est générateur de stress parmi les personnels. S’il y a trop de monde, un médecin aura tendance à raccourcir la durée du « colloque singulier » qu’il entretient avec un patient pour se presser de passer au suivant. De façon plus artisanale, le chef de service peut faire placarder à l’entrée de la salle de repos des infirmières les résultats de la veille, agrémentés d’un smiley exprimant la joie d’avoir atteint un benchmark ou la colère d’avoir échoué. En cas de contre-performance, les infirmières se sentent ainsi poussées à retourner au travail au plus vite. Elles peuvent alors développer de petites ruses pour ne pas croiser cette affiche du regard, et les médecins n’en font pas moins lorsqu’ils allument l’ordinateur.

Le deuxième effet observé est la tendance à écarter les patients se présentant pour des causes apparemment peu graves. Cette tâche revient à un médecin d’accueil et d’orientation (MAO), qui oriente les cas jugés bénins vers un cycle plus court, de façon à ce qu’ils sortent plus rapidement.

Troisièmement, d’après les statistiques collectées par la MEAH dans cinq établissements audités, il apparaît que, si le temps de passage a été réduit dans trois cas sur cinq, c’est surtout et dans tous les cas le nombre de consultations par équivalent temps plein qui a augmenté. Autrement dit, c’est avant tout la productivité des soignants qui s’est améliorée.

L’usage de l’indicateur de temps d’attente a bien eu des effets sur la prise en charge des malades. Les soignants, parce qu’ils sont, dans tous les sens du terme, plus pressés, ont augmenté leur rendement. Mais une fois ce constat établi, rien ne permet a priori de trancher la question de savoir si les soins reçus ont été de la même qualité avant et après l’expérience du benchmarking. Qui sait si le raccourcissement du colloque singulier ne nuit pas à la pertinence du diagnostic, si telle toux écartée comme bénigne ne cachait pas une pathologie grave qu’un examen plus approfondi aurait pu déceler ? Paradoxalement, ces démarches dites de « qualité », en ce qu’elles réduisent la qualité en quantité, se rendent aveugles à la dimension qualitative des soins.

La question est pourtant cruciale, du point de vue du patient : sera-t-on mieux ou plus mal soigné en régime de benchmarking ? Pour répondre, Belorgey a étudié un autre indicateur que celui de la durée de passage : la fréquence de retour des patients aux urgences. Cet indicateur fournit une information indirecte sur la qualité des soins : si on retourne aux urgences très peu de temps après y être allé une première fois, cela peut indiquer que les soins n’ont pas été de qualité optimale — par exemple, qu’un diagnostic a été manqué, que l’état du patient a empiré après qu’il a été renvoyé chez lui. Bien sûr, il y a des régularités qui s’expliquent autrement. Mais, en raisonnant toutes choses égales par ailleurs, on observe bel et bien une corrélation entre abaissement de la durée de consultation et augmentation du taux de retour. Pour chaque cause d’admission, plus on a expédié la consultation, plus les patients risquent de revenir.

Ce constat s’explique notamment par le tri des patients à leur arrivée. Cette pratique d’orientation conduit un plus grand nombre de patients à considérer qu’ils n’ont pas été bien soignés, d’où un retour rapide aux urgences. Il est intéressant de noter que ce circuit concerne avant tout les patients les moins bien dotés socialement. En effet, la confrontation du patient avec le MAO a tendance à se transformer en une négociation, où celui-là doit savoir prouver à celui-ci qu’il mérite vraiment d’être admis. Les catégories sociales élevées savent se faire admettre, alors que ceux ne disposant pas des mêmes ressources symboliques se trouvent aisément basculés vers le circuit court. En ce sens, l’usage d’indicateurs de performance a pour conséquence de renforcer l’inégalité sociale dans l’accès aux soins.

L’enrôlement des hospitaliers dans cette course à la performance n’aurait pas pris une telle ampleur sans la mobilisation d’un tiers spectateur, à savoir le public. Celui-ci a joué un rôle primordial dans la diffusion du benchmarking au sein de l’administration de la santé, bien plus qu’ailleurs. En achetant les journaux qui les publiaient, il a volens nolens soutenu les classements. En exprimant son impatience dans les salles d’attente des services d’urgence, il a fourni des arguments aux prosélytes de l’indicateur du temps de passage. L’habileté des « réformateurs » a été d’instrumentaliser des inquiétudes et des griefs légitimes pour les mettre au service de leur propre agenda. À l’arrivée, pourtant, il n’est pas sûr que le public y ait gagné en qualité de soins. L’indicateur de fréquence de passage semble même indiquer le contraire, tout particulièrement pour les patients les moins bien dotés socialement.

« Contre la casse de l’hôpital public ! »

2009 fut une année de mobilisation intense dans les secteurs publics, tout particulièrement dans la santé, l’enseignement supérieur et la recherche. Médecins, infirmières, aides-soignants, enseignants-chercheurs, chercheurs, étudiants et personnels administratifs ont battu le pavé, parfois ensemble, contre les réformes gouvernementales qui les frappaient de plein fouet. S’agissant des personnels hospitaliers, c’est le projet de loi HPST, dite « Bachelot », qui mit le feu aux poudres. Un Mouvement de défense de l’hôpital public (MDHP) fut créé par des médecins de l’Assistance publique-Hôpitaux de Paris (AP-HP) et soutenu par les syndicats. Il lança plusieurs appels à manifestation et à grève interprofessionnelle public-privé, relayés partout en France et largement suivis, y compris par des chefs de service et des professeurs peu habitués à manifester.

Des chefs de service renommés, dont le gynécologue-obstétricien René Frydman ou le neurologue Olivier Lyon-Caen, signèrent un appel publié dans Le Nouvel Observateur du 16 avril 2009. Ils y condamnaient la « médecine mercantile » promue par le projet HPST, qui « cale l’hôpital sur l’entreprise » et dont « les premières victimes seront les patients et les soignants ». Ils insistaient surtout sur un aspect qui les concernait au premier chef : le renforcement, au détriment du pouvoir des médecins, de l’emprise managériale des directeurs d’établissement. Afin de désamorcer l’hostilité des grands professeurs contre sa loi, la ministre Roselyne Bachelot répondit par une tribune de presse. Le pouvoir médical, écrivait-elle, « n’était jusqu’alors qu’aux mains de quelques-uns dans une organisation des pouvoirs opaque, basée trop souvent sur l’influence et la notoriété au détriment d’une vision prospective et juste des besoins en santé ». Dans ce rapport de forces, les enjeux de pouvoir sont prépondérants. Comme les médecins, la ministre cherchait des alliés parmi les personnels et le public, en promettant de meilleures conditions de travail et une offre de soins de meilleure qualité.

Ce qui motivait la grande majorité des manifestants et grévistes, c’était avant tout la perspective d’une « suppression massive et injustifiée » d’emplois d’infirmiers et d’aides-soignants. Les revendications syndicales portaient sur l’augmentation des salaires, la création de postes, la titularisation des contractuels ou la défense du statut des agents de la fonction publique hospitalière. Ce registre corporatiste n’intégrait pas (encore) des mises en garde contre les dispositifs managériaux dont l’implantation est en train de transformer l’exercice du métier. Si les tracts s’efforçaient d’alerter la population sur la menace d’une privatisation rampante des services de santé et ses effets sur l’égal accès aux soins, la dérive gestionnaire n’était aperçue qu’au travers de la logique utilitariste d’une réduction des coûts. Les réseaux du benchmarking ne se donnent pas à voir dans leur étendue. Émiettés, leurs éléments échappent à une critique globale qui saisirait leurs effets sur les pratiques organisationnelles et donc sur la conduite de chacun note.

Ces mesures décentralisées, souvent fondées sur le volontariat, l’incitation et la récompense, rendent l’action collective difficile. Il est moins aisé de coordonner une riposte d’ensemble contre une multitude de décisions locales que contre une loi émanant explicitement des autorités centrales. À titre d’exemple, en 2012, les personnels de l’Hôpital national de Saint-Maurice étaient en grève contre l’instauration de critères au mérite pour la prime de service, qui ne serait plus distribuée qu’à trente agents, c’est-à-dire, de facto, les cadres supérieurs. Des grèves se sont succédé cette même année dans divers hôpitaux (Mondor, Pompidou, Belfort-Montbéliard, Centre hospitalier sud-francilien, etc.) contre les modes de gestion et le manque de moyens, sans qu’une montée en généralité ne permette, au-delà de leurs situations particulières, de rendre visibles les traits communs.

UNIVERSITÉ

L’université est un autre terrain public à avoir été investi par le benchmarking au cours des années 1990. Le secteur de l’enseignement supérieur et de la recherche (ESR) offrait des conditions propices à son déploiement dans la mesure où l’usage d’indicateurs scientométriques internationaux s’y était développé dès les années 1950-1960, entre autres à l’instigation de l’OCDE et de l’Unesco. Mais, là encore, l’histoire commence sur l’autre rive de l’Atlantique.

De Stamford à Bologne

Dès les années 1980, les chefs d’entreprise états-uniens encouragèrent l’administration Reagan à récompenser les « bons élèves » en matière de « management de la qualité », notamment dans les établissements éducatifs. Ce qui les préoccupait était la formation de leurs personnels, autrement dit la qualité de leurs ressources humaines, maillon central dans la chaîne de la « qualité totale ».

Les dirigeants industriels multiplièrent les initiatives en direction du grand public, de la communauté éducative et du ministère de l’Éducation. Le magazine patronal Chief Executive organisa successivement en 1988 et en 1990 deux tables rondes réunissant des capitaines d’industrie et des « experts » des questions éducatives, dont des représentants de l’American Federation of Teachers note. L’objectif était de resserrer les « partenariats » entre monde de l’éducation et monde des affaires. Le consensus se fit sur quatre principes directeurs : « motiver, encourager et conseiller » les étudiants ; accorder l’autonomie aux universités ; décentraliser l’organisation aux niveaux fédéral et local ; adopter des objectifs précis et une méthode pour mesurer les progrès accomplis.

Le nouveau vice-secrétaire à l’Éducation nommé par Bush père en 1991 n’était autre que David Kearns, l’ancien P-DG de Xerox. À peine en poste, il lança une « croisade pour redresser les écoles d’Amérique note » fondée sur quatre principes : qualité, normes, choix, compétition. Son plan de restructuration était directement inspiré de l’expérience qu’il avait acquise au cours des années passées à Stamford (Connecticut), dans son fauteuil de grand patron des photocopieuses. Il ne faisait d’ailleurs pas mystère de ses ambitions : invoquant une « analogie entre business et éducation », il se déclarait prêt à faire partager aux administrateurs des écoles « ce que Xerox lui avait appris en matière de qualité ». Le benchmarking pouvait alors se répandre dans la sphère éducative. De Stamford à Bologne, où les ministres européens de l’Éducation inaugurèrent plus tard le projet d’un « Espace européen de l’enseignement supérieur », ces préconisations allaient faire du chemin.

Le « benchmarking universitaire ». Tout au long de la décennie 1990, les États-Unis, pays des pionniers du benchmarking tout-terrain, furent aussi à l’avant-garde de son implantation dans le secteur de l’enseignement supérieur et de la recherche note.

Dès 1989, l’université d’État de l’Oregon envoya des représentants visiter des entreprises et invita Deming, le « gourou de la qualité », à lui prodiguer ses conseils. Elle se préparait ainsi à expérimenter des méthodes du Total Quality Management.

Le 30 mai 1989, le « pape du management » Peter Drucker publia dans le Wall Street Journal une tribune intitulée « Les dix règles pour une recherche efficace ». Il affirmait que « la recherche devait être mesurée/évaluée comme n’importe quoi d’autre » pour en améliorer la qualité et la « satisfaction client ».

La décennie qui s’ouvrait sous de tels auspices vit sans surprise proliférer ce type de logique un peu partout sur les campus. Le management de la qualité fut expérimenté dans la gestion des étudiants, le développement des formations, les pratiques pédagogiques ainsi que les recherches scientifiques note.

En 1992, le sous-comité sur la technologie et la compétitivité de la Chambre des représentants prépara un rapport sur la « qualité dans l’éducation ». Il concluait que « les principes du management de la qualité totale [pouvaient] être adoptés dans l’éducation » et qu’il incombait au ministère de l’Éducation de les faire appliquer à tous les stades du processus éducatif. Il suggérait en outre au gouvernement fédéral d’« instituer un prix pour la qualité de l’enseignement » sur le modèle du prix Baldrige note.

La même année fut créée le Consortium pour la qualité universitaire (Academic Quality Consortium, AQC) avec pour mission d’« aider ses membres dans leur engagement en faveur du management de la qualité et de l’amélioration continue de la qualité note ». Vingt et un établissements le rejoignirent, prenant ainsi, dans la lignée de l’université d’État de l’Oregon, le chemin du TQM. En pratique, ils reprirent les critères du prix Baldrige pour procéder à leur autoévaluation, ce qui ouvrait la voie à une extension de cette récompense au monde éducatif, effective en 1998.

Dans l’intervalle, l’AQC lança en 1995 un projet-pilote visant à prouver l’utilité d’un « benchmarking collaboratif » des activités universitaires. À cette fin, le Consortium commença par choisir les processus, communs à tous les participants, qui allaient pouvoir être comparés : les activités de conseil aux étudiants, d’élaboration des cursus et de recrutement étaient celles qui se prêtaient le mieux à une évaluation comparative. L’autre tâche, épineuse, et qui ne fut pas immédiatement résolue, consistait à convenir d’une « métrique des performances ».

L’un des membres de l’AQC, le Babson College, alla jusqu’à établir un plan stratégique de management de la qualité totale, sur quatre ans (1996-2000), dont la clé de voûte était une démarche de benchmarking non plus collaboratif, mais ouvertement compétitif. Cet établissement était alors dirigé par Bill Glavin, ancien vice-président de Xerox dans les années 1980…

Ces expériences ne restèrent pas confinées aux États-Unis. En Australie, par exemple, l’Université technologique du Queensland lança en 1995 une opération de benchmarking des activités de recherche de ses dix facultés. Plus généralement, c’est toute l’aire anglo-saxonne qui fut prise d’assaut. L’Association des universités du Commonwealth (ACU) et l’Unesco créèrent même un Club de benchmarking international afin de mesurer, d’évaluer et de promouvoir l’« excellence » en matière de management universitaire note. Le benchmarking y était défini comme « un outil servant à améliorer les performances universitaires et le management dans l’enseignement supérieur en comparant les données clés d’une institution avec celles d’une sélection de pairs ». En 1996, il comptait des universités australiennes, canadiennes, hongkongaises, sud-safricaines et britanniques. Les membres du club ne manquaient pas de déplorer que, en Europe continentale, le benchmarking « n’était pas encore d’usage courant ». Ils expliquaient ce retard par le fait que les systèmes nationaux d’ESR y étaient majoritairement publics, et donc encore verrouillés par les procédures budgétaires, comptables et gestionnaires des États note.

Sous les feux croisés de la stratégie de Lisbonne et du processus de Bologne. Au tournant des années 1990, les systèmes européens d’éducation supérieure et de recherche furent percutés par une vague de réformes. Une telle mutation ne fut pas engagée du jour au lendemain et n’est toujours pas achevée. Elle a été préparée bien en amont par tout un réseau d’acteurs formé d’organisations internationales, d’associations professionnelles, de consultants, de lauréats de « prix de la qualité », de statisticiens, d’experts… Ceux-ci n’ayant pas de pouvoir direct sur les systèmes institutionnels publics, leur premier instrument d’action passe par le discours. C’est lui qui forge la mentalité des décideurs.

Parmi cette tripotée d’acteurs, les dirigeants industriels européens, comme leurs homologues aux États-Unis, n’ont pas manqué de faire entendre leur voix sur la réforme des politiques éducatives. La table ronde des industriels européens (European Round Table of Industrialists, ERT) a mis en place un groupe de travail sur l’éducation, qui fut très actif entre 1987 et 1999. Coordonné successivement par les P-DG de Nokia, de Coppée et de Petrofina, il publia notamment des plaquettes en plusieurs langues exposant la vision d’un système d’enseignement efficace, compétitif et tourné vers le monde des entreprises. En 1988, il inaugura, avec la Conférence des recteurs européens note, un forum Université-Industrie. En 1992, un sommet commun fut organisé avec the US Business Higher Education Forum. En 1995, dans un rapport distribué à 30 000 exemplaires, l’ERT prévenait les gouvernants qu’il « devenait urgent d’instaurer un système européen d’information et de surveillance en matière d’éducation afin de partager les expériences, d’évaluer les résultats et d’améliorer la qualité de l’enseignement » à l’échelle du continent note. Il ne s’agissait pas de mettre en place un système scolaire et universitaire unique, de type fédéral, mais plutôt de rendre les systèmes nationaux comparables afin de les engager dans une compétition censée optimiser les performances de chacun et de tous. À cet effet, le benchmarking était vivement recommandé :

L’éducation doit être considérée comme un service rendu aux étudiants, à la société et au monde économique. Comme chaque service, sa qualité doit sans cesse être évaluée et réadaptée. Nous croyons que le positionnement référentiel (benchmarking), et l’assurance qualité, deux outils largement utilisés dans l’industrie, doivent être appliqués aux systèmes scolaires note.

Si l’ERT est loin d’être le seul groupe de pression à élaborer ce genre de discours, son message réussit à convaincre au plus haut sommet des États. En 1999, vingt-neuf ministres de l’Éducation signèrent la déclaration de Bologne. Ce texte fondateur en appelait à la « réalisation d’une plus grande compatibilité et comparabilité entre les différents systèmes d’enseignement supérieur », condition sine qua non pour assurer leur compétitivité internationale. Lors de leur réunion suivante, en 2001, à Prague, ils confirmèrent que « la qualité constitue la condition fondamentale pour garantir confiance, pertinence, mobilité, compatibilité et attractivité au sein de l’Espace européen de l’enseignement supérieur note ».

Au sommet de Lisbonne, en 2000, les membres de l’UE avaient inclus le benchmarking parmi les instruments disponibles pour édifier un Espace européen de la recherche et de l’innovation (EER). Les chefs d’État et de gouvernement avaient même demandé à la Commission et au Conseil d’« encourager l’élaboration d’une méthode ouverte de coordination [MOC] destinée à évaluer les performances des politiques nationales de recherche et de développement note ». Concrètement, il s’agissait de « recenser, pour juin 2000, les indicateurs permettant d’évaluer les performances dans différents domaines, en particulier en ce qui concerne le développement des ressources humaines », et de « mettre en place d’ici à juin 2001 un tableau de bord européen en matière d’innovation ».

Le but était de conduire les États membres à employer le benchmarking pour améliorer la qualité des personnels éducatifs, de l’enseignement et des résultats obtenus. Les ministres de l’Éducation ont ainsi convenu d’un ensemble d’objectifs et d’indicateurs communs équipant non seulement une évaluation comparative des performances nationales intraeuropéennes, mais également leur confrontation avec des benchmarks extra-européens note.

Que ce soit au plan paneuropéen avec le processus de Bologne ou dans le cadre strict de l’UE avec la stratégie de Lisbonne, prorogée en 2010 par le programme « Europe 2020 », le management de la qualité au moyen du benchmarking s’est donc imposé comme le mode légitime de gouvernement des systèmes nationaux d’ESR et, en leur sein, des établissements eux-mêmes. L’idée-force selon laquelle « la quête d’excellence dans l’enseignement supérieur […] requiert un souci constant de la qualité » rend alors nécessaire une plus grande comparabilité des systèmes et des établissements. Celle-ci a été obtenue à travers, d’une part, l’adoption de « références européennes et lignes directrices pour l’assurance qualité » et, d’autre part, la création d’un « Registre européen des agences d’assurance qualité note (telles que l’AERES en France). Outre la qualité, l’autre mot d’ordre de Bologne est la mobilité (géographique) des étudiants et la mobilité (sectorielle) des personnels. Leur libre circulation — entre les pays et entre les secteurs public et privé — est supposée favoriser à la fois la coopération et la compétition entre les institutions universitaires, ce qui devrait améliorer non seulement la qualité pédagogique, mais encore l’excellence scientifique. Pour l’encourager, les ministres concernés ont fait établir une base de données permettant de pratiquer un benchmarking en la matière note. La première cible visée est que 20 % des diplômés universitaires aient été mobiles pendant leurs études à des fins d’apprentissage. Quant à la Commission européenne, elle a contribué à ce processus intergouvernemental en confortant la direction prise vers un « marché des connaissances » :

L’amélioration continue de la qualité d’enseignement et d’apprentissage est la mission principale des universités. Les établissements peuvent s’aider les uns les autres à s’améliorer à travers l’assistance mutuelle et le benchmarking note.

La Commission promeut ainsi les exercices de benchmarking comme s’il s’agissait de processus d’apprentissage mutuel déclinables jusqu’à l’échelle individuelle. De son point de vue, ils n’aident pas simplement les pays et les régions, les universités et les centres de recherche, mais aussi les personnels et les étudiants à comparer leurs propres performances aux autres. Afin d’initier les universités à la démarche du benchmarking, des financements européens ont été alloués au Centre européen pour le management stratégique des universités (ESMU), lequel organise des séries de conférences et d’« ateliers de dissémination » à travers le continent. Leur objet : dispenser des conseils pratiques et faire connaître aux responsables universitaires des cas concrets de benchmarking portant sur leur « gouvernance », leurs relations avec les entreprises ou leur offre de formations. Une autre façon d’inciter les universités à se mettre au benchmarking est de les confronter à leur rang dans des palmarès souvent peu flatteurs. La Commission travaille ainsi à un classement européen des établissements d’enseignement supérieur, baptisé U-Multirank, qui fera sans doute la part plus belle aux universités du continent que celui de Shanghai, mais les poussera de ce fait à intensifier leurs efforts pour gagner des places, voire rejoindre le peloton de tête.

Aux membres de l’UE, la Commission a enfin suggéré de mettre en pratique un « benchmarking international des performances universitaires et des résultats scolaires ». Dans une de ses communications, elle vante les mérites de cette technique censée « susciter du dynamisme et favoriser l’appropriation de la nécessité de réformer ». À cet effet, les gouvernants doivent se mettre d’accord sur des « objectifs plus clairs et des benchmarks transparents », tandis que la Commission se charge du suivi et des bilans annuels restituant l’état d’avancement vers les cibles fixées note. Avec la stratégie « Europe 2020 », les États membres ont effectivement mis l’accent sur quelques indicateurs et cibles précis, tels que le taux de diplômés du supérieur parmi les 30-34 ans (objectif : 40 % d’ici 2020), la proportion de licenciés en sciences, mathématiques et technologies (objectif : + 15 % par rapport à 2000) et toujours les 2 % de dépenses. Ces chiffres sont adossés à un discours politique qui prétend « moderniser » les systèmes européens d’enseignement supérieur et permettre aux établissements de jouer un rôle moteur dans le développement du « capital humain » au profit de l’« innovation ». Ce discours s’inscrit dans la perspective d’une « économie de la connaissance » exigeant une main-d’œuvre hautement qualifiée, à qui la formation universitaire doit apporter certes des savoirs pointus, mais aussi des « compétences de base », résumée en trois termes : « communication, flexibilité, esprit d’entreprise ».

Tout au long de la dernière décennie, les déclarations ministérielles, les conclusions du Conseil européen et les communications de la Commission ont contribué à transformer la représentation dominante des universités. L’image d’« institutions culturelles et éducatives, dispensatrices de valeurs note » tend à s’effacer progressivement au profit d’une conception plus économique, plus attentive au value for money. La Commission préfère les présenter comme les protagonistes d’un « marché des connaissances » en gestation. Elles seraient en effet au cœur de ce qu’on appelle le « triangle de la connaissance », formé par la recherche, l’éducation et l’innovation. Par leurs activités scientifiques, elles sont présumées produire des savoirs utiles ; leurs activités pédagogiques sont censées en assurer la (grande) distribution ; et leurs opérations de brevetage et de transfert vers les entreprises doivent en valoriser le potentiel marchand. D’après la Commission, le « temps où, traditionnellement, les savoirs acquis dans l’espace scientifique académique constituaient un patrimoine ouvert, mis à la disposition de tous, appartient au passé. Dans le champ des connaissances, production rime aujourd’hui avec protection et exploitation note ». Les enjeux économiques et financiers sont énormes.

Selon la Commission, les universités européennes, qui emploient plus d’un million de personnes et sont fréquentées par quelque 15 millions d’étudiants, ne peuvent plus se retrancher derrière un statut d’exception qui leur permettait d’échapper au « devoir de performance ». Il devient urgent de briser leur singularité en s’interrogeant sur ce qu’elles « valent ». En 2002, elle ose le questionnement suivant : « Comment juger et jauger une université ? Faut-il établir des comparaisons entre institutions, pays, disciplines ? Qu’est-ce qu’un pôle d’excellence ? Doit-on lier performances et subsides note ? » Les universités doivent accepter de passer au crible d’un ensemble d’évaluations qui érodent leur autonomie. Finie l’impunité accordée à nos alma mater ; dorénavant, « les évaluateurs les tiennent à l’œil », prévient la Commission. Sommées de « délivrer des services efficaces » à leurs « étudiants-clients », d’attirer des « chercheurs-entrepreneurs » productifs et de « rendre des comptes aux pouvoirs publics qui les financent », elles se sont en effet soumises à l’épreuve des classements internationaux, des assurances qualité, des questionnaires étudiants et des audits externes conduits par des agences réputées indépendantes.

Une « révolution culturelle de l’université française » en quatre actes

Ni les recommandations émanant de l’OCDE ni les lignes directrices européennes ne sont dotées de force contraignante. Les États membres demeurent souverains en ce domaine et n’envisagent pas pour l’instant de se déprendre de leurs prérogatives au bénéfice d’instances supranationales. Pour autant, ils ne restent pas sourds aux discours dominants qui assènent l’impératif d’une « modernisation » de leurs universités et laboratoires. Comme le répètent inlassablement les leaders d’opinion (organisations internationales, think tanks, groupes de pression, consultants en management, etc.) qui ont l’oreille des gouvernants politiques, c’est à ces derniers qu’il revient d’agir en imposant un cadre légal, comptable, financier et administratif qui transforme les façons de voir et de faire des acteurs éducatifs et scientifiques.

En France, après avoir été amorcée sous le patronage du ministre Claude Allègre et de Jacques Attali, la « modernisation » de l’enseignement supérieur et de la recherche a été érigée au rang de priorité stratégique par le président Sarkozy, qui a confié cette mission à Valérie Pécresse. Celle-ci a énoncé son ambition dans les mêmes termes que la Commission européenne : « Déclencher la révolution culturelle de l’université française note. » Une métaphore qui laisse songeur lorsqu’on sait le sort que la révolution culturelle chinoise réservait aux intellectuels et aux universitaires… Mais, sous la « révolution » annoncée, la réaction ne tardait pas à pointer le bout de son nez : « D’ici à 2012, j’aurai réparé les dégâts de Mai 68 », ajoutait la ministre.

Aux principes de démocratie, de collégialité et d’égalité d’accès, il s’agissait de substituer les slogans d’« autonomie », de « qualité » et d’« excellence ». Ce fut en partie fait avec la loi relative aux libertés et responsabilités des universités (LRU), votée à l’été 2007. Claude Guéant confia que c’était celle dont le président Sarkozy était « le plus fier note ». « La plus belle du quinquennat », ajouta Laurent Wauquiez note.

La réalité est moins glorieuse. À maints égards, cette loi illustre comment les réseaux du benchmarking métamorphosent le mode de gouvernement des universités. Pour en saisir les enjeux, il faut rappeler trois autres événements : la conclusion du Pacte pour la recherche, la création de l’ANR et celle de l’AERES.

Acte I : un Pacte pour la recherche. « Renforcer les capacités d’orientation stratégique ; bâtir un régime d’évaluation unifié, cohérent et transparent ; rassembler les énergies et faciliter les coopérations entre les acteurs de la recherche ; offrir des carrières scientifiques attractives et évolutives ; intensifier la dynamique d’innovation et rapprocher davantage la recherche publique et la recherche privée ; renforcer l’intégration du système français de recherche dans l’Espace européen de la recherche » : voilà les six objectifs poursuivis par le Pacte que le gouvernement de Villepin a scellé en 2006. Il a agi unilatéralement, car le train de mesures financières et institutionnelles annoncé ne correspond pas aux propositions exprimées par la communauté scientifique à l’occasion des états généraux de la recherche tenus en 2004. L’objectif était de « rénover le système national de recherche et d’innovation » dans l’esprit managérial matérialisé par les réseaux du benchmarking. Plusieurs aspects du Pacte témoignent de cette influence.

D’abord, il traduit à l’échelle nationale des engagements pris au niveau communautaire pour édifier l’Espace européen de la recherche. Par la loi de programme du 18 avril 2006, il manifeste la volonté de l’État français de mettre en œuvre une politique d’investissement dans ce secteur. Plus précisément, la loi fixe l’objectif d’un « budget recherche » de 24 milliards d’euros en 2010, soit 3 % du PIB conformément à la norme européenne. Dans la même perspective, de nouveaux allègements fiscaux sont prévus pour les entreprises qui investissent dans la recherche. Aussi paradoxal que cela puisse paraître, pour doper les dépenses privées, les pouvoirs publics mettent la main au portefeuille : le crédit d’impôt recherche n’augmente pas, il explose ! De 650 millions d’euros en 2004, il passe à près de 5 milliards en 2011. L’effet étant de privatiser les résultats d’une recherche qui demeure en fait, par l’intermédiaire de la fiscalité, financée sur deniers publics.

Le Pacte s’efforce ensuite de rendre visible la recherche française dans les palmarès internationaux. On encourage pour cela les centres de recherche à renforcer leurs coopérations, voire à fusionner sous la forme de pôles de recherche et d’enseignement supérieur (PRES). Avec les « pôles de compétitivité », on adjoint des entreprises aux universités et aux laboratoires, afin de favoriser les transferts technologiques. Cette politique du big is beautiful, qui entend fédérer les universités, les grandes écoles et les laboratoires, a pour but non seulement de faire des économies d’échelle, mais aussi d’atteindre une taille critique qui les rende visibles dans le fameux classement de Shanghai. L’intention de faire émerger des sites capables d’affronter la « concurrence mondiale » est clairement affichée avec les « pôles d’excellence » — et autres « laboratoires d’excellence » (Labex), « initiatives d’excellence » (Idex) ou « équipements d’excellence » (Équipex) — que le gouvernement propose de financer avec un « Grand Emprunt », tourné vers des « investissements d’avenir » (sic). Pour espérer figurer en bonne place dans les classements internationaux des universités, il faut entrer dans une course aux performances scientifiques et technologiques qui implique une concentration des moyens, à la fois territoriale et disciplinaire.

Ce réaménagement du paysage scientifique ne se réduit pas à une série de néologismes risibles en « -ex ». Il a été traduit en programmes, objectifs et indicateurs de performance dans le cadre de la LOLF. Dans le projet de loi de finances rectificatif pour le « Grand Emprunt », on trouve un programme intitulé « Pôles d’excellence » affichant l’objectif d’« améliorer la place de la France dans les classements internationaux de l’enseignement supérieur et de la recherche », avec comme indicateur le nombre d’établissements classés (parmi les vingt premiers et parmi les cent premiers) dans le classement de Shanghai et dans le classement européen en cours de construction.

Plus généralement, si le Pacte est noué en 2006, c’est aussi pour couler la recherche dans le moule imposé par la LOLF, qui entre alors en application. La mission interministérielle Recherche et enseignement supérieur (MIRES) compte ainsi dix programmes, dont le « programme 172 » relatif aux « Recherches scientifiques et technologiques pluridisciplinaires » (voir les objectifs et la batterie d’indicateurs afférents, figure 9, p. 189). Les responsables des programmes s’engagent dans les projets annuels de performance (PAP) sur des « cibles de résultats » chiffrées (benchmarks) à moyen terme (voir figure 10, p. 190).

Reste à équiper l’allocation des moyens et l’évaluation des résultats pour satisfaire pleinement aux exigences de la LOLF. C’est ce qu’a accompli le Pacte en confiant le financement des projets scientifiques à l’Agence nationale de la recherche (ANR), dont le budget de 350 millions d’euros à sa création en 2005 va tripler en quatre ans.

Figure 9. Objectifs et indicateurs 2011 du programme nº 172 de la MIRES

Source : Projet annuel de performance de la MIRES — projet de loi de finances 2011, p. 249.

Figure 10. Résultats obtenus/attendus et cibles visées pour 2013 (extrait relatif aux trois premiers indicateurs)

Source : Projet annuel de performance de la MIRES — projet de loi de finances 2011, p. 268-270.

Acte II : l’ANR entre en scène. L’activité de l’ANR relaie pleinement la logique du benchmarking, au moins de deux manières. D’abord, en finançant des projets poursuivant des objectifs précisément définis a priori et évalués a posteriori, sa mission est d’« augmenter la dynamique du système français de recherche et d’innovation en lui donnant davantage de souplesse ». À cette fin, elle substitue au financement récurrent des laboratoires scientifiques un mécanisme de financement à durée déterminée, sur projets, à travers des appels d’offres compétitifs destinés à la fois aux établissements publics et aux entreprises. Via la mise en concurrence, elle entend ainsi « promouvoir le développement des recherches fondamentales et appliquées, l’innovation et le transfert technologique, les collaborations internationales ainsi que le partenariat entre le secteur public et le secteur privé note ».

Ensuite, l’ANR a adopté une « politique qualité » qui met l’accent sur trois axes stratégiques : « action centrée sur la satisfaction des équipes de recherche ; amélioration continue des modes de fonctionnement ; développement des compétences du personnel ». Les « objectifs qualité » du premier axe visent à « être à l’écoute des équipes de recherche » et à « réduire les délais opérationnels » ; ceux du deuxième, à « accroître le taux de réalisation du plan de progrès » tout en « minimisant les frais de gestion » ; et ceux du dernier, à « optimiser l’organisation des services » ainsi qu’à « assurer l’adéquation des compétences du personnel aux évolutions de l’Agence ».

Acte III : l’AERES ou l’évaluation mise en abyme. L’AERES est chargée d’évaluer les établissements d’enseignement et de recherche, les organismes de coopération scientifique ainsi que l’ANR. Cette démarche d’évaluation externe participe de la mise en place de la LOLF qui oblige les acteurs du service public de l’ESR à rendre compte de leurs performances. Elle est conçue en complément d’une « démarche qualité », interne aux organisations évaluées, qui sont censées elles-mêmes procéder à des exercices d’autoévaluation. Elle s’articule également aux opérations d’évaluation comparative en cours au niveau européen, conduites par les acteurs du processus de Bologne, en particulier l’Association européenne pour l’assurance qualité dans l’enseignement supérieur (ENQA), dont l’AERES est membre.

Cette affiliation n’a rien d’automatique : il faut que les évaluations de l’AERES soient régulièrement évaluées par l’ENQA au regard des critères de qualité. Il y a là une récurrence infinie d’évaluations gigognes, comme mises en abyme. Pour être reconnue par l’ENQA et gagner en légitimité, les agences nationales doivent se soumettre à un comité d’experts qui procède à une évaluation externe, mais elles doivent aussi engager elles-mêmes une autoévaluation de leur « politique qualité », l’autoévaluation étant en soi un critère de qualité organisationnelle. Il y a de quoi s’y perdre… L’AERES a ainsi adopté depuis 2009 une « démarche qualité » en son sein, dans le souci de produire une évaluation de qualité de la qualité des établissements d’enseignement et de recherche, des formations et des diplômes. Un processus bien complexe…

Afin d’accomplir sa mission évaluatrice, elle applique les « références et lignes directrices pour le management de la qualité dans l’Espace européen de l’enseignement supérieur » (European Standards and Guidelines, ESG), adoptées à Bergen en 2005 par les ministres de l’Enseignement supérieur des pays membres du processus de Bologne. Elle en expose les implications dans sa « déclaration de politique qualité note ». De son propre aveu, le respect de ce référentiel l’amène à « mettre en œuvre un système de management de la qualité, fondé sur l’approche processus et adapté aux finalités de l’action de l’agence dans l’ensemble de sa structure et de ses activités » ; à « lui affecter les moyens nécessaires » ; à « fournir un cadre pérenne pour établir et revoir ses objectifs en matière de qualité, évaluer régulièrement leur adéquation avec les besoins des différentes parties prenantes, mettre en œuvre les évolutions et améliorations nécessaires » ; à « améliorer de façon continue l’efficacité de ses méthodes et procédures ».

Par ailleurs, cette politique requiert l’adhésion non seulement des personnels, mais aussi de la communauté scientifique dans son ensemble. Tous doivent œuvrer à l’« amélioration continue de la qualité », non pas tant de l’enseignement supérieur et de la recherche que de ses évaluations suivant trois critères : 1) l’adéquation de son activité aux attentes des parties prenantes, en d’autres termes la satisfaction du client ; 2) l’efficacité de son organisation ; 3) l’amélioration continue de ses évaluations. Si l’AERES a rendu publique sa démarche et souhaite que les structures évaluées se l’approprient, c’est pour les conduire à adopter un certain nombre de principes et de pratiques organisationnels. Les évaluations de l’AERES ne visent pas le contenu des recherches ou des formations, mais leur management, la manière dont les laboratoires et les universités sont organisés.

Dans son Plan stratégique 2010-2014, l’AERES va plus loin. En vue de soutenir le déploiement des démarches qualité, elle propose de diffuser son propre modèle de système de management de la qualité (baptisé SMQ) et de constituer une base de données synthétisant les dossiers et les rapports d’évaluation afin d’ouvrir la voie au benchmarking de toutes les entités évaluées. Elle rejoint ainsi la pente esquissée par la commission des Affaires économiques du Sénat qui, dans son rapport sur le projet de loi de finances 2007, recommandait « l’application de critères harmonisés à l’ensemble des organismes et des unités de recherche ainsi que la publicité des évaluations » et exprimait un double souhait. D’une part, que « les rapports annuels de l’AERES au Parlement donnent lieu à un classement des laboratoires, mêlant universités et organismes, et distinguant les meilleures unités dans chaque discipline, afin de faire émerger les opérateurs les plus performants » et, d’autre part, que « l’évaluation puisse avoir de réelles conséquences en termes d’attribution des moyens, aussi bien au niveau de l’État lors de la construction du projet de loi de finances et de la signature des contrats avec les établissements, qu’au niveau des établissements eux-mêmes lors de l’octroi des dotations aux unités ». Et de conclure que de telles orientations seraient « conformes à la fois à la promotion de l’excellence qui caractérise l’ensemble de la loi de programme pour la recherche et à la logique de performance qui s’impose désormais aux finances de l’État dans le cadre de la LOLF note ».

Sans surprise, l’évaluation comparative des établissements d’enseignement supérieur est prise comme exemple (avec le cas des hôpitaux) dans la note de cadrage que la DGME consacre au benchmarking en vue d’en propager l’usage dans l’administration publique.

Acte IV : le dispositif LRU. L’évaluation des universités, de leurs équipes de recherche et de leurs formations, est considérée par l’AERES comme le « corollaire indispensable de leur autonomie », autonomie promise par la loi LRU. Concrètement, en quoi consistent cette « liberté » et cette « responsabilité » nouvelles conférées par la loi ?

En assignant aux établissements un impératif de compétitivité, d’attractivité et de performance, elle a établi les conditions de leur managérialisation fondée, d’une part, sur des dispositifs internes de rationalisation budgétaire et de pilotage par objectifs et, d’autre part, sur des appels à projets successifs qui les ont enrôlés dans une course sans relâche pour arracher les moyens de leur survie. L’eldorado que promettait le passage aux « responsabilités et compétences élargies » (RCE), censées libérer les universités du carcan étatique, a en fait placé huit d’entre elles en situation d’« autonomie surveillée », sous tutelle des recteurs, tandis que les autres connaissent désormais les joies de la quête des financements propres. Démarcher les entreprises, quémander des dons auprès des réseaux d’anciens étudiants, augmenter les droits d’inscription, bref, « se vendre » : voilà la compétence nouvelle gagnée par les universités.

Quant au financement public, toujours prédominant, son allocation est partiellement subordonnée depuis 2009 aux performances enregistrées. Le recours à un système d’allocation des moyens à la performance et à l’activité (modèle Sympa) a en effet soumis 20 % des crédits à des critères tels que le nombre d’enseignants-chercheurs « publiants » (voir figure 11, p. 196). Il sert ainsi à répartir entre les universités les moyens fixés par la loi de finances, en fonction de leur activité et de leurs résultats.

L’ensemble des éléments institutionnels, juridiques, financiers, professionnels, gestionnaires, composant le dispositif LRU, semblent directement répondre aux prescriptions que la Commission européenne a émises en 2006 pour « faire réussir le projet de modernisation » des universités note. D’après celle-ci, les universités européennes sont « mal placées dans la concurrence internationale croissante pour les meilleurs étudiants et enseignants-chercheurs », car elles souffrent d’un « excès de contrôle public », d’un « niveau d’uniformité non souhaitable » et d’une « insuffisance des financements » qui ne leur permettent pas de « développer leurs propres points forts et de différencier leurs activités eu égard à ceux-ci ». Afin d’y remédier, il incombe aux États membres de « créer les conditions nécessaires pour que les universités soient en mesure d’améliorer leurs performances, de se réformer et de devenir plus compétitives, en bref d’être les acteurs de leur propre renaissance afin de jouer leur rôle dans la création de la société du savoir envisagée dans le cadre de la stratégie de Lisbonne ». Il leur faut entre autres accorder « une autonomie et une responsabilité effectives » aux universités, lesquelles doivent en contrepartie accepter de leur rendre des comptes.

C’est ce nouveau rapport État-universités qu’instituent en France les réseaux du benchmarking par le biais de la loi LRU. D’un côté, l’État doit « piloter le secteur universitaire dans son ensemble au moyen d’un cadre de règles générales, d’objectifs stratégiques, de mécanismes de financement et de mesures incitatives ». De l’autre, les universités doivent adopter « de nouveaux modèles de gouvernance interne basés sur l’adoption de priorités stratégiques et sur une gestion professionnelle de leurs ressources humaines, de leurs investissements et de leurs procédures administratives ». Elles doivent ainsi « être financées davantage pour ce qu’elles font que pour ce qu’elles sont, en basant le financement sur les résultats qu’elles produisent plutôt que simplement sur les moyens qu’elles utilisent », ce qu’accomplit le modèle Sympa.

Figure 11. Présentation simplifiée du modèle Sympa sur la base du montant des crédits répartis en 2009

Source : Sénat (commissions de la Culture et des Finances), « Autonomie budgétaire et financière des universités et nouveau système d’allocation des moyens (Sympa) : le chemin de la vertu ? », Rapport d’information, nº 532, déposé le 7 juillet 2009.

Il en va du gouvernement du système national d’enseignement et de recherche comme du pilotage des universités. Les résultats individuels des établissements d’enseignement et équipes de recherche sont ainsi agrégés dans les tableaux de bord de la LOLF. Les formations supérieures et la recherche universitaire constituent le « programme 150 », qui compte neuf objectifs et une batterie de vingt-six indicateurs (dans le PAP pour 2011) (voir figure 12, p. 198).

Chaque indicateur est scruté sur cinq ans : ses valeurs passées sont enregistrées de façon à envisager une évolution positive pour l’année en cours et la suivante, en vue d’atteindre la cible fixée à une échéance de trois ans. Si on prend comme exemples les trois indicateurs suivants (voir figure 13, p. 199) ou ceux du programme 192 (voir figure 10, p. 190), il est frappant de constater que les objectifs chiffrés semblent à portée de main. D’après les prévisions affichées, ils exigent certes un effort, mais n’en demeurent pas moins accessibles. Il s’agit en effet de ne pas décourager les responsables, ni d’attiser leur hostilité envers un dispositif récent, dont la mise en place a été assez laborieuse et très critiquée, et qui a donc encore besoin de gagner en légitimité. Par ailleurs, on remarque que l’indicateur 7.3 (voir figure 13, p. 199, au centre), censé mesurer le « dynamisme des équipes de recherche » en s’appuyant sur les données d’évaluation de l’AERES, ne donne lieu ni à des prévisions ni à un benchmark. Les résistances à l’encontre de la catégorie « enseignants-chercheurs produisants » et de la notation des laboratoires, exprimées avec force lors des mobilisations de 2009 notamment, ne sont sans doute pas pour rien dans les précautions prises ici.

Figure 12. Objectifs et indicateurs de performance du programme nº 150

Source : Projet annuel de performance de la MIRES — projet de loi de finances 2011, p. 26-27.

Figure 13. Résultats obtenus/attendus et cibles visées pour 2013 (extrait)

Source : Projet annuel de performance de la MIRES — projet de loi de finances 2011, p. 46, 65, 67.

« L’Université n’est pas une entreprise, le Savoir n’est pas une marchandise »

Tel est le slogan des manifestations qui ont déferlé en France, comme dans toute l’Europe, avec une intensité accrue à partir de 2007. Ces vagues de mobilisation, mêlant plus ou moins les étudiants aux personnels enseignants, scientifiques et administratifs, ont souvent été massives. Parallèlement, de manière plus discrète, mais davantage en continu, des initiatives individuelles ou locales multiplient les contre-feux qui sabotent ou tournent en dérision les réseaux du benchmarking.

Vagues de mobilisations. Dès 2004, les chercheurs français — pourtant peu habitués aux actions collectives — se sont mobilisés contre le projet de loi d’orientation et de programmation pour la recherche et l’innovation (LOPRI) du gouvernement Raffarin, lequel prévoyait une baisse des crédits, une suppression de postes ou encore un soutien sans précédent à la recherche privée. À l’appel lancé par une association créée pour l’occasion et baptisée Sauvons la recherche (SLR), ainsi que par quatorze syndicats, des milliers de manifestants ont arpenté les rues à la surprise générale, tandis que des pétitions sensibilisaient l’opinion publique. Trois mille directeurs de recherche sont même allés jusqu’à démissionner de leurs fonctions administratives. L’échec électoral aux régionales de 2004, suivi d’un remaniement ministériel, a débouché sur un retrait du projet qui ressuscitera sous la forme du Pacte.

À la rentrée 2007, c’est contre la loi LRU que les manifestations, grèves et « blocages » ont proliféré à l’instigation des organisations étudiantes, relayées début 2009 par les personnels qui se mobilisaient contre ses décrets d’application note. Outre les enjeux financiers de cette loi qui ouvre la voie à une hausse des droits d’inscription et au financement des universités à la performance, les protestataires mettaient en cause non seulement une conception économiciste, néolibérale du savoir, mais aussi une mutation des conditions d’étude et de travail sous l’effet des nouveaux dispositifs managériaux.

La France est loin d’être un cas particulier en la matière. Cette métamorphose de l’université concerne l’ensemble des pays membres de l’OCDE, de l’UE ou du processus de Bologne note, et on observe partout des réactions multiformes émanant des chercheurs, enseignants et étudiants. Il faut reconnaître à ces derniers une capacité de mobilisation sans pareil, qui les place très souvent à l’avant-garde des mouvements.

La fréquence, la durée et la mise en réseau des mobilisations étudiantes à travers le monde depuis 2007 interdisent de les appréhender isolément note. Leurs cibles, mots d’ordre et modes d’action composent un arsenal certes bigarré, à chaque fois enrichi par l’inventivité locale, mais en grande partie commun et partagé. Du Chili au Canada en passant par les États-Unis, de l’Italie à la Finlande via l’Autriche, de la Malaisie à la Corée du Sud via Taïwan, du Togo à la Syrie en passant par la Tunisie, les universités sont le terrain de luttes, petites et grandes, contre leur privatisation et leur managérialisation. Dix ans après Bologne, le printemps 2009 a été « chaud » dans toute l’Europe : occupation d’universités à Barcelone comme à Copenhague, Bildungstreik en Allemagne note, sit-in au Royaume-Uni, etc. Au-delà d’une simple juxtaposition de mouvements nationaux, les collectifs, associations et syndicats mobilisés ont travaillé à certaines coordinations sous la forme de contre-sommets ou d’appels à des journées, voire à des semaines d’actions, toujours décentralisées mais synchrones, pour rendre visibles et contester partout les politiques de déstructuration des universités publiques et les coupes budgétaires qui affectent l’éducation dans son ensemble. Tout au long de l’année 2011, et de manière amplifiée au premier semestre 2012, l’augmentation des frais d’études dans de nombreux pays de l’OCDE a mis le feu aux poudres dans un contexte d’endettement généralisé et de démantèlement des services publics. Sur les campus californiens et québécois note, de l’île de Mindanao aux rues de Santiago ou de Dublin, la tension est montée et des violences ont éclaté entre les forces de police et des étudiants de mieux en mieux organisés note.

Les batailles contre l’invasion des chiffres gestionnaires dans le quotidien des personnels universitaires sont moins spectaculaires. À l’exception de rares actions visibles comme, par exemple, l’occupation du siège de l’ANR par des centaines de chercheurs en 2008, la plupart des résistances à l’extension des réseaux du benchmarking prennent des formes assez silencieuses.

Contre-feux. Du chercheur individuel au système national d’ESR, en passant par les laboratoires et les établissements de formation, tous les niveaux sont affectés par les principes et les outils de la NQP. En France, les performances du pays sont soumises au benchmarking intergouvernemental pratiqué par l’UE dans le cadre de la stratégie de Lisbonne ; celles des universités et du Centre national de la recherche scientifique (CNRS) sont passées au crible des référentiels de l’AERES et conditionnent leur budget ; les équipes sont mises en compétition pour obtenir des financements de l’ANR ; les individus sont pris dans une course aux publications et aux primes.

Échelon par échelon, on peut à chaque fois repérer des contestations contre l’évaluation comparative qui n’est jamais allée de soi.

L’État français a dans un premier temps manifesté ses réticences à l’égard de la publication par la Commission européenne de classements. Mais cette dernière, devenue maîtresse dans l’art de ménager les susceptibilités souveraines, a su lever les freins au benchmarking des politiques nationales de recherche en offrant à chaque pays un palmarès qui le plaçait dans le peloton de tête. Dans les « chiffres clés 2011 », la France apparaît certes comme la lanterne rouge de l’Europe s’agissant de la croissance annuelle des dépenses en R&D mais, six pages plus loin, elle peut se vanter d’être en tête du classement établi en fonction de l’indicateur mesurant la part du budget gouvernemental allouée à la R&D note.

Contre les injustices du système Sympa, huit présidents d’université ont signé une tribune publiée dans Le Monde note, tandis que le président du CNRS critiquait vivement l’évaluation « hors sol », froide et bureaucratique, de son organisme par l’AERES note. Au niveau des équipes, de très nombreux laboratoires s’étaient déclarés en lutte contre le dispositif LRU-ANR-AERES lors du mouvement historique de 2009 note.

Quant à l’individu, s’il est enserré de toutes parts par les réseaux du benchmarking, il peut s’en extirper de diverses façons. Aux techniques managériales qui consistent à l’« activer », l’ (enseignant-) chercheur peut tout simplement opposer une résistance passive. À la manière de Bartleby, il peut préférer ne pas calculer son « facteur h », l’indice censé mesurer sa productivité scientifique par le niveau de citations de ses travaux ; ou ne pas destiner ses publications aux revues bénéficiant d’un « facteur d’impact » (impact factor) élevé d’après le classement établi par ISI Thomson Reuters™ « en fonction du nombre de citations desdites revues dans d’autres revues (c’est évidemment un serpent qui se mord la queue, mais, vous l’avez compris, on en est plus à ça près) note ». Il peut également ne pas solliciter la « prime d’excellence scientifique » (PES), emblématique d’un management par l’« émulation premiale note » qui se propose de « responsabiliser les acteurs » par l’inculcation d’une culture du résultat et par des incitations financières sous la forme de primes. De manière plus offensive, il peut rejoindre des associations ou des syndicats qui s’évertuent à organiser des actions collectives, faire preuve de désobéissance note ou encore participer à des mouvements comme le « Slow Science » qui imaginent des contre-discours et des contre-pratiques note.

Police, hôpital, université : trois terrains où se déploient les réseaux du benchmarking et les résistances qui leur opposent une autre vision du service public et d’autres modes de gouvernement. Les activités de quantification et d’évaluation sont bien entendu propres à chaque secteur, mais elles partagent un même esprit managérial de contrôle. Nous pourrions compléter ce panorama partiel par les cas de l’école note, de l’armée ou encore de la culture et du « service public de l’emploi » note, tous confrontés aux contrats d’objectifs, indicateurs de performance et cibles chiffrées. Mais un seul ouvrage n’y suffirait pas : pour couvrir l’extension des réseaux du benchmarking, il y faudrait plusieurs volumes. De même pour les expériences militantes, dont nous n’avons ici mentionné que quelques exemples. C’est à elles que nous souhaiterions consacrer notre conclusion (et un prochain livre), et plus précisément au « statactivisme », cette forme de militantisme qui recourt aux statistiques comme outils d’émancipation.

INTRODUCTION