Lire le texte en plein écranImprimer la pageEnvoyer ce texte par email

 

 

Roger Perron, Bernard Brusset, Clarisse Baruch, Dominique Cupa, Michèle Emmanuelli
Quelques remarques méthodologiques à propos du rapport Inserm
« Psychothérapie. Trois approches évaluées »

On ne peut qu’approuver l’intention de ce travail. Il est en effet devenu indispensable d’éclairer les professionnels et, au-delà, le public, sur l’utilité de psychothérapies dont l’offre prolifère, selon des techniques qui vont du plus sérieux au plus fantaisiste, à la limite parfois de l’abus de confiance si ce n’est de séductions sectaires. On ne peut donc que saluer l’initiative prise par la Direction Générale de la Santé d’en demander l’évaluation à l’INSERM. Encore faut-il qu’une telle évaluation soit objectivement conduite, et que, prétendant établir la valeur scientifique des thérapies examinées, elle soit elle-même scientifique.

Tel n’est pas le cas. Ce Rapport scandalise par ses méthodes, de toute évidence biaisées à chaque étape de la démarche d’évaluation par des préjugés bien peu scientifiques. Tout y semble fait pour déboucher sur les conclusions souhaitées au départ…

Rappelons que les psychothérapies évaluées y sont présentées sous trois grandes rubriques : l’approche « psychodynamique (psychanalytique) », l’approche « cognitivo-comportementale », et l’approche « familiale et de couple ». Les résultats semblent tout à fait nets : selon les conclusions générales de ce Rapport, les techniques “ cognitivo-comportementales ” seraient de loin les plus efficaces ; les thérapies “ familiales et de couple ” feraient un peu moins bien ; quant aux approches dites « psychodynamiques (psychanalytiques) », elles seraient d’une d’efficacité douteuse ou nulle.

Il est bien à craindre que cela seul soit retenu par un public peu soucieux de lire les 553 pages de ce Rapport, ou même la “ Synthèse ” d’une cinquantaine de pages mise en circulation sur Internet.

Ces conclusions valent ce que vaut la démarche utilisée pour y parvenir. Or cette démarche qui s’affirme « scientifique » est biaisée par toute une série de présupposés et d’erreurs méthodologiques dont nous soulignerons ici quelques aspects.

Considérons d’abord l’objet même de ce travail, évaluer l’efficacité des psychothérapies. Il peut paraître évident ; or il n’en va pas ainsi. Car qu’entendre par le terme “ psychothérapie ” ? Dans le Rapport, ce terme est réduit à des démarches médicales ou paramédicales visant à guérir des maladies (en ce cas des maladies psychiques). Les professionnels concernés ne peuvent accepter une définition aussi restrictive qui désigne par principe les personnes dont ils s’occupent comme des “ malades ”. En outre, ce texte emploie constamment l’expression “ approche psychodynamique (psychanalytique) ”, expression qui se veut prudente mais est en fait très imprudente. Elle favorise en effet une extrême confusion avec la psychanalyse en tant que théorie (aucun des travaux recensés ne porte sur la théorie psychanalytique elle-même, dont la critique ne peut évidemment pas relever des méthodes adoptées) ; et en tant que technique thérapeutique, car il s’agit essentiellement de psychothérapies “ brèves ” (5 à 25 séances en tout…), conduites selon des procédures parfois fort éloignées de la cure psychanalytique proprement dite, même si leurs promoteurs se disent psychanalystes (assertion que les auteurs du Rapport ne contrôlent ni ne peuvent contrôler en aucune façon). On trouve d’ailleurs sous la plume des auteurs de bien étranges assertions. De façon réitérée, en effet, le sérieux d’une méthode psychothérapique et de son application est évalué au fait que les praticiens suivent « consciencieusement » leur Manuel. Ainsi, on trouve, p. 19, à propos d’une étude de Luborsky et coll. (1985), ceci : « Les prédicteurs de réussite en thérapie cognitive ou en thérapie analytique étaient l’alliance thérapeutique et la pureté technique : c’est à dire suivre consciencieusement le Manuel ». Cette indication, « suivre consciencieusement le Manuel », reviendra très souvent dans le texte de ce Rapport à titre de critère du sérieux d’une étude de validation, jugée bonne s’il y est dit que les thérapeutes procédaient ainsi. Il n’est guère étonnant alors que la psychanalyse soit jugée peu sérieuse : sans doute le serait-elle plus si on y psalmodiait Freud ?

Considérons ensuite la démarche générale. Il s’agit d’une “ méta-analyse de méta-analyses ”. Le terme impressionne, mais de quoi s’agit-il ? En fait d’une démarche, bien connue dans la littérature scientifique, qui consiste à colliger des publications portant sur un problème particulier, à en évaluer la pertinence (au premier chef quant à la rigueur méthodologique), pour enfin en tirer des conclusions générales : cela s’appelle “ revue de question ”, “ revue critique ”, etc. On dira qu’il s’agit d’une “ méta-analyse ” s’il s’y ajoute un effort de systématisation et d’évaluation des recherches ainsi colligées. Mais il faut bien voir qu’on gagne alors en étendue ce qu’on perd en précision : s’éloignant du terrain le plus concret de la recherche, on s’éloigne par là même de la mise en évidence de facteurs négligés ou inaperçus de l’auteur de la recherche.

Le risque est considérable. En effet, si cent recherches aboutissent à des résultats de même type, ce peut être pour deux ordres de raisons bien différents : ou bien parce qu’alors le réel répond de la même façon à tous ces sondages… ou bien parce que toutes ces recherches sont biaisées de la même façon en vertu de présupposés communs à tous les chercheurs. L’histoire des sciences abonde en exemples.

Il semble bien que ce Rapport soit tombé lourdement dans ce piège, pour de multiples raisons. La plus évidente est précisément qu’il s’agit d’une méta-analyse de méta-analyses, où l’on a rassemblé, critiqué et interprété -au niveau 3- des méta-analyses -de niveau 2- qui colligeaient elles-mêmes des recherches – de niveau 1- visant à évaluer l’efficacité des psychothérapies. En analysant ainsi un ensemble d’ensembles, on est très loin de la réalité de chacune des recherches de base et de ses conditions réelles de réalisation. Le lecteur de ce Rapport se trouve alors, en fait, hors d’état d’évaluer la pollution de l’ensemble par des recherches de niveau 1 éventuellement biaisées pour des raisons qui auraient échappé à leurs auteurs, mais aussi aux experts en fonction de leurs propres présupposés.

Qu’en est-il de ces travaux de niveau 1, c’est-à-dire des 1000 recherches qu’on nous dit constituer le matériel de base de toute cette enquête ?

Selon la démarche la plus utilisée, on définit un groupe de travail constitué de personnes qui font part de leurs difficultés à un consultant et qui sollicitent un traitement ; on partage ces demandeurs en deux échantillons, celui des sujets traités avec la technique psychothérapique à évaluer (A) et celui des sujets non traités (B) ; ou bien une partie des demandeurs sont « affectés » à un traitement X, une autre partie à un traitement Y, etc. Après un temps de traitement jugé suffisant, on compare l’état de ces divers groupes.

Soit… mais cela suppose que, au départ, ces groupes soient comparables. Or rien n’est plus difficile à garantir. La principale difficulté réside en fait dans la caractérisation des sujets en cause, avant et après traitement.

Ici s’introduit un présupposé majeur. En effet, la plupart de ces travaux utilisent des “ grilles ” qui repèrent des symptômes allégués par le sujet et notés par le consultant ; l’instrument le plus souvent utilisé est le DSM 4, élaboré par l’Association Américaine de Psychiatrie. Le Rapport INSERM remarque que les critères de ce type “ ont été vivement critiqués dans notre pays. Pourtant, ils représentent la meilleure approximation provisoire qui permette la sélection relativement homogène de sujets pour une étude ” (p.22). Il est exact que ce type d’évaluation des troubles, où l’on s’attache uniquement aux symptômes, a suscité en France de très vives objections ; mais écarter ces objections en déclarant qu’il s’agit « pourtant » de la « meilleure » démarche possible constitue la simple expression d’une opinion, qui n’a rien de scientifique….

En fait, cette option, en apparence simplement technique, suppose une prise de parti sur une question scientifique majeure. Il existe en ce domaine une divergence épistémologique, méthodologique et technique, peut-être irréductible, entre deux types de démarches possibles pour étudier les troubles et les difficultés psychiques. La première position est celle d’une démarche nosographique qui décrit des symptômes regroupés en syndromes, pour distinguer et classer des maladies (sur le modèle taxinomique, classificatoire, de la botanique et de la zoologie) ; une tout autre position (sur le modèle de la recherche en physiologie depuis Claude Bernard) décrit des structures fonctionnelles et en analyse les troubles. Or il est patent que si les comptages de fréquences, et de façon générale les traitements statistiques, sont pertinents dans la première optique, ils ne peuvent jouer qu’un rôle secondaire, et difficilement de preuve, dans la seconde. L’escamotage du problème biaise d’emblée les cartes. En effet, les thérapies “ cognitivo-comportementales ”, en définissant les cas à traiter par des symptômes puis en traitant ces symptômes, se situent explicitement dans la première optique, taxinomique ; au contraire, les approches psychodynamiques –ou, plus particulièrement et précisément, l’approche psychanalytique – se situent dans la seconde, celle de l’analyse fonctionnelle. Ainsi, d’emblée le choix d’instruments qui caractérisent les troubles à traiter dans l’optique taxinomique biaise massivement toute recherche en faveur des premières, au détriment des secondes.

Supposons cependant qu’on en accepte le principe. Comment évaluer l’effet d’une psychothérapie ? La solution simple paraît évidemment, en s’inspirant des études pharmacologiques (selon un modèle qui pèse lourdement sur tout ceci), de comparer l’état des patients “ avant ” et “ après ” : on applique ces grilles de repérage des symptômes avant le traitement, puis après, et l’on évalue la différence. Encore faut-il montrer qu’une différence, si elle apparaît, est bien due au traitement. Cela suppose un “ groupe contrôle ”, de sujets comparables non traités. Comment, dans les travaux recensés par ce Rapport, constitue-t-on ces “ groupes contrôle ” ?

Le plus souvent, on divise la population des demandeurs de traitement en deux échantillons : celui des patients traités (groupe A, “ expérimental ”) et le reste, laissé en “ liste d’attente ” (groupe B, dit “ de contrôle ”, supposé comparable). Or supposer ces deux échantillons comparables, c’est ignorer les multiples facteurs qui risquent de les rendre hétérogènes : priorité de traitement légitimement donnée à certains types de cas, jugés plus urgents ou plus accessibles au traitement proposé; poids des possibilités de prise en charge par l’institution ou / et le thérapeute ; fonte de l’un et l’autre échantillons en cours d’étude (ruptures de traitement pour le groupe traité, lassitude et disparition des personnes laissées en liste d’attente), etc. Tout ceci peut jouer, avoir joué, plus ou moins à l’insu du chercheur, dans la réalité d’un fonctionnement institutionnel. En fait, il est extrêmement difficile de garantir la comparabilité de deux groupes, et le maintien de cette comparabilité tout au long de l’étude. En fait, si fréquentes sont les taches aveugles que rares sont les publications qui s’attachent réellement à éclairer le lecteur sur ces points pourtant majeurs. Qu’on n’objecte pas que tout ceci ne peut jouer lorsqu’on tire au hasard la répartition des sujets en groupe traité et groupe contrôle, non traité. Outre qu’une telle procédure est déontologiquement choquante, qu’elle suppose une étonnante insensibilité du thérapeute à la demande de son patient (qu’il ne prend ainsi en charge que par hasard !), rien ne garantit en fait que, sous cette apparence de comparabilité ne jouent pas en fait, pour la compromettre, tous les facteurs qui viennent d’être évoqués.

Passons cependant. La rigueur méthodologique voudrait qu’on évalue l’état des personnes en cause deux fois (avant - après) aussi bien pour le groupe contrôle (B) que pour le groupe traité (A). En fait, la plupart des recherches recensées ne procèdent pas ainsi : on se contente d’évaluer le groupe contrôle une seule fois, supposant que, en l’absence de traitement, les personnes en cause ne changent en aucune façon… Cette supposition est naïve : le seul fait d’être inscrit sur une liste d’attente change quelque chose, pour créer, selon les personnes en cause, irritation, déception, etc., ou au contraire espoir…

Ceci entraîne de très importantes conséquences quant à l’évaluation d’efficacité des traitements. En effet, les études qui supposent invariable l’état des patients non pris en charge se privent de tout moyen de vérifier ce que tout clinicien expérimenté connaît bien : il n’est pas rare qu’une prise en charge thérapeutique neproduise dans l’état du patient aucune amélioration apparente, mais évite que son état n’empire. C’est une évidence, y compris pour les non-spécialistes, en ce qui concerne les troubles et maladies du corps ; il devrait sembler aussi évident qu’il n’en va pas autrement en ce qui concerne les troubles et difficultés psychiques. L’expérience clinique montre en effet qu’il n’est pas rare qu’une prise en charge psychothérapique évite, et parfois à très long terme, une évolution psychopathologique beaucoup plus grave. Toute étude qui se borne à considérer que le “ groupe contrôle ”, non traité, est invariable, double une sérieuse erreur méthodologique d’une naïveté.

Le modèle général de ces études d’efficacité des psychothérapies vient évidemment de la méthodologie des contrôles pharmaceutiques. Cependant, qu’il s’agisse de bien autre chose que des essais de médicaments est clairement mis en lumière par la question du placebo. Sur ce point, le Rapport INSERM dit à juste titre (p. 17) : “ il est pratiquement impossible de comparer après randomisation et en double aveugle une psychothérapie active à un “ placebo ” inerte sur le modèle des études pharmacologiques. ” On ne saurait mieux dire… Cependant, ne craignant pas la contradiction, il déclare quelques lignes plus loin (p. 18): “ plusieurs solutions ont été proposées pour résoudre le problème du placebo en psychothérapie ”, en particulier : “ le groupe “ attention placebo ” avec un contact minimum avec un thérapeute qui n’utilise pas les éléments supposés actifs de la thérapie que l’on veut tester ”, et “ le contrôle par une pseudo-thérapie ou une anti-thérapie ”… Ceci laisse le lecteur effaré. Comment des gens, s’il s’en trouve, qui s’appliquent ainsi à ne pas soigner peuvent-ils se croire et se dire “ psychothérapeutes ” ? Comment peut-on mentir de façon délibérée à des gens qui souffrent et demandent de l’aide ? De telles aberrations éthiques et déontologiques sont simplement considérées dans ce texte comme pouvant “ générer des problèmes éthiques et pratiques ”. Admirable sens de la litote ! Et que dire des recherches évoquées quelques lignes plus loin, où l’on décide par tirage au sort du traitement à “ appliquer ” à un consultant ? Car, nous dit-on (p. 18 encore), « il n’y a pas de solution idéale, sinon d’évaluer en début de traitement la croyance des patients et des thérapeutes dans le traitement qui a été tiré au sort, et d’étudier la corrélation de ces mesures avec les résultats. Le placebo de psychothérapie doit avoir des caractéristiques qui le rendent aussi vraisemblable qu’une thérapie véritable : le placebo doit être crédible ». Qui méprise-t-on alors le plus, le patient ainsi tiré au sort, le « psychothérapeute » qui s’attache à ne pas le soigner et cependant « y croit » (mais il croit à quoi ?), ou la crédulité de l’un et de l’autre ? Et peut-on fonder une démarche qui se prétend scientifique sur le partage d’une croyance ? à ce compte, bien des sectes vont acclamer la méthode…

On ne peut manquer de remarquer que tout cela revient à nier l’idée même d’un choix de la thérapeutique selon ses indications spécifiques et en fonction des troubles à prendre en charge. Imagine-t-on que dans le cas de troubles cardiaques graves, d’un cancer curable, etc., on tire au sort l’affectation du malade à un traitement espéré efficace ou à un pseudo-traitement ?

Il y aurait beaucoup à dire, enfin, sur les méthodes statistiques utilisées par les auteurs des recherches de base recensées dans ce Rapport, par les méta-analyses sur lesquelles il se base, et sur la méta-analyse de ces méta-analyses qu’il constitue lui-même.

On se bornera ici à soulever deux points.

Un premier point concerne une certaine statistique “ d ”, supposée évaluer l’amplitude de l’effet d’une technique psychothérapique. Dans la majorité de ces études, il s’agit, soit d’une variation de pourcentages (après traitement, la proportion des patients classés sous telle rubrique pathologique a diminué), soit et plus souvent, parce que cela semble plus “ scientifique ”, d’une variation de moyennes. Rappelons qu’il existe une technique paramétrique tout à fait classique (la statistique “ t de Student ”) pour estimer si une telle différence entre les moyennes de deux séries d’observations est statistiquement significative ; cela suppose qu’on tienne compte de la variabilité (plus exactement la “ variance ”) des deux échantillons. Il faut se rappeler que, en principe, cette statistique n’est utilisable que si les deux distributions sont « normales » (gaussiennes), ce qui est rarement vrai dans ce domaine où sont fréquentes des distributions fortement asymétriques, et plus rarement encore considéré par les auteurs de ces travaux. Passons, car il y a plus inquiétant. En effet, nous dit-on, dans beaucoup des études recensées la différence des moyennes est rapportée à la variance du seul groupe de contrôle ; l’aléatoire ainsi introduit dans la démarche est considérable. D’ailleurs, deux pages plus loin (p. 26), il nous est dit qu’il “ existe de très nombreuses versions de ce “ d ”, sans véritable consensus sur son utilisation ”. Alors, que vaut la “ preuve ” statistique abstraite d’un ensemble d’études ainsi déclarées sans cohérence quant à l’instrument même de cette preuve ?

Second point. Il suffit d’augmenter la taille d’un échantillon pour qu’une faible différence de moyennes, si elle se maintient, devienne très significative (en termes statistiques). Cela découle simplement de la procédure de calcul et ne recouvre aucun mystère, ainsi que le savent tous les étudiants débutants en statistiques. Les auteurs du Rapport le savent eux aussi, et le disent (p.20). Mais ensuite ils n’en tiennent pas compte, laissant ainsi s’introduire un biais qui fait planer sur tout leur travail un doute très sérieux.

Il y a là en effet la source d’un artefact majeur : pour ces raisons purement statistiques, si trois études d’efficacité font apparaître une légère amélioration de l’état des patients, mais à un seuil statistiquement non significatif, la même légère amélioration moyenne, établie sur vingt études, deviendra hautement significative. Ainsi, plus une psychothérapie d’un certain type sera représentée dans un recensement d’études d’efficacité, plus elle aura de chances d’être déclarée efficace…

Tel est bien le cas dans ce Rapport INSERM.. On ne peut en effet manquer de remarquer une parfaite coïncidence entre, d’une part le nombre des travaux pris en compte pour chacun des trois types de psychothérapies, et d’autre part le palmarès final.

Les thérapies cognitives et comportementales sont plus représentées dans cette méta-analyse de méta-analyses (par 38 méta-analyses et 25 études ou revues de questions) que les thérapies familiales (6 méta-analyses et 40 études ou revues de questions), et beaucoup plus que les thérapies dites “ psychodynamiques (psychanalyse) ” (4 méta-analyses et 17 études). Cela correspond exactement au palmarès final : la palme est décernée aux thérapies cognitivo-comportementales ; viennent ensuite les thérapies familiales et de couple; en queue de peloton, les “ psychothérapies psychodynamiques (psychanalytiques) ”. Il est bien à craindre que le public et les décideurs ne retiennent que cela, même s’il existe un risque sérieux pour que cette conclusion ne reflète que le nombre des travaux pris en compte pour chaque type de thérapies…

Il y aurait sans doute encore beaucoup à dire sur ce plan méthodologique. Mais on peut conclure (provisoirement) sur une indication donnée par ce Rapport (p. 28) en ce qui concerne la qualité d’une étude d’efficacité. Il y est en effet proposé de classer ces études en quatre niveaux, de A, étude très concluante, à D, étude de valeur médiocre. A ce plus bas niveau, D, sont citées les “ preuves venant des opinions d’experts ou de comités d’experts ”.

Comment alors ne pas remarquer que ce Rapport, précisément, est le fruit du travail d’un comité d’experts…

Roger Perron, Directeur de recherches honoraire au CNRS
Bernard Brusset, Professeur émérite, Université Paris V - René Descartes, Institut de Psychologie
Clarisse Baruch, Professeur de Psychologie Clinique et Psycho-pathologie, URCA, LPA (UA 2073), Reims
Dominique Cupa, Professeur de Psycho-pathologie, Université Paris X – Nanterre
Michèle Emmanuelli, Professeur de Psychopathologie, Université Paris V – René Descartes