§ Posté le 12/06/2020 à 22h 22m 22
Quatre merles plus vingt dans un pâté en croûte
Qui se mettent à chanter à l'heure du raout,
Est-ce point-là mets de choix à offrir à son roi ?
Ces quelques vers viennent de la chanson enfantine Sing a song of six pence, telle que traduite de l'anglais par Marie Franck pour le roman d'Agatha Christie Une poignée de seigle, que je vous recommande au passage. J'aurai sans doute quelques mots à vous dire sur la chanson elle-même à l'occasion ; mais je ne l'ai choisie pour l'heure que pour la ressemblance phonétique entre le mot qui y désigne le festin, et le nom de famille d'une certaine personne dans les déclarations de laquelle on trouve « à boire et à manger ».
Il se trouve en effet que, dans le contexte que nous vivons, les déclarations tonitruantes de cette personne ont attiré suffisamment l'attention pour que pas mal de gens aient pris position à ce sujet, de façon plus ou moins tranchée… sans forcément bien en comprendre les tenants et aboutissants. Et si « quatre merles plus vingt » peuvent peut-être réussir à chanter à peu près correctement, quelques milliers de personnes peu entraînées, ça peut faire une belle cacophonie, alors tâchons de donner un peu de mesure à tout ça.
Avant de commencer, un avertissement est de rigueur : je n'ai que des compétences tout ce qu'il y a de plus basiques en matière d'immunologie. Loin de moi, donc, l'idée de m'auto-proclamer expert sur la question. Mais ce n'est pas spécialement grave, puisque ce n'est pas d'immunologie qu'il sera question ici : ce qui m'intéresse dans l'affaire, c'est ce qu'elle peut nous apprendre sur le fonctionnement général des sciences, sujet sur lequel j'ai un niveau un soupçon plus élevé.
Ouvrons donc le pâté en croûte et allons voir quels diables se cachent dans les détails.
Il y a protocole et protocole…
Pour commencer, il me semble nécessaire de faire un point rapide sur le vocabulaire. Le célèbre traitement constitué d'une combinaison d'hydroxychloroquine et d'azithromycine a été désigné dans les médias comme étant le « protocole Raoult ». N'étant, comme je viens de le dire, pas spécialiste en médecine, j'imagine que désigner un traitement par le terme de « protocole » doit y être quelque chose de relativement courant.
Mais pour quelqu'un qui, comme moi, s'intéresse davantage aux études qu'aux traitements, le terme de « protocole » renvoie d'abord à toute la méthodologie qu'on met en place pour essayer d'obtenir des résultats fiables. Si je parle ici de « protocole », ce sera donc dans ce sens-là.
Je vais essayer d'éviter le terme, pour ne pas créer d'ambiguïtés inutiles, mais au cas où il m'échapperait par habitude, il me semblait préférable de faire d'emblée cette précision : si je qualifie ici un « protocole », ce sera un protocole de test et non pas un traitement.
Relecture par les pairs et reproduction
Le dernier rebondissement de l'« affaire », à l'instant où j'écris ces lignes, a été le retrait d'une grosse étude parue dans la revue The Lancet, en raison de fortes suspicions concernant une partie des données qu'elle utilisait. C'est, me semble-t-il, une bonne occasion de rappeler que la relecture par les pairs, mécanisme central dans la validation des connaissances scientifiques, est nécessaire, mais pas suffisante.
La science, en effet, est une activité humaine. À ce titre, elle est soumise aux défauts habituels des êtres humains : nous sommes tou·te·s faillibles, et une (petite) partie d'entre nous a parfois tendance à manquer un peu d'honnêteté. Il ne suffit donc pas qu'une équipe de chercheurs et chercheuses publient leurs résultats dans leur coin : il faut que d'autres gens, n'ayant pas participé à ces travaux pour avoir un regard extérieur, vérifient ce qui est avancé avant que l'on puisse commencer à considérer ces résultats comme solides.
Mais relire ce qui a été mis sur papier, ça ne fait pas tout. Ça permet de vérifier la méthodologie utilisée, de s'assurer que les conclusions sont bien cohérentes avec données… mais ça ne permet pas de vérifier les données elles-mêmes(1) : ce qu'on envoie à la revue, ce sont les résultats des analyses virales effectuées, pas directement le sang des patient·e·s.
C'est – notamment – pour cette raison qu'une étude isolée, même construite aussi solidement qu'il est possible de le faire, n'apporte finalement qu'un niveau de preuve encore limité : pour que ses résultats atteignent le rang de connaissance scientifique, il est nécessaire de procéder à des réplications, montrant que l'on peut obtenir les mêmes résultats dans d'autres circonstances.
C'est là un des principes de base sur lesquels reposent tout le fonctionnement de la démarche scientifique telle qu'on l'utilise actuellement – et c'est l'une des raisons qui fait de cette démarche la plus fiable dont on dispose actuellement pour produire des connaissances. Et pourtant, il est déjà intéressant de se pencher sur ce qu'en disait le professeur Didier Raoult, puisque c'est de lui qu'il est question ici, dans cette interview du mois de mars(2).
La dernière question qui lui est posée porte en effet sur la raison pour laquelle le gouvernement a, à l'époque, demandé des essais sur son traitement qui proviennent d'études indépendantes. C'est une question classique de la part de gens qui ne sont pas spécialement informés de cet aspect de la recherche, et il aurait ici toute légitimité à expliquer ce que je viens de vous dire – ce qu'il fait d'ailleurs en partie.
Néanmoins, il y trouve le moyen de considérer la question comme pouvant être l'expression de doutes sur sa crédibilité, comme si le fait de demander des réplications signifiait que l'on remettait en cause ses résultats – ce dont il se défend plus personnellement qu'il ne défend la méthode qu'il est censé utiliser, ce qui est déjà assez curieux(3).
Mais surtout, il trouve le moyen d'y sortir une remarque qui n'est pas pour inspirer la confiance de toute personne un minimum calée en méthodologie : Nous, nous avons les moyens de mesurer la charge virale, on voit qu'elle baisse, donc c'est que ça marche.
.
C'est avec ce type de remarques qu'on promeut, par exemple, l'homéopathie : quelques dizaines d'années d'études des effets contextuels nous ont pourtant appris qu'il est possible que la charge virale(4) baisse après la prise d'un médicament sans que ledit médicament n'y soit directement pour quoi que ce soit.
C'est pour cette raison qu'on a inventé quelque chose d'assez utile…
Groupe témoin et randomisation
Pour s'assurer que l'effet que l'on observe après la prise d'un médicament soit bien l'effet du médicament lui-même, il est nécessaire de se mettre dans des conditions qui limitent au maximum l'influence d'autres facteurs. Or, heureusement ou malheureusement selon le point de vue, des choses qui vont influer, il y en a pas mal, à commencer par le corps humain qui ne se débrouille pas trop mal pour essayer de se guérir lui-même.
Pour déterminer l'effet précis d'un médicament, il est donc nécessaire d'avoir un point de référence : on ne regarde pas si les gens à qui on donne le traitement guérissent, mais s'ils guérissent plus ou moins que ceux à qui on ne donne pas ce traitement. Il nous faut donc ce que l'on appelle un « groupe témoin » (l'anglicisme « groupe contrôle » devient assez courant).
Une étude qui n'en comporte pas n'apporte donc à ses conclusions qu'un niveau de preuve assez faible. Mais ce n'est pas tout : il faut autant que possible que la prise ou pas du médicament soit la seule chose qui différencie le groupe témoin du groupe test.
Si les patient·e·s du groupe test et du groupe témoin sont traité·e·s dans deux hôpitaux différents, qui n'ont donc pas les mêmes pratiques et ressources en termes de soins… ça limite encore fortement le niveau de preuve. C'est mieux que pas de groupe témoin du tout, bien sûr, mais ça reste très limité. Pour ce type de raison, les études les plus solides (on peut mentionner notamment l'étude anglaise Recovery) ont recours à une randomisation, permettant de s'assurer que les deux groupes soient statistiquement indifférenciables.
Malheureusement, un certain nombre des études dont nous disposons sur le traitement n'ont pas de groupe témoin, ou un groupe témoin assez différent du groupe test, ce qui fait que leurs résultats restent très questionnables.
(Il faudrait ici compléter ce point en abordant les notions de simple, double, et triple aveugle, qui modulent également beaucoup le niveau de preuve que peut avoir une étude, mais je vais pour l'instant me contenter de relever les points qui ont été soulevés en l'espèce)
Notons que Didier Raoult lui-même, dont il n'est pas question ici de remettre en cause les compétences qui lui ont valu d'accéder à son poste de professeur à l'IHU de Marseille, soulignait il n'y a pas si longtemps l'importance du bon usage des groupes témoins et le fait qu'ils devraient être systématiques. Il semble néanmoins avoir – opportunément ? – changé d'avis depuis, invoquant désormais des raisons déontologiques. Celles-ci me paraissent assez discutables, mais mon avis n'étant que ce qu'il est, je vais, plutôt que de le développer, vous renvoyer vers l'excellente vidéo de monsieur Phi sur la question.
Toujours est-il que ce choix, fondé ou non, fait que les études qu'il a mené sur le sujet auraient, elles, difficilement pu s'offrir le prestige de paraître dans The Lancet. Il faut en effet dire quelques mots sur un autre sujet important…
Le prestige des revues
Toutes les revues scientifiques ne se valent pas. Certaines, comme The Lancet ou la célèbre Nature, sont considérées comme étant « le haut du panier », tandis que d'autres sont simplement fuies par la communauté scientifique. Pour autant, comme nous avons pu le voir ici, il arrive que des études passent dans une revue de très haut niveau et soient ensuite vivement critiquées, puis retirées. C'est là un point que les gens qui ne sont pas du domaine peuvent avoir quelques difficultés à comprendre.
La première clef pour comprendre cela est que toutes les revues qui se prétendent scientifiques ne pratiquent pas, ou pas sérieusement, la relecture par les pairs, pourtant essentielle comme on vient de le voir. Certaines revues dites « prédatrices » cherchent avant tout à publier le plus de papiers possible, sans accorder spécialement d'importance à leur qualité, et globalement, un papier publié dans ce type de revues ne vaut pas plus qu'un « preprint », donc un papier pas encore relu pour une véritable publication.
Ce manque de sérieux fait que ces revues ont une très mauvaise réputation, et même dans un contexte (couramment désigné par l'expression « publish or perish ») où publier beaucoup est d'une importance considérable pour la carrière des scientifiques(5), on apprend aux doctorant·e·s comme je l'ai été(6) à les éviter, un papier publié dans une telle revue ayant un impact assez négatif sur le sérieux d'un dossier.
D'une manière générale, une revue est d'autant plus prestigieuse qu'elle est sélective : certaines refusent plus de 70% des papiers qu'on leur propose, ne gardant que ce que leur comité éditorial considère comme étant le meilleur(7). C'est d'ailleurs l'une des raisons pour lesquelles il ne peut pas y avoir que des revues d'aussi haut niveau : une bonne partie des études produites, même parmi les plus solides, doivent se contenter de revues de niveau intermédiaire du simple fait de cette sélectivité.
Cependant, nous en avons eu un exemple avec l'étude qui vient d'être retirée, il arrive tout de même que ce niveau de sélectivité ne suffise pas et que des études peu fiables ou erronées, voire parfois carrément frauduleuses, passent dans des revues de très haut niveau. Encore une fois, c'est une chose parfaitement normale quand on considère que la relecture se fait par des êtres humains, inévitablement faillibles.
Les revues les plus prestigieuses ne se distinguent donc pas des autres par le fait d'éviter totalement les mauvaises études, ce qui est simplement impossible. Elles en ont en revanche une proportion beaucoup moins grande que les autres (même si, hélas, le fait d'être passée dans une revue prestigieuse donne à ces rares mauvaises études d'autant plus de visibilité).
Mais surtout, elles portent une attention beaucoup plus poussée à ce qui se passe après la publication : les critiques formulées contre les études publiées sont très sérieusement prises en compte, et l'on n'hésite pas à « dépublier » les études dont on se rend compte après coup qu'elles ne satisfaisaient pas le niveau d'exigence désiré.
C'est d'ailleurs là l'un des principes fondamentaux de fonctionnement de la recherche scientifique : nous partons du principe qu'une partie des connaissances dont nous disposons est de toute façon erronée, et nous nous efforçons de les identifier et de les corriger.
À ce titre, loin de montrer une défaillance dans le processus comme certaines personnes ont pu l'imaginer, l'étude retirée du Lancet a précisément montré que celui-ci fonctionnait bien, puisque ce mécanisme auto-correcteur a joué comme il le devait. Il a même remarquablement bien fonctionné, puisque l'étude a été retirée dans les deux semaines qui ont suivi sa publication, ce qui est un délai particulièrement cours.
À titre de comparaison, les études produites par Didier Raoult et son équipe parues au début de la crise ont toujours ce statut de « publiées », alors que leur contenu, si l'on regarde dans le détail, est beaucoup plus douteux que celui de l'étude retirée du Lancet. Regardons donc ça d'un peu plus près.
(Ne pas) trafiquer les données
Afin, notamment, d'éviter au maximum les risques de fraude, l'enjeu – la santé publique – étant des plus importants, certaines études médicales doivent faire l'objet d'une déclaration préalable indiquant ce qui va être testé et dans quelles conditions. Il est en effet très facile, une fois que l'on connaît les résultats, d'adapter la façon de les interpréter pour leur faire dire ce que l'on veut : il est donc essentiel que les critères d'évaluation qui seront utilisés soient fixés à l'avance.
En l'occurrence, lors de la déclaration préalable de leur première étude, Didier Raoult et son équipe ont annoncé vouloir mesurer l'évolution de la charge virale de leurs patient·e·s pendant quatorze jours de traitement… et l'étude ne donne finalement que les résultats au bout de six jours (ce qui n'était même pas un des « paliers » intermédiaires annoncés). Un tel changement en cours de route a de quoi éveiller la suspicion, et devrait au minimum être justifié dans l'article… ce qu'il n'est pas.
Les choses s'aggravent encore quand on consulte les résultats intermédiaires obtenus, qui ont heureusement dû être documentées. En effet, un examen attentif nous montre qu'une partie des résultats présentés… ont simplement été inventés.
Lors du relevé intermédiaire, on constate que la charge virale de plusieurs patient·e·s n'a pas été mesurée au sixième jour. Le résultat qui est donné dans l'étude est donc une simple supposition de la part de l'équipe. Et il se trouve que la charge virale a été supposée nulle pour les patient·e·s traité·e·s par leur médicament, et supposée encore élevée pour celleux qui ne l'ont pas été. On a beau jeu, à partir de telles données inventées sur mesure, de prétendre à une efficacité du traitement que, dans les faits, rien n'indique.
Mais ce n'est pas tout. On peut aussi constater que plusieurs patient·e·s ont été exclu·e·s de l'étude en cours de route. D'une manière générale, cela peut arriver : si l'on constate après coup que, par exemple, l'une des personnes étudiées prend un autre traitement en parallèle qui perturberait les résultats, il est raisonnable de ne pas en tenir compte (on essaye normalement de vérifier cela avant, mais comme partout des erreurs arrivent).
Toutefois, ces retraits légitimes se doivent, comme toute retouche au protocole expérimental décidé avant de commencer l'étude, d'être correctement justifiés dans le papier.
Ici, une partie des patients du groupe test (donc, ceux qui ont reçu le traitement) ont été retirés de l'étude… parce que leur état s'aggravait et qu'il a fallu les transférer en soins intensifs. Ce qui devrait peser ne serait-ce qu'un minimum dans les résultats. L'une de ces personnes est même morte avant la fin de l'étude, ce qui fait que, s'ils avaient été totalement honnêtes, les auteurs du papier auraient dû mentionner que 100% des décès observés l'ont été dans le groupe recevant le traitement !
Je ne relève ici que les points les plus évidents. Encore une fois, je suis loin d'être un spécialiste du domaine ; mais il est particulièrement surprenant qu'une personne d'un niveau aussi élevé que celui de Didier Raoult ait laissé passer (ou délibérément commis) des erreurs si manifestes que mon niveau suffit amplement à les relever.
Si toutefois vous souhaitez davantage de détails sur le reste du papier (pas tellement plus brillant), je vous renvoie volontiers aux analyses réalisées par quelques personnes autrement plus compétentes que moi : en voici trois.
Si nous sommes d'accord sur le fait que la suspicion autour des données présentées dans l'étude du Lancet était suffisante pour justifier son retrait, alors nous devrions l'être également sur le fait que cette étude aurait dû être retirée(8), car ses données sont ici manifestement problématiques. Elles ne permettent en fait simplement pas d'en tirer la moindre conclusion utile. Le moins qu'on puisse dire est pourtant que ça n'a pas été présenté ainsi.
Communication autour des résultats
Didier Raoult a su montrer au cours de l'épidémie un charisme médiatique peu commun, reconnaissons-lui ça. Malgré plusieurs erreurs manifestes, comme d'avoir proclamé une « fin de partie » pour le virus au tout début de l'épidémie, il a réussi à convaincre beaucoup de gens de l'efficacité de son traitement… alors que les données dont nous disposions à son sujet étaient très loin d'être aussi convaincantes, comme Florian Gouthière nous le rappelait à l'époque.
Cette communication axée sur la certitude (et accessoirement assez complotiste) est déjà un problème en soi, et des résultats très largement plus solides que ceux dont il disposait sont, à raison, présentés avec beaucoup plus de prudence.
On peut par ailleurs se poser la question de savoir s'il est utile, ou non, de communiquer sur des résultats non-encore publiés. D'autres que Didier Raoult l'ont fait (en y mettant pour leur part la prudence nécessaire), et je reste assez mitigé sur ce point(9).
On peut également s'interroger sur ce que les personnes convaincues par Didier Raoult ont réellement compris de ses travaux, et notamment sur ce qu'est exactement le traitement qu'il propose. En lisant ce qu'écrivent certaines de ces personnes, je ne suis en effet pas sûr qu'elles aient compris que le traitement proposé par celui-ci n'a pas toujours été le même au fil du temps.
Il recommandait en effet la chloroquine au tout début, puis l'hydroxychloroquine, puis la combinaison(10) d'hydroxychloroquine et d'azithromycine. Que ceci ait évolué en cours de route est une très bonne chose : la science fonctionne par remises en causes permanentes, et s'il n'avait pas bougé d'un iota sur ses positions à mesure que les données le contredisaient, ça aurait été d'autant plus inquiétant. Mais il est assez dommage que ceci n'ait pas été davantage mis en avant.
Il semble que l'équipe de Didier Raoult ait récemment mis pas mal d'eau dans leur vin, ce qui était autrefois présenté comme un traitement miracle en étant maintenant réduit à quelque chose qui devrait être administré préventivement, aux premiers stades de la maladie, pour éviter qu'elle dégénère, mais pas nécessairement utilisé pour les cas les plus graves.
Cette efficacité préventive reste toutefois, elle aussi, encore à prouver. Et ce d'autant plus que la maladie qui nous préoccupe, quoique causant beaucoup de morts en raison de sa contagiosité très élevée, guérit spontanément dans une écrasante majorité des cas : il faut donc des études très solides pour pouvoir affirmer que les guérisons observées lorsque les patients sont traités proviennent bien de ces traitements. Autrement, cela se limitera à ne soigner que les gens qui auraient guéri sans aide.
Que retenir de tout ça ? Il y a une dizaine d'années, un sondage à propos des attentats du World Trade Center avait été tellement mal réalisé qu'il en devenait un cas d'école de tout ce qu'il ne faut pas faire en matière de sondage.
Il me semble que nous sommes ici dans un cas à peu près similaire, et que cette affaire peut assez facilement devenir un cas d'école de tout ce qu'il aurait fallu éviter pour mener une recherche médicale solide.
On aurait tout de même pu s'en passer.