Revue systématique de Tornese et al. : analyse

Magali Pignard
1 sept. 2025
11 min de lecture

Dernière mise à jour : 11 mai

Une revue systématique publiée en 2025 par Tornese et al. conclut que les bloqueurs de puberté « sont efficaces pour améliorer la santé mentale » des adolescents s'identifiant transgenres.

copie ecran revue systématique tornese bloqueurs de puberté transition mineurs

Bien que Tornese et al. affirment avoir utilisé des outils rigoureux (GRADE, ROBINS-I), leur évaluation manque de transparence et ne respecte pas les standards méthodologiques attendus. On observe une confusion entre la qualité des études individuelles et la certitude des preuves sur un effet spécifique (comme la dépression ou les idées suicidaires) rapporté par diverses études. Concernant les résultats de santé mentale, les caractéristiques de nombreuses études sont rapportées de manière erronée, ce qui conduit à une reclassification artificiellement favorable, déjà biaisée par des critères incomplets et peu exigeants.

Logiquement, les revues systématiques qui ont correctement pris en compte les biais et les incertitudes aboutissent à des évaluations plus critiques de la qualité des études et de la solidité des preuves.

À propos de la revue systématique de Tornese et al.

Use of gonadotropin-releasing hormone agonists in transgender and gender diverse youth: a systematic review, Frontiers, mai 2025

publiée au nom du groupe d'étude de la SIEDP, Società Italiana di Endocrinologia e Diabetologia Pediatrica.

Cette revue visait à synthétiser les données actuelles sur les bénéfices et les risques potentiels des bloqueurs de puberté (GnRHa).

Parmi les 51 études incluses, 22 ont été évaluées comme présentant une « qualité des preuves » modérée à élevée, et ont donc été incluses dans la synthèse des résultats et la discussion :

Sur ces 22 études, 7 ont rapporté des résultats de santé mentale/fonctionnement psychosocial :

Les auteurs précisent avoir utilisé « le cadre GRADE pour classer la qualité des preuves », et avoir évalué « la certitude des preuves pour chacun des résultats », en utilisant l’outil ROBINS-I (Risk Of Bias In Non-Randomized Studies – of Interventions).

Les résultats et la discussion de la revue se focalisent sur les études ayant obtenu une qualité des preuves modérée à élevée.

Commentaires

Cette analyse se concentre sur les 7 études rapportant des résultats de santé mentale, et évaluées par les auteurs comme qualité des preuves modérée à élevée.

Achille (2020), Costa (2015), de Vries (2011), de Vries (2014), Fisher (2024), Tordoff (2022) et Van der Miesen (2020).

Report inexact de caractéristiques de 6 des 7 études

Bien que Tornese et al. affirment avoir utilisé les outils GRADE et ROBINS-I, ils ne fournissent aucun tableau détaillé d’évaluation du risque de biais pour les études individuelles (avec l'outil ROBINS-I), ni de justification systématique des déclassements (ou de leur absence de déclassement).

Alors que GRADE recommande d’évaluer la certitude des preuves pour chaque critère de jugement (résultat d'intérêt), Tornese et al. ne rapportent qu’un niveau global de certitude par étude (qu’ils qualifient de « qualité des preuves »), ce qui revient à confondre certitude des preuves et qualité des études individuelles (voir l'explication à la fin de ce post*).

Écarts entre les déclarations et la méthodologie réellement appliquée de Tornese et al. (2025)

Déclaration des auteurs

« Cette revue applique une évaluation rigoureuse selon GRADE afin d’estimer la qualité des preuves pour chaque critère de jugement à travers les études incluses, ce qui accroît sa fiabilité par rapport aux revues précédentes. »

En pratique

Aucun tableau de risque de biais par domaine (ROBINS-I) n'est fourni.
Aucune justification systématique des déclassements n'est fournie.
Un seul score global est attribué par étude (« quality of evidence »), sans évaluer la certitude des preuves pour chaque résultat spécifique.

Commençons par comparer la cohérence entre :

les 3 critères de déclassement fournis par les auteurs :
- taille d’échantillon réduite (< 50),
- limitations dues à la conception de l'étude : transversale ou rétrospective, suivi < 1,5 an, valeurs de p non rapportées, pas de groupe de contrôle (GC).
- estimations imprécises ou résultats incohérents entre cohortes multicentriques.
la « qualité de preuves » attribuée individuellement aux études.

Critères de déclassement de Tornese vs. Qualité des preuves attribuée par étude

Les études classées modéré ou élevé auraient du avoir 1 ou 2 déclassements, et donc être classées très faible. Revue systématique Tornese, transition mineurs

*Comme le rappellent Tornese et al., le cadre GRADE, qui contient 4 niveaux de « certitude de preuves » (très faible, faible, modérée, élevée) attribue initialement une certitude de preuves faible pour les études observationnelles (ce qui est le cas de toutes les études de cette analyse).

Déclarations erronées des auteurs

a. Ils ont indiqué un suivi de 18 mois dans l’étude de Achille et al., alors que le suivi réel était de 12 mois, comme l’indiquent Achille et al. eux-mêmes et comme le confirment le NICE (2020b, p. 78) ainsi que Miroshnychenko et al. (2025, annexe 11).

b. Ils ont mentionné « 169 témoins sains » dans Costa et al. (2015), alors qu’il s’agissait en réalité d’un échantillon externe non apparié, utilisé de manière rétrospective.

c. Ils ont mentionné la « population générale comme groupe de contrôle » dans de Vries et al. (2011/2014), mais ces deux études étaient des cohortes prospectives de type pré–post, sans groupe comparateur externe.

d. Ils ont mentionné la présence d'un « groupe de contrôle » comme une force de l’étude de Tordoff et al. (2022), alors qu'il n'y a pas de groupe de comparaison : en réalité, l'étude se compose d'une cohorte de jeunes dont le statut de traitement varie au cours de l'étude (comme confirmé par l'auteure principale dans un commentaire sous l'étude). Tornese et al. ont également mentionné une réduction de la dépression et des idées suicidaires avec les PB ou les CSH, mais Tordoff et al. ne présentent aucune analyse examinant les changements de santé mentale après le début du traitement. Les données descriptives de Tordoff et al. (eTable 3 dans le supplément) ne confirment pas les bénéfices du traitement.

e. Ils ont présenté un « groupe de contrôle » comme une force de l’étude de van der Miesen et al. (2020), mais les groupes différaient en âge et provenaient de populations sources distinctes, ce qui ne permet pas de les considérer comme des comparateurs valides sur le plan méthodologique.

Constats

la description de 6 études sur 7 comporte des inexactitudes : la durée de suivi dans Achille et al. (2020), ainsi que la présence de groupes de contrôle (valides) dans les études de Costa (2015), de Vries (2011, 2014), Tordoff (2022) et van der Miesen (2020).
Toutes les études évaluées comme étant de qualité modérée ou élevée auraient dû, selon leurs propres critères de déclassement, être notées comme faible/très faible.

Les critères de déclassements des auteurs sont limités

Plusieurs sources de biais et d’incertitude n’ont pas été prises en compte par Tornese et al. : les facteurs de confusion, le biais de sélection, la mauvaise classification des interventions, les écarts par rapport aux interventions prévues, les données manquantes, la mesure des résultats, le report sélectif des résultats, le caractère indirect des preuves et le biais de publication.

Une telle approche s'éloigne des exigences méthodologiques du cadre GRADE et de l'outil d'évaluation ROBINS-I, qu’ils indiquent avoir appliqués dans la section « Matériels et méthodes ».

Écarts d’évaluation entre Tornese et al. et les revues systématiques

La plupart des revues systématiques ayant correctement pris en compte les limitations mentionnées ci-dessus sont parvenues à des conclusions différentes, en appliquant GRADE et/ou des outils d’évaluation du risque de biais tels que ROBINS-I, NOS ou JBI*.

Par exemple :

Achille et al. (2020) est de qualité modérée selon Tornese et al. alors que :

Les autres revues ont évalué la certitude des preuves comme très faible pour la dépression et la qualité de vie par l'Evidence Brief néozélandais (NZEB) 2024, Dopp et al. 2024, Miroshnychenko et al. 2025, sur la base d’évaluations par résultats selon GRADE.
Concernant la qualité de l'étude, l’outil ROBINS-I a indiqué un risque de biais sérieux (Miroshnychenko) à critique (NZEB). L’étude a échoué à 4 des 9 items de la grille JBI (Dopp) et obtenu un score de 4/8 (faible) selon la version modifiée de la NOS par Taylor et al. (2024). Elle a été exclue par la revue effectuée par le NICE (2020, pour interventions mixtes) et par Ludvigsson et al. (2023, en raison d’un risque de biais élevé).
Les biais les plus marquants sont : le non-contrôle des facteurs de confusion majeurs (notamment le soutien familial et les comorbidités psychiatriques), l’ampleur des données manquantes (plus de 56 % de pertes de suivi).

Costa et al. (2015) est de qualité élevée par les auteurs, tandis que :

Les autres revues ont évalué la certitude des preuves comme très faible pour le fonctionnement global et la qualité de vie (Miroshnychenko, NICE, NZEB, Dopp). Ludvigsson n’a pas pu évaluer la certitude de preuves en raison d’un risque élevé de biais et d’imprécision (−2 chacun).
Concernant la qualité de l'étude, ROBINS-I a indiqué un risque de biais critique (NZEB, Miroshnychenko). L’étude a échoué à 3 des 9 items de la grille JBI (Dopp), a été notée « faible » par NICE et « modérée » (5,5/8) par Taylor (version modifiée de la NOS).
Les biais les plus marquants concernent l’ampleur des données manquantes (près de 65 % de pertes de suivi à 18 mois), ainsi que l’absence de groupe contrôle valide : les cohortes « immédiatement éligibles » et « éligibles avec délai » n’étaient pas comparables sur des variables importantes comme la santé mentale initiale ou les comorbidités psychiques, les jeunes du groupe différé étant plus souvent orientés vers des services de santé mentale locaux. Rappelons simplement que selon Tornese, cette étude ne présente aucun limitation (matériel supplémentaire, tableau 1C).

Tordoff et al. (2022) est de qualité modérée par les auteurs, alors que :

Les autres revues ont évalué la certitude des preuves : pour les idées suicidaires comme faible ou très faible (NZEB, Dopp) et pour l’anxiété/la dépression, très faible selon Dopp, modérée selon NZEB, malgré 3 déclassements).
Concernant la qualité de l'étude, ROBINS-I a indiqué un risque de biais sérieux (NZEB). L’étude a échoué à 6 des 11 items de la grille JBI (Dopp) et obtenu un score de 3,5/8 (faible) selon la NOS modifiée (Taylor). Elle a été exclue par Miroshnychenko (intervention inappropriée), mais inclue dans la revue similaire concernant les hormones, avec un risque de biais sérieux (selon ROBINS-I).
Les biais les plus marquants concernent une perte de suivi très asymétrique entre les groupes (83 % de réponses à 12 mois dans le groupe traité, contre seulement 20 % dans le groupe non traité), ainsi que le codage binaire du traitement ne tenant pas compte de sa durée d’exposition effective.

*Trois outils couramment utilisés pour évaluer la qualité des études non randomisées sont :

ROBINS-I (évaluation du risque de biais, avec un jugement global sur 4 niveaux : faible, modéré, sérieux, critique),
la NOS (Newcastle-Ottawa Scale, notée sur 3 niveaux : élevé, modéré ou faible),
la grille JBI (Joanna Briggs Institute, fondée sur un nombre de critères remplis).

Interprétation des résultats sans mise en perspective des limites

En raison d’une surestimation non transparente de la qualité de ces 7 études, celles-ci ont été incluses dans la synthèse et la conclusion, façonnant ainsi l’ensemble de la revue de Tornese et al..

Les résultats des études sont repris tels quels sans mention des limites des études.
Dans la discussion, les bénéfices rapportés sont décrits à l’aide de termes tels que « substantiel », « améliorations marquées » ou encore « fortement corrélés » au traitement (entre autres formulations), ce qui va au delà de ce qui est attendu d'une revue systématique. Aucune prudence critique ni mise en perspective de ces limitations n’est apportée. De plus, certaines études citées dans la section Discussion pour soutenir les affirmations de la revue ne les soutiennent pas réellement (Achille 2020, Tordoff 2022, de Vries 2014). Tornese et al. vont jusqu'à affirmer qu'il serait « contraire à l'éthique de nier ou d'interrompre l'utilisation des agonistes de la GnRH alors que des preuves substantielles démontrent leurs bienfaits » ; or, les études qu'ils citent à l'appui de cette affirmation sont exclusivement observationnelles et ne permettent pas d'établir de lien de causalité.

Quatre exemples parmi d'autres :

Concernant Tordoff (2022), Tornese et al. se contentent de rapporter les conclusions de l'étude, à savoir : les jeunes ayant reçu les bloqueurs ou hormones au cours de l'étude présentent un risque de suicidalité et de dépression réduits de 73 % et 60 % par rapport aux jeunes ne les ayant pas reçu.
Or, l’analyse réalisée par Tordoff et al. ne permet pas de déterminer si des améliorations de la santé mentale ont été observées après l’initiation du traitement, et les données descriptives fournies dans le supplément de l’article ne corroborent pas l’hypothèse d’un bénéfice lié au traitement. Les pourcentages rapportés doivent être interprétés en prenant en compte le fait que 80 % des jeunes non traités (7 jeunes non traités sur les 35)n'ont pas complété les questionnaires de santé mentale à la fin de l'étude à 12 mois (contre 17 % des jeunes traités), ce qui peut influencer l’estimation des effets observés.
Tornese et al. affirment plus loin, dans leur discussion, une baisse des pensées suicidaires et des comportements d’automutilation chez les jeunes recevant également une hormonothérapie, en se référant à Tordoff et al. Cependant, Tordoff et al. ne présentent aucune analyse examinant les changements de santé mentale après l’initiation du traitement, et les odds ratios rapportés ne proviennent pas de comparaisons des trajectoires de santé mentale entre les jeunes traités et non traités. Les données descriptives de l’étude elle-même (eTable 3) ne montrent aucune preuve d’amélioration chez les participants traités.
Tornese et al. citent l’étude de Vries (2014) pour affirmer « une amélioration du fonctionnement psychosocial chez les adolescents bénéficiant de soins complets d’affirmation de genre ».
Pourtant, cette étude présente de nombreux biais méthodologiques : absence de groupe contrôle, biais de sélection (participants sélectionnés parmi ceux ayant poursuivi jusqu’à la chirurgie), données manquantes non analysées. L’evidence brief néo-zélandais (2024) a évalué cette étude comme fournissant des preuves de très faible certitude pour les résultats mentionnés par Tornese, avec un risque de bais sérieux à critique sur tous les domaines de ROBINS-I ; la qualité est évaluée comme faible par Taylor (2024).
Là encore, ces limitations majeures ne sont pas mentionnées par Tornese.

Van der Miesen et al. (2020) et Fisher et al. (2024) sont cités comme apportant des « preuves plus solides » de l’effet protecteur des bloqueurs de puberté. Pourtant, Fisher est une étude de petite taille (n = 36), sur 12 mois, avec un risque de biais critique selon ROBINS-I (NZEB 2024). Van der Miesen est une étude transversale, ce qui exclut toute inférence causale, les auteurs eux-mêmes le reconnaissent : « La présente étude ne peut donc pas fournir de preuves concernant les bénéfices directs de la suppression de la puberté dans le temps ni sur les effets à long terme sur la santé mentale ».

Enfin, l’étude d’Achille et al. (2020) est utilisée pour affirmer une « baisse significative des idées suicidaires (de 10 % à 6 %) », mais cette affirmation est inexacte : les auteurs précisent eux-mêmes que les modèles de régression n’ont pas pu être estimés en raison du faible effectif, et qu’aucune significativité n’est démontrée.

Certitude des preuves pour un critère donné et qualité des études individuelles

Prenons un exemple concret : si l’on cherche à savoir si les bloqueurs de puberté permettent de réduire les symptômes de dépression chez les adolescents, on va se demander quelle est la certitude des preuves disponibles sur cette question précise.

Supposons que la revue inclue une vingtaine d’études au total, mais que seules trois d’entre elles rapportent des résultats exploitables sur la dépression (avec des données claires, un suivi suffisant, etc.). Le cadre GRADE va alors évaluer la certitude des preuves tirées uniquement de ces trois études : ici, le « critère de jugement » (outcome) est la dépression, et le corpus de preuves (body of evidence) correspond à l’ensemble de ces études rapportant des résultats sur la dépression.

Dans le cas des études observationnelles (non randomisées), comme c’est le cas ici, GRADE commence par attribuer un niveau de certitude initial faible. Ensuite, on examine cinq grands domaines pour décider s’il faut abaisser encore ce niveau de certitude :

Limitations méthodologiques (ou risque de biais). Cette partie repose sur une évaluation spécifique de la qualité de chaque étude, avec des outils comme ROBINS-I, NOS ou JBI.
Imprécision : si les résultats sont très variables ou si les effectifs sont trop petits pour conclure avec confiance.
Incohérence : si les études donnent des résultats très différents entre elles.
Caractère indirect des preuves (indirectness) : par exemple, si les études ont été faites dans un contexte ou sur une population différente de celle qui nous intéresse.
Biais de publication : si certaines études négatives n’ont jamais été publiées.

À la fin de cette évaluation, le niveau de certitude peut rester faible, ou être abaissé à très faible si plusieurs problèmes sont identifiés. Dans certains cas exceptionnels, il peut être rehaussé, par exemple si les effets observés sont très importants et cohérents, à modéré ou élevé.

Retour