Revue systématique de Tornese et al. : analyse critique
- Magali Pignard
- il y a 2 heures
- 12 min de lecture
Une revue systématique publiée en 2025 par Tornese et al. conclut que les bloqueurs de puberté « sont efficaces pour améliorer la santé mentale » des adolescents s'identifiant transgenres.

Bien que Tornese et al. affirment avoir utilisé des outils rigoureux (GRADE, ROBINS-I), leur évaluation manque totalement de transparence et ne respecte pas les standards méthodologiques attendus. En réalité, ils confondent la qualité des études individuelles avec la certitude des preuves sur un effet spécifique (comme la dépression ou les idées suicidaires) rapporté par diverses études. Concernant les résultats de santé mentale, les caractéristiques de nombreuses études sont rapportées de manière erronée, ce qui leur permet une reclassification artificiellement favorable, déjà biaisée par des critères incomplets et peu exigeants.
Logiquement, les revues systématiques qui ont correctement pris en compte les biais et les incertitudes aboutissent à des évaluations bien plus critiques de la qualité des études et de la solidité des preuves. Tornese et al. donnent ainsi l’impression d’un consensus favorable, alors que leur analyse repose sur une présentation incomplète et méthodologiquement trompeuse des données.
À propos de la revue systématique de Tornese et al.
Use of gonadotropin-releasing hormone agonists in transgender and gender diverse youth: a systematic review, Frontiers, mai 2025
publiée au nom du groupe d'étude de la SIEDP, Società Italiana di Endocrinologia e Diabetologia Pediatrica.
Cette revue visait à synthétiser les données actuelles sur les bénéfices et les risques potentiels des bloqueurs de puberté (GnRHa).
Parmi les 51 études incluses, 22 ont été évaluées comme présentant une « qualité des preuves » modérée à élevée, et ont donc été incluses dans la synthèse des résultats et la discussion :
Sur ces 22 études, 7 ont rapporté des résultats de santé mentale/fonctionnement psychosocial :
Les auteurs précisent avoir utilisé « le cadre GRADE pour classer la qualité des preuves », et avoir évalué « la certitude des preuves pour chacun des résultats », en utilisant l’outil ROBINS-I (Risk Of Bias In Non-Randomized Studies – of Interventions).
Les résultats et la discussion de la revue se focalisent sur les études ayant obtenu une qualité des preuves modérée à élevée.
Analyse critique
Cette analyse se concentre sur les 7 études rapportant des résultats de santé mentale, et évaluées par les auteurs comme qualité des preuves modérée à élevée.
Achille (2020), Costa (2015), de Vries (2011), de Vries (2014), Fisher (2024), Tordoff (2022) et Van der Miesen (2020).
Évaluation biaisées sous couvert de rigueur méthodologique
Bien que Tornese et al. affirment avoir utilisé les outils GRADE et ROBINS-I, ils ne fournissent aucun tableau détaillé d’évaluation du risque de biais pour les études individuelles, ni de justification systématique des déclassements (ou de leur absence de déclassement), ce qui ne respecte pas les standards de transparence exigés par GRADE.
Alors que GRADE recommande d’évaluer la certitude des preuves pour chaque critère de jugement (résultat d'intérêt), Tornese et al. ne rapportent qu’un niveau global de certitude par étude (qu’ils qualifient de « qualité des preuves »), ce qui revient à confondre certitude des preuves et qualité des études individuelles (voir l'explication à la fin de ce post*).
Leurs justifications se limitent à de brèves synthèses des points forts et des limitations par étude, ainsi qu’à une courte liste de critères de déclassement d’un ou deux niveaux (dans la section « Résultats ») :
taille d’échantillon réduite (< 50),
limitations dues à la conception de l'étude : transversale ou rétrospective, suivi < 1,5 an, valeurs de p non rapportées, pas de groupe de contrôle (GC).
estimations imprécises ou résultats incohérents entre cohortes multicentriques.
Commençons par comparer la cohérence entre :
leurs 3 critères de déclassement ci-dessus.
la « qualité de preuves » qu'ils ont attribuée individuellement aux études.
Critères de déclassement de Tornese vs. Qualité des preuves attribuée par étude

*Comme le rappellent Tornese et al., le cadre GRADE, qui contient 4 niveaux de « certitude de preuves » (très faible, faible, modérée, élevée) attribue initialement une certitude de preuves faible pour les études observationnelles (ce qui est le cas de toutes les études de cette analyse).
Déclarations erronées des auteurs
a. Ils ont indiqué un suivi de 18 mois dans l’étude de Achille et al., alors que le suivi réel était de 12 mois, comme l’indiquent Achille et al. eux-mêmes et comme le confirment le NICE (2020b, p. 78) ainsi que Miroshnychenko et al. (2025, annexe 11).
b. Ils ont mentionné « 169 témoins sains » dans Costa et al. (2015), alors qu’il s’agissait en réalité d’un échantillon externe non apparié, utilisé de manière rétrospective.
c. Ils ont mentionné la « population générale comme groupe de contrôle » dans de Vries et al. (2011/2014), mais ces deux études étaient des cohortes prospectives de type pré–post, sans groupe comparateur externe.
d. Ils ont mentionné la présence d'un « groupe de contrôle » comme une force de l’étude de Tordoff et al. (2022), mais le groupe non traité n’était pas prédéfini et a évolué au cours du temps, ce qui ne permet pas de le considérer comme un groupe de contrôle valide.
e. Ils ont présenté un « groupe de contrôle » comme une force de l’étude de van der Miesen et al. (2020), mais les groupes différaient en âge et provenaient de populations sources distinctes, ce qui ne permet pas de les considérer comme des comparateurs valides sur le plan méthodologique.
Constats
Tornese et al. ont mal rapporté des éléments essentiels de 6 études sur 7, comme détaillé dans les notes (a à e) du tableau : la durée de suivi dans Achille et al. (2020), ainsi que la présence de groupes de contrôle (valides) dans les études de Costa (2015), de Vries (2011, 2014), Tordoff (2022) et van der Miesen (2020).
Toutes les études évaluées comme étant de qualité modérée ou élevée auraient dû, selon leurs propres critères de déclassement, être notées comme faible/ très faible.
Les critères de déclassements des auteurs sont très limités
Plusieurs sources majeures de biais et d’incertitude, incluant : les facteurs de confusion, le biais de sélection, la mauvaise classification des interventions, les écarts par rapport aux interventions prévues, les données manquantes, la mesure des résultats, le report sélectif des résultats, le caractère indirect des preuves et le biais de publication, n’ont pas été prises en compte par Tornese et al.
Une telle approche ne respecte pas les exigences méthodologiques du cadre GRADE et de l'outil d'évaluation ROBINS-I, qu’ils affirment pourtant avoir appliqués dans la section « Matériels et méthodes ».
Écarts d’évaluation majeurs entre Tornese et les revues méthodologiquement rigoureuses
La plupart des revues systématiques ayant correctement pris en compte les limitations mentionnées ci-dessus sont parvenues à des conclusions nettement différentes, en appliquant GRADE et/ou des outils d’évaluation du risque de biais tels que ROBINS-I, NOS ou JBI*.
➥ Voir la comparaison, dans le google doc Tornese vs. autres revues systématiques.
Par exemple :
Achille et al. (2020) est de qualité modérée selon Tornese et al. alors que :
Les autres revues ont évalué la certitude des preuves comme très faible pour la dépression et la qualité de vie par l'Evidence Brief néozélandais (NZEB) 2024, Dopp et al. 2024, Miroshnychenko et al. 2025, sur la base d’évaluations par résultats selon GRADE.
Concernant la qualité de l'étude, l’outil ROBINS-I a indiqué un risque de biais sérieux (Miroshnychenko) à critique (NZEB). L’étude a échoué à 4 des 9 items de la grille JBI (Dopp) et obtenu un score de 4/8 (faible) selon la version modifiée de la NOS par Taylor et al. (2024). Elle a été exclue par la revue effectuée par le NICE (2020, pour interventions mixtes) et par Ludvigsson et al. (2023, en raison d’un risque de biais élevé).
Les biais les plus marquants sont : le non-contrôle des facteurs de confusion majeurs (notamment le soutien familial et les comorbidités psychiatriques), l’ampleur des données manquantes (plus de 56 % de pertes de suivi).
Costa et al. (2015) est de qualité élevée par les auteurs, tandis que :
Les autres revues ont évalué la certitude des preuves comme très faible pour le fonctionnement global et la qualité de vie (Miroshnychenko, NICE, NZEB, Dopp). Ludvigsson n’a pas pu évaluer la certitude de preuves en raison d’un risque élevé de biais et d’imprécision (−2 chacun).
Concernant la qualité de l'étude, ROBINS-I a indiqué un risque de biais critique (NZEB, Miroshnychenko). L’étude a échoué à 3 des 9 items de la grille JBI (Dopp), a été notée « faible » par NICE et « modérée » (5,5/8) par Taylor (version modifiée de la NOS).
Les biais les plus marquants concernent l’ampleur des données manquantes (près de 65 % de pertes de suivi à 18 mois), ainsi que l’absence de groupe contrôle valide : les cohortes « immédiatement éligibles » et « éligibles avec délai » n’étaient pas comparables sur des variables importantes comme la santé mentale initiale ou les comorbidités psychiques, les jeunes du groupe différé étant plus souvent orientés vers des services de santé mentale locaux. Rappelons simplement que selon Tornese, cette étude ne présente aucun limitation (matériel supplémentaire, tableau 1C).
Tordoff et al. (2022) est de qualité modérée par les auteurs, alors que :
Les autres revues ont évalué la certitude des preuves : pour les idées suicidaires comme faible ou très faible (NZEB, Dopp) et pour l’anxiété/la dépression, très faible selon Dopp, modérée selon NZEB, malgré 3 déclassements).
Concernant la qualité de l'étude, ROBINS-I a indiqué un risque de biais sérieux (NZEB). L’étude a échoué à 6 des 11 items de la grille JBI (Dopp) et obtenu un score de 3,5/8 (faible) selon la NOS modifiée (Taylor). Elle a été exclue par Miroshnychenko (intervention inappropriée), mais inclue dans la revue similaire concernant les hormones, avec un risque de biais sérieux (selon ROBINS-I).
Les biais les plus marquants concernent une perte de suivi très asymétrique entre les groupes (83 % de réponses à 12 mois dans le groupe traité, contre seulement 20 % dans le groupe non traité), ainsi que le codage binaire du traitement ne tenant pas compte de sa durée d’exposition effective.
*Trois outils couramment utilisés pour évaluer la qualité des études non randomisées sont :
ROBINS-I (évaluation du risque de biais, avec un jugement global sur 4 niveaux : faible, modéré, sérieux, critique),
la NOS (Newcastle-Ottawa Scale, notée sur 3 niveaux : élevé, modéré ou faible),Â
la grille JBI (Joanna Briggs Institute, fondée sur un nombre de critères remplis).
Manquement aux standards de rigueur dans l’interprétation des résultats
En raison d’une surestimation non transparente de la qualité des études, celles-ci ont été incluses dans la synthèse et la conclusion, façonnant ainsi l’ensemble de la revue de Tornese et al..
Les résultats des études sont repris tels quels sans mention des limites des études.
Dans la discussion, les bénéfices rapportés sont décrits à l’aide de termes tels que « significatif », « améliorations marquées » ou encore « fortement corrélés » au traitement (entre autres formulations). Aucune prudence critique ni mise en perspective de ces limitations n’est apportée, ce qui contrevient aux standards de base des revues systématiques.
Quatre exemples parmi d'autres :
Concernant Tordoff (2022), Tornese et al. se contentent de rapporter les conclusions de l'étude, à savoir : le groupe « traité » (recevant bloqueurs et/ou hormones) présente un risque de suicidalité et de dépression réduits de 73 % et 60 % par rapport au groupe non traité.
En réalité, aucune amélioration significative n’est observée dans le groupe traité : le taux de dépression modérée à sévère passe de 57 % à 56 %, et celui d’idées suicidaires de 43 % à 37 % entre le début et la fin du suivi.
L’effet apparent provient d’une dégradation du groupe non traité, dont 80 % des membres n’ont pas complété les questionnaires à la fin de l’étude, entraînant un biais d’attrition majeur non corrigé. Ce biais invalide toute comparaison entre groupes.

Tornese et al. affirment plus loin, dans leur discussion, une baisse des pensées suicidaires et des comportements d’automutilation chez les jeunes recevant également une hormonothérapie, en se référant à Tordoff et al. Bien que l’étude présente une association marginalement significative dans un modèle multivarié (aOR = 0,43 ; p = 0,052, annexe supplémentaire, tableau 5), Tordoff et al. reconnaissent que leur étude n’avait pas un nombre de participants suffisant pour tirer des conclusions fiables à partir de ces résultats incertains. De plus, l'étude traite de la même manière un jeune ayant commencé les hormones trois jours avant de remplir les questionnaires, et un autre les prenant depuis six mois : or, chez le premier, aucun effet significatif du traitement ne peut avoir eu le temps de se manifester. Ce type de codage simplifié (« traité »/ « non traité ») contribue à surestimer l’efficacité du traitement.
Tornese et al. citent l’étude de Vries (2014) pour affirmer « une amélioration du fonctionnement psychosocial chez les adolescents bénéficiant de soins complets d’affirmation de genre ».
Pourtant, cette étude présente de nombreux biais méthodologiques : absence de groupe contrôle, biais de sélection (participants sélectionnés parmi ceux ayant poursuivi jusqu’à la chirurgie), données manquantes non analysées, mesures subjectives administrées sans insu, et analyses de résultats potentiellement sélectives. L’evidence brief néo-zélandais (2024) a évalué cette étude comme fournissant des preuves de très faible certitude pour les résultats mentionnés par Tornese, avec un risque de bais sérieux à critique sur tous les domaines de ROBINS-I ; la qualité est évaluée comme faible par Taylor (2024).
Là encore, ces limitations majeures ne sont pas mentionnées par Tornese.
Van der Miesen et al. (2020) et Fisher et al. (2024) sont cités comme apportant des « preuves plus solides » de l’effet protecteur des bloqueurs de puberté. Pourtant, Fisher est une étude de petite taille (n = 36), sur 12 mois, avec un risque de biais critique selon ROBINS-I (NZEB 2024). Van der Miesen est une étude transversale, ce qui exclut toute inférence causale — les auteurs eux-mêmes le reconnaissent : « La présente étude ne peut donc pas fournir de preuves concernant les bénéfices directs de la suppression de la puberté dans le temps ni sur les effets à long terme sur la santé mentale ».
Enfin, l’étude d’Achille et al. (2020) est utilisée pour affirmer une « baisse significative des idées suicidaires (de 10 % à 6 %) », mais cette affirmation est inexacte : les auteurs précisent eux-mêmes que les modèles de régression n’ont pas pu être estimés en raison du faible effectif, et qu’aucune significativité n’est démontrée.
En résumé
Tornese et al. présentent comme un point fort de leur revue le fait de se concentrer uniquement sur les études qu’ils jugent de qualité modérée à élevée, ce qui, en apparence, est conforme aux standards des revues systématiques. Cependant, cette exigence de qualité pourrait avoir été instrumentalisée a posteriori : plusieurs études évaluées comme étant de faible qualité méthodologique par d'autres revues indépendantes (notamment la revue de York commandée par le Cass Review (Taylor 2024)) reçoivent un niveau « modéré », sans justification transparente.
La revue de York avait fait le choix méthodologique rigoureux d’exclure de sa synthèse narrative les études de qualité jugée insuffisante, ce qui lui a valu des critiques de la part de militants/chercheurs soutenant la transition médicale des mineurs. Or, Tornese et al. semblent répondre à ces critiques en requalifiant plusieurs de ces études comme étant de qualité « modérée », afin de les intégrer dans leur synthèse.
Ce glissement pose question : les critères de rétrogradation ont-ils été ajustés a posteriori pour inclure les études a priori favorables aux conclusions recherchées ?
Cette suspicion est renforcée par le fait que Tornese et al. remettent explicitement en cause les conclusions de la revue de York dans leur discussion, en contestant l’affirmation selon laquelle les preuves seraient encore insuffisantes ou inconsistantes.
Or, c’est précisément parce que la revue de York a appliqué des critères stricts d’inclusion (qualité de l'étude suffisante) qu’elle avait exclu ces mêmes études de leur synthèse narrative.
Le contraste entre une approche rigoureuse mais sélective, et une approche plus inclusive mais moins exigeante, suggère une utilisation stratégique des critères d’évaluation, en contradiction avec les principes fondamentaux guidant les revues systématiques.
Certitude des preuves pour un critère donné et qualité des études individuelles
Prenons un exemple concret : si l’on cherche à savoir si les bloqueurs de puberté permettent de réduire les symptômes de dépression chez les adolescents, on va se demander quelle est la certitude des preuves disponibles sur cette question précise.
Supposons que la revue inclue une vingtaine d’études au total, mais que seules trois d’entre elles rapportent des résultats exploitables sur la dépression (avec des données claires, un suivi suffisant, etc.). Le cadre GRADE va alors évaluer la certitude des preuves tirées uniquement de ces trois études, ce qu’on appelle le body of evidence pour cet effet précis.
Dans le cas des études observationnelles (non randomisées), comme c’est le cas ici, GRADE commence par attribuer un niveau de certitude initial faible. Ensuite, on examine cinq grands domaines pour décider s’il faut abaisser encore ce niveau de certitude :
Limitations méthodologiques (ou risque de biais). Cette partie repose sur une évaluation spécifique de la qualité de chaque étude, avec des outils comme ROBINS-I, NOS ou JBI.
Imprécision : si les résultats sont très variables ou si les effectifs sont trop petits pour conclure avec confiance.
Incohérence : si les études donnent des résultats très différents entre elles.
Caractère indirect des preuves (indirectness) : par exemple, si les études ont été faites dans un contexte ou sur une population différente de celle qui nous intéresse.
Biais de publication : si certaines études négatives n’ont jamais été publiées.
À la fin de cette évaluation, le niveau de certitude peut rester faible, ou être abaissé à très faible si plusieurs problèmes sont identifiés. Dans certains cas exceptionnels, il peut être rehaussé, par exemple si les effets observés sont très importants et cohérents, à modéré ou élevé.