[ Note de l'éditeur: Scott est occupé cette semaine, nous vous apportons donc plutôt un billet du contributeur précédent, le Dr David Weinberg. ]

La boîte à outils p-hackers – Médecine scientifique la boite a outils p hackers medecine scientifique

Le sacré p -valeur

Le sujet de p -hacking a été fréquemment évoqué dans les écrits récents sur la médecine scientifique. Ces postes sont souvent des post-mortems d'études erronées, soulignant une variété de pratiques appelées collectivement p -hacking. Le terme fait son chemin dans le vocabulaire populaire. Mais qu'est-ce que p -hacking? Pourquoi est-ce mauvais?

P -hacking est une mauvaise utilisation de métrique statistique connue sous le nom de valeur p . Les valeurs de P ont une signification très spécifique, mais même les experts ont du mal à expliquer le concept de valeurs de p aux profanes. Dans cet article, je vais essayer de donner une explication sur les méthodes et les dangers de p – pour ceux qui n'ont aucune formation en statistique.

Contexte

La production de recherches innovantes et percutantes est la façon dont les enquêteurs sont publiés, financés, promus et se font un nom dans le monde universitaire. C'est aussi la façon dont les entrepreneurs médicaux rassemblent des preuves et l'approbation réglementaire de leurs produits. Pour le meilleur ou pour le pire, l'un des facteurs qui rend la recherche plus intéressante et plus efficace est l'obtention de résultats «statistiquement significatifs». Les études avec des résultats statistiquement significatifs sont plus susceptibles d'être soumises pour publication et, si elles sont soumises, plus susceptibles d'être acceptées. La signification statistique est considérée comme un substitut de la signification scientifique ou de la signification clinique. Si vous effectuez des recherches en vue d'une approbation réglementaire (comme pour la FDA), l'obtention de résultats statistiquement significatifs sera probablement essentielle au succès. La métrique utilisée comme critère de signification statistique est connue comme une «valeur p ».

L'obsession des valeurs et de la signification statistique de p a été examinée de près par certains critiques. Je n'entrerai pas dans toutes les critiques de l'utilisation traditionnelle des valeurs de p et des tests de signification mais, en suivant le lien ici, vous pouvez en savoir plus. La pression pour créer une recherche statistiquement significative motive certains chercheurs à «masser» doucement les données ou les analyses pour transformer un résultat statistiquement non significatif en un résultat statistiquement significatif. Le terme « p -acking» a été inventé pour décrire collectivement une variété de pratiques douteuses que les enquêteurs peuvent utiliser pour obtenir des résultats statistiquement significatifs lorsque la signification statistique n'est pas vraiment acquise. Ces techniques violent des principes statistiques solides, augmentent les résultats faussement positifs et exagèrent les résultats positifs réels, un biais connu sous le nom d'inflation de la vérité.

P -les techniques de piratage peuvent être employées naïvement par des enquêteurs bien intentionnés qui croient polir et présenter les données sous le meilleur jour. Les motifs peuvent être innocents, mais la conséquence est la prolifération de conclusions fausses et exagérées.

Pour comprendre p – il faut une compréhension de base de l'hypothèse nulle, des tests statistiques et des valeurs de p .

L'hypothèse nulle

La recherche médicale recherche souvent des différences entre les variables ou des changements de variables au fil du temps: les fumeurs ont-ils un plus grand risque de cancer du poumon que les non-fumeurs? Les diabétiques traités avec le médicament A ont-ils une glycémie inférieure à ceux traités avec le médicament B? Les enfants élevés à Springfield ont-ils un QI plus élevé que les enfants élevés à Shelbyville? Dans la plupart des cas, les tests statistiques explorant ces différences partent de l'hypothèse par défaut qu'il n'y a pas de différence entre les variables d'intérêt. Cette hypothèse d'aucune différence est connue comme «l'hypothèse nulle». L'objectif de la recherche est alors de collecter des données et d'effectuer une analyse statistique appropriée. Si les résultats démontrent une différence entre les groupes et sont suffisamment convaincants, la différence entre les groupes est déclarée «statistiquement significative». L'hypothèse nulle est rejetée et les différences entre les variables sont acceptées.

Tests statistiques et p -valeurs

Quelles conclusions sont «suffisamment convaincantes» pour rejeter l'hypothèse nulle? Cette question est l'essence même des tests statistiques. Si nous plaçons la barre de la persuasion trop bas, nous risquons de rejeter l'hypothèse nulle trop facilement, ce qui aboutirait à des conclusions injustifiées. Nous pouvons conclure à tort que les élèves de Springfield High sont plus intelligents que les élèves de Shelbyville lorsqu'ils sont vraiment les mêmes. C'est ce qu'on appelle une erreur statistique faussement positive (ou de type 1). Si nous mettons la barre pour un pouvoir de persuasion excessivement élevé, nous rendons difficile de rejeter l'hypothèse nulle lorsqu'il existe de réelles différences (un faux négatif ou une erreur de type II). Bien que les tests de signification soient utilisés comme protection contre les résultats faussement positifs, les valeurs de p ont une signification très spécifique et sont largement mal comprises.

Les valeurs P sont exprimées en décimales sur une échelle de 0 à 1. La valeur p est la probabilité qu'un résultat particulier ou plus extrême soit obtenu SI l'hypothèse nulle est vraie. Imaginons que nous menions une expérience et mesurons une petite différence entre les QI des élèves du secondaire à Springfield et Shelbyville. Nous effectuons un test statistique approprié et trouvons une valeur p de 0,45. Cela signifie que si les élèves de Springfield et Shelbyville ont des QI égaux, nous nous attendons à trouver ce résultat particulier ou une différence plus extrême 45% du temps. Dans la plupart des cas, ce serait une preuve insuffisante pour rejeter l'hypothèse nulle et nous ne serions pas certains de déclarer que les étudiants de Springfield sont plus intelligents que ceux de Shelbyville. Des valeurs de p plus petites indiquent qu'un résultat donné est moins susceptible de se produire si l'hypothèse nulle est vraie. Il convient de mentionner que le fait de ne pas obtenir une valeur de p suffisamment faible pour rejeter l'hypothèse nulle ne permet pas de conclure que l'hypothèse nulle est vraie. En d'autres termes, malgré une valeur p élevée, les personnes âgées de Springfield pourraient en fait être plus intelligentes que leurs homologues de Shelbyville, mais pour une raison quelconque, nos tests ne l'ont pas confirmé.

Il existe de nombreuses raisons pour lesquelles une étude pourrait ne pas rejeter l'hypothèse nulle. Ce pourrait être l'hypothèse nulle qui est vraie, mais cela pourrait aussi être une étude mal conçue, ou une taille d'échantillon insuffisante, ou une différence très petite mais réelle, ou tout simplement pas de chance. La valeur p ne vous indique PAS la probabilité que l'hypothèse nulle soit vraiment fausse ou que l'hypothèse alternative soit vraiment vraie. Dans la plupart des cas, les informations sont insuffisantes pour faire un calcul fiable de ces propositions.

Avant d'effectuer une expérience, les chercheurs sont obligés de définir une valeur de seuil p . Si les résultats de l'expérience donnent des résultats qui diffèrent suffisamment de l'hypothèse nulle pour générer une valeur de p égale ou inférieure au seuil présélectionné, l'hypothèse nulle est «rejetée» et l'écart par rapport à la valeur nulle est déclaré statistiquement

La désignation de la valeur seuil p est quelque peu arbitraire mais dépend de la tolérance des chercheurs pour les résultats faux positifs et faux négatifs. Un seuil plus strict (plus bas) réduira la probabilité de résultats faussement positifs (c'est-à-dire trouver une différence quand il n'y en a pas), mais augmentera également la probabilité de faux résultats négatifs (c'est-à-dire ne pas trouver une différence qui existe réellement). Pour la recherche médicale, la valeur seuil p est presque universellement P≤.05.

La norme p ≤.05

Sélection d'un seuil p – La valeur est basée sur une variété de considérations philosophiques et pratiques. Philosophiquement, nous voulons éviter les faux résultats positifs – mais il y a un compromis. Un seuil très strict p -value diminue les chances de faux résultats positifs, mais soulève efficacement l'obstacle pour valider un résultat vraiment positif. En d'autres termes, il diminue également les vrais résultats positifs et augmente les faux résultats négatifs. Cela peut être surmonté en concevant des études plus grandes et plus puissantes. Malheureusement, il existe des limites pratiques au financement et aux autres ressources pour la recherche biomédicale, de sorte que des études plus importantes ne sont pas toujours possibles ou pratiques. Pour le meilleur ou pour le pire, un seuil p de 0,05 est devenu la norme de facto pour une grande partie de la recherche médicale. La conséquence d'un seuil p -une valeur de 0,05 est que dans les situations où l'hypothèse nulle est vraie, la recherche rejettera à tort l'hypothèse nulle dans 5% (1 sur 20) des études.

Une métaphore risquée

Explorons les implications d'une valeur de seuil p de 0,05. p – les valeurs peuvent aller de 0 à 1. nous pouvons diviser cette plage en 20 incréments comme ceci:

1. ≤.05
2. >. 05-.10
3. >. 10-.15,
4. > .15-.2
5. >. 2-.25
6. >. 25-.3
7. > .3-.35
8. >. 35-.4
9. >. 4-.45
10 . >. 45-.5
11. >. 5-.55
12. >. 55-.6
13. > .6-.65
14. > .65-.7
15. >. 7-.75
16. >. 75-.8
17. ]>. 8-.85
18. >. 85-.9
19. > .9-.95
20. > .95-1.0

Nous attribuons chacun de ces incréments à un côté d'un dé à 20 faces, comme illustré ci-dessous.

IMG_2573 "width =" 300 "height =" 299 "/> </p>
<p> Si nous comparons 2 groupes qui sont en fait égaux (l'hypothèse nulle est vraie), en utilisant un seuil <em> p </em> -valeur de .05, chaque étude est comme un rouleau de ce 20 côtés mourir. Un jet sur 20 du dé atterrira du côté ≤.05, et nous rejetterons à tort l'hypothèse nulle et déclarerons les deux groupes différents. </p>
<h2> <em> P </em> -acking en action </h2>
<p> Disons que je dirige une start-up et que je possède un vaccin prometteur pour empêcher que ceux qui souffrent d'une morsure de zombie ne se transforment en morts-vivants. Je conçois un essai clinique comparant Zombivax vs placebo. Les résultats de cette étude se traduiront par le succès ou la disparition de mon entreprise. À la fin de l'étude, 43% du groupe Zombivax sont devenus des zombies contre 68% du groupe Placebo. Dans quelle mesure puis-je avoir confiance que la différence entre les traitements est réelle? Dans le cas de notre étude, l'hypothèse nulle est que Zombivax et Placebo sont également efficaces (ou inefficaces) pour prévenir le zombïisme. Si nos chiffres pour Zombivax vs placebo atteignent un P≤.05, nous pouvons alors déclarer Zombivax supérieur au placebo. </p>
<p> Nous analysons nos résultats et obtenons une valeur de <em> p </em> de 0,09. Cela signifie que si Zombivax et le placebo sont égaux (l'hypothèse nulle) et que nous avons pu répéter notre essai clinique encore et encore, nous pourrions nous attendre, par hasard, à nos résultats (43% pour Zombivaz vs 68% pour le placebo) ou un résultat plus extrême 9% du temps. Ce résultat ne répond pas au seuil traditionnel de P≤.05, donc en utilisant les normes conventionnelles, nous ne serions pas en mesure de déclarer Zombivax plus efficace que le placebo. </p>
<p> En tant que PDG de la société qui fabrique Zombivax, je suis très déçu que l'essai clinique n'ait pas atteint une signification statistique. J'invite mes statisticiens à revenir en arrière et à revoir la conception et l'analyse de l'étude pour voir si des détails ont été faits «incorrectement» qui auraient pu conduire au résultat P = 0,09 décevant. Ils remarquent que certains des sujets du groupe Zomivax ont manqué l'une des 3 doses du vaccin. S'ils omettent ces sujets de l'analyse, le groupe Zombivax fait un peu mieux, atteignant maintenant une valeur P de 0,07! De plus, nous soupçonnons que certains des patients sous placebo n'ont pas vraiment été mordus. Ces sujets ont été omis et les données ont été réanalysées. Cela change la valeur de <em> p </em> en .11, donc cette analyse est abandonnée. </p>
<p> Maintenant, les statisticiens détectent que le vaccin ne semble pas fonctionner aussi bien chez les sujets plus âgés. S'ils limitent l'analyse aux sujets de 50 ans ou moins, les résultats semblent bien meilleurs, donnant une valeur de <em> p </em> de 0,04! En tant que PDG, je donne à mes statisticiens un bonus et publie un communiqué de presse déclarant Zombivax une percée médicale. </p>
<p> Alors qu'est-ce qui ne va pas avec l'exploration des changements dans les données et les analyses pour optimiser les résultats? Une fois les données connues, il existe de nombreuses façons d'ajuster et de manipuler les choses qui changeront la valeur de <em> p </em>. Si l'on est tellement motivé, il est possible d'explorer des alternatives, d'accepter celles qui font avancer les résultats dans une direction souhaitable et de rejeter celles qui ne le font pas. Cela permet aux enquêteurs de transformer les résultats négatifs ou limites en résultats positifs. C'est l'essence même du <em> p </em> -acking. </p>
<p> En utilisant la matrice à 20 faces comme métaphore, l'essai clinique de Zombivax a lancé la matrice. Malheureusement pour notre entreprise, le dé n'est pas tombé du côté ≤.05. Il a atterri sur le côté adjacent pour <em> p </em> -valeurs entre .05 et .10. Ce que j'ai demandé à mes statisticiens de faire, c'est de donner un coup de pied, de pousser et d'incliner la table jusqu'à ce que le dé roule jusqu'au résultat souhaité. Si le dé roule dans la mauvaise direction, ils peuvent simplement réinitialiser le dé au jet d'origine et essayer autre chose. Avec suffisamment de motivation et de créativité, il est probable qu'ils peuvent faire tomber le dé du côté souhaité et déclarer une signification statistique. </p>
<p> Si Zombivax était vraiment sans valeur, notre essai clinique et le <em> p </em> -acking subséquent seraient un exemple de résultat purement faux positif. Si Zombivax était légèrement efficace, notre <em> p </em> -acking serait un exemple d '«inflation de la vérité», transformant un petit résultat statistiquement non significatif en un résultat plus grand et statistiquement significatif. </p>
<p> Il existe de nombreuses options dans la boîte à outils des pirates <em> p </em>; trop nombreux pour être mentionnés dans cet article. Je vais en discuter quelques-unes des plus courantes. </p>
<h2> Taille d'échantillon flexible </h2>
<p> Lors de la recherche, il est traditionnel de prédéfinir la taille de l'échantillon (par exemple, nombre de patients, échantillons, séries de tests, etc.) pour l'étude. Dans des conditions idéales, cela se ferait sur la base d'indices existants sur le comportement des groupes comparés et en utilisant des calculs de puissance pour garantir que l'étude prévue a une chance raisonnable de trouver un réel positif, s'il en existe un. Souvent, la taille des échantillons est basée sur des considérations plus pratiques, telles que le nombre de sujets disponibles pour l'étude, le financement, etc. La façon dont le <em> p </em> -hacker le fait consiste à inscrire quelques patients, à exécuter l'analyse des résultats, inscrivez-vous un peu plus et répétez l'analyse. Ce cycle est répété jusqu'à ce qu'un résultat statistiquement significatif soit atteint. L'inscription est alors interrompue. À première vue, cela semble être un moyen très efficace de faire une étude. Seul le nombre minimum de patients requis pour atteindre une signification statistique est nécessaire. </p>
<p> Voici le problème. </p>
<p> Si vous voulez minimiser les faux positifs, vous devez lancer le dé et accepter le mensonge final. Au cours du lancer, le dé roulera inévitablement sur plusieurs côtés avant de finalement s'arrêter. En enrôlant et en ré-analysant à plusieurs reprises, c'est comme si nous prenions des instantanés intermittents de la filière en mouvement. S'ils attrapent le dé avec le côté <0,05 face visible, le dé est arrêté au milieu du jet et la victoire est déclarée. Afin d'éviter les faux positifs excessifs, vous devez définir les paramètres à l'avance et accepter le résultat du rouleau. </p>
<h2> Autres degrés de liberté des chercheurs </h2>
<p> De nombreux facteurs peuvent être modifiés pour manipuler les résultats de l'étude et les valeurs de <em> p </em>. Celles-ci ont été appelées «degrés de liberté des chercheurs». Un article amusant mais prudent a démontré qu'une manipulation motivée des degrés de liberté des chercheurs peut modifier considérablement les conclusions de la recherche à un point tel que même des conclusions absurdes peuvent être «prouvées» avec une signification statistique. Les chercheurs prennent de nombreuses décisions lorsqu'ils conçoivent une étude. Quel type de patients, quelle tranche d'âge, combien, combien de temps ils seront suivis, quels paramètres seront mesurés, à quels moments, etc. Si certains patients manquent des examens ou des doses de médicaments, comment cela sera-t-il géré lors de l'analyse des données ? Quels tests statistiques seront utilisés, et ainsi de suite. Idéalement, ces paramètres seront définis avant le début de l'étude. Tout écart par rapport au plan d'étude prédéfini devrait être divulgué et justifié lors de la présentation des résultats de l'étude. </p>
<h2> Dragage de données et HARKing </h2>
<p> Je ne vois pas de meilleur exemple de dragage de données que ce joyau de xkcd: </p>
<p> <img src=  La boîte à outils p-hackers &#8211; Médecine scientifique la boite a outils p hackers medecine scientifique

Dans l'étude Great Jelly Bean, les auteurs rapportent le résultat choquant que les haricots verts sont liés à l'acné, avec une valeur statistiquement significative p . Ce qu'ils n'ont pas révélé dans leur communiqué de presse, c'est qu'ils ont effectué des analyses sur 20 couleurs de bonbons à la gelée et obtenu une valeur «significative» p une fois. Si l'on a une base de données suffisamment grande et exécute suffisamment d'analyses, on est presque certain de tomber sur une relation statistiquement significative. Ce n'est qu'une question de chiffres. Faire tourner le dé à 20 faces encore et encore ne peut que produire des résultats «statistiquement significatifs» par le seul hasard.

Il existe des moyens légitimes de tester plusieurs hypothèses, mais elles nécessitent des valeurs p plus strictes pour déclarer la signification statistique. Si les auteurs de Jelly Bean avaient divulgué la multitude d'analyses qu'ils avaient effectuées, leurs résultats auraient valu un bâillement, pas un gros titre.

Ceci est étroitement lié à la pratique connue sous le nom de HARKing (supposant que les résultats sont connus). Dans HARKing, les enquêteurs regardent les données, effectuent plusieurs analyses jusqu'à ce qu'ils trouvent quelque chose d'intéressant (et probablement statistiquement significatif), puis prétendent que les résultats qu'ils ont trouvés étaient ce qu'ils recherchaient en premier lieu. Si les auteurs de l'étude Jelly Bean établissaient une justification selon laquelle les haricots verts étaient soupçonnés uniquement de causer de l'acné et rapportaient leurs résultats comme confirmation de cette hypothèse tout en négligeant commodément de rapporter les 19 autres analyses, ils seraient coupables de HARKing.

Conclusion: l'importance des résultats insignifiants

La mesure dans laquelle p -hack peut produire des résultats faussement positifs ou exagérer des résultats autrement insignifiants n'est limitée que par la persévérance et l'imagination du pirate informatique. Les résultats de p -acking sont bien plus conséquents que de simplement remplir le CV d'un enquêteur ou d'accélérer une promotion académique. Les ressources de recherche sont limitées. Il n'y a pas assez de financement, d'espace de laboratoire, de temps pour l'investigateur, de patients pour participer aux essais cliniques, etc. pour étudier chaque hypothèse. P – des données piratées conduisent à un détournement de ressources pour suivre des pistes qui semblent prometteuses, mais ne peuvent finalement pas être reproduites par des enquêteurs effectuant une recherche responsable et une analyse appropriée.

Provocateur, p les données piratées peuvent être la «chose brillante» qui retient l'attention imméritée du public, de la presse et de Wall Street. Plus inquiétant encore, des résultats convaincants mais obtenus douteusement peuvent être acceptés prématurément dans la pratique clinique. Et dans le monde CAM les charlatans peuvent utiliser des recherches bâclées pour promouvoir des traitements sans valeur et irrationnels.

Il n'y a pas de solution claire pour résoudre le problème de p -hacking. Une meilleure éducation des enquêteurs pourrait réduire certains des cas les plus innocents. Une plus grande transparence dans la communication des résultats de recherche révélerait un potentiel p -acking. Les écarts par rapport aux plans de collecte et d'analyse des données prévus doivent être divulgués et justifiés. Pour les essais cliniques, des registres tels que clinictrials.gov et alltrials.net sont destinés à assurer la transparence dans la conduite et la notification des essais cliniques. Les enquêteurs sont censés «enregistrer» leurs études à l'avance, y compris les caractéristiques essentielles de la conception de l'étude et un plan d'analyse. S'ils étaient utilisés comme prévu, des écarts par rapport aux détails de l'étude enregistrés et rapportés seraient évidents, et un drapeau rouge pour un potentiel p -acking. Pour ma spécialité, mes collègues et moi avons comparé les études publiées aux registres d'essais cliniques. Nous avons constaté que les registres sont sous-utilisés de manière à compromettre considérablement leur valeur prévue. Malheureusement, ma spécialité n'est pas unique à cet égard.

La réduction ou l'élimination de la dépendance des valeurs p et la dichotomie arbitraire des résultats statistiquement significatifs ou insignifiants a été proposée par l'American Statistical Association. Certaines revues sont allées jusqu'à interdire p les valeurs et les tests de signification dans le papier qu'elles publient.

Une meilleure compréhension de p -le harcèlement parmi les chercheurs, les revues, les pairs examinateurs et les consommateurs de littérature scientifique favorisera des méthodologies et des analyses de recherche plus responsables.



Source link

Author

Write A Comment