Une raison pour laquelle certaines études scientifiques peuvent être erronées

Il y a un crise de réplicabilité en science - les "faux positifs" non identifiés pénétrer même nos meilleures revues de recherche.

Un faux positif est une affirmation qu'un effet existe alors qu'en réalité ce n'est pas le cas. Personne ne sait quelle proportion des articles publiés contiennent des résultats aussi inexacts ou exagérés, mais il y a signes que la proportion n'est pas petite.

L'épidémiologiste John Ioannidis a donné la meilleure explication de ce phénomène dans un article célèbre de 2005, intitulé provocamment "Pourquoi la plupart des résultats de recherche publiés sont faux". Une des raisons données par Ioannidis pour tant de faux résultats a fini par être appelée "p piratage », qui découle de la pression que les chercheurs ressentent pour atteindre une signification statistique.

Quelle est la signification statistique?

Pour tirer des conclusions à partir des données, les chercheurs s'appuient généralement sur test de signification. En termes simples, cela signifie calculer le "p value ", qui est la probabilité de résultats comme le nôtre s'il n'y a vraiment aucun effet. Si la p la valeur est suffisamment petite, le résultat est déclaré statistiquement significatif.

Traditionnellement, un p valeur de moins de .05 est le critère de signification. Si vous signalez un p<05, les lecteurs penseront probablement que vous avez trouvé un effet réel. Peut-être, cependant, il n'y a en fait aucun effet et vous avez signalé un faux positif.


graphique d'abonnement intérieur


De nombreuses revues ne publieront que des études pouvant rapporter un ou plusieurs effets statistiquement significatifs. Les étudiants diplômés apprennent rapidement que réaliser le mythique p

Cette pression pour atteindre pp piratage.

L'attrait de p piratage

Pour illustrer p piratage, voici un exemple hypothétique.

Bruce a récemment complété un doctorat et a obtenu une prestigieuse subvention pour se joindre à l'une des meilleures équipes de recherche dans son domaine. Sa première expérience ne fonctionne pas bien, mais Bruce affine rapidement les procédures et exécute une deuxième étude. Cela semble plus prometteur, mais ne donne toujours pas p valeur inférieure à .05.

Convaincu qu'il est sur quelque chose, Bruce rassemble plus de données. Il décide de laisser tomber quelques-uns des résultats, qui semblaient clairement loin.

Il remarque ensuite qu'une de ses mesures donne une image plus claire, alors il se concentre sur cela. Quelques modifications supplémentaires et Bruce identifie finalement un effet légèrement surprenant mais vraiment intéressant qui réalise p

Bruce a essayé si fort de trouver l'effet qu'il savait se tenait quelque part. Il sentait aussi la pression de frapper p

Il n'y a qu'un seul attrapé: il n'y avait aucun effet. Malgré le résultat statistiquement significatif, Bruce a publié un faux positif.

Bruce a estimé qu'il utilisait sa perspicacité scientifique pour révéler l'effet caché comme il a pris différentes étapes après avoir commencé son étude:

  • Il a recueilli d'autres données.
  • Il a laissé tomber certaines données qui semblaient aberrantes.
  • Il a abandonné certaines de ses mesures et s'est concentré sur les plus prometteurs.
  • Il a analysé les données un peu différemment et a fait quelques ajustements supplémentaires.

Le problème est que tous ces choix ont été faits après voir les données. Bruce peut, inconsciemment, avoir été cherrypicking - sélection et peaufinage jusqu'à ce qu'il obtienne l'insaisissable pp

Les statisticiens ont un dicton: si vous torturez assez les données, ils vont avouer. Les choix et les ajustements faits après avoir vu les données sont des pratiques de recherche douteuses. L'utilisation de ceux-ci, délibérément ou non, pour atteindre le bon résultat statistique est p piratage, qui est une raison importante que les résultats publiés, statistiquement significatifs peuvent être des faux positifs.

Quelle proportion des résultats publiés sont erronés?

C'est une bonne question, et une question diaboliquement délicate. Personne ne connaît la réponse, qui est susceptible d'être différente dans différents domaines de recherche.

Un effort important et impressionnant pour répondre à la question de la psychologie sociale et cognitive a été publié dans 2015. Sous la direction de Brian Nosek et de ses collègues du Center for Open Science, le Projet de réplicabilité: Psychologie (RP: P) Les groupes de recherche 100 du monde entier ont chacun reproduit soigneusement l'un des résultats publiés par 100. Global, à peu près 40 répliqué assez bien, alors que dans les cas 60 autour les études de réplication ont obtenu des effets plus petits ou beaucoup plus petits.

Les études de réplication de 100 RP: P ont rapporté des effets qui étaient, en moyenne, juste la moitié de la taille des effets rapportés par les études originales. Les réplications soigneusement conduites donnent probablement des estimations plus précises que p Nous avons donc pu conclure que les études originales surestimaient les vrais effets, en moyenne, d'un facteur deux. C'est alarmant!

Comment éviter p piratage

La meilleure façon d'éviter p Le piratage consiste à éviter toute sélection ou modification après avoir vu les données. En d'autres termes, évitez les pratiques de recherche douteuses. Dans la plupart des cas, le meilleur moyen d'y parvenir est d'utiliser pré-inscription.

La préinscription exige que vous prépariez à l'avance un plan de recherche détaillé, y compris l'analyse statistique à appliquer aux données. Ensuite, vous pré-enregistrement du plan, avec timbre dateur, au Open Science Framework ou un autre registre en ligne.

Ensuite réaliser l'étude, analyser les données conformément au plan et rendre compte des résultats, quels qu'ils soient. Les lecteurs peuvent vérifier le plan préenregistré et ainsi être sûr que l'analyse a été spécifiée à l'avance, et non p piraté. La préinscription est une nouvelle idée stimulante pour de nombreux chercheurs, mais susceptible d'être la voie de l'avenir.

Estimation plutôt que p valeurs

La tentation de p pirater est l'un des grands inconvénients de s'appuyer sur p valeurs. Un autre est que le pplutôt comme dire qu'un effet existe ou pas.

Mais le monde n'est pas noir et blanc. Pour reconnaître les nombreuses nuances de gris, il vaut mieux utiliser estimation plutôt que p valeurs. Le but de l'estimation est d'estimer la taille d'un effet - qui peut être petit ou grand, nul, voire négatif. En termes d'estimation, un résultat faux positif est une estimation plus grande ou beaucoup plus grande que la vraie valeur d'un effet.

Faisons une étude hypothétique sur l'impact de la thérapie. L'étude pourrait, par exemple, estimer que la thérapie donne, en moyenne, une diminution de l'anxiété au point 7. Supposons que nous calculons à partir de nos données un Intervalle de confiance - une gamme d'incertitude de chaque côté de notre meilleure estimation - de [4, 10]. Cela nous indique que notre estimation de 7 est, très probablement, à l'intérieur d'environ 3 points sur l'échelle de l'anxiété de l'effet réel - le montant moyen réel de l'avantage de la thérapie.

En d'autres termes, l'intervalle de confiance indique la précision de notre estimation. Connaître une telle estimation et son intervalle de confiance est beaucoup plus instructif que tout p valeur.

Je me réfère à l'estimation comme l'une des «nouvelles statistiques». Les techniques elles-mêmes ne sont pas nouvelles, mais leur utilisation comme principal moyen de tirer des conclusions à partir de données serait pour de nombreux chercheurs une nouveauté et un grand pas en avant. Cela permettrait également d'éviter les distorsions causées par p le piratage.

A propos de l'auteur

Geoff Cumming, professeur émérite, La Trobe University

Cet article a été publié initialement le The Conversation. Lis le article original.

Livres connexes:

at Marché InnerSelf et Amazon