Article original : Reproducibility Crisis: The plot thickens, publié par Neuroskeptic le 10 novembre 2015 sur son blog du magazine Discover.

820 mots – environ 5 minutes


Un nouvel article du psychologue anglais David Shanks et ses collègues vient ajouter au sentiment grandissant de « crise de la reproductibilité » en psychologie.

Cet article s’intitule « Romance, risque et réplication » (2) et il cherche à déterminer si de subtils rappels de « comportements d’accouplement » (c’est-à-dire de sexe) peuvent encourager les gens à dépenser plus d’argent ou prendre plus de risques. Dans les expériences d' »amorçage romantique », les participants sont en premier lieu « amorcés », c’est-à-dire qu’ils lisent une histoire dans laquelle il rencontre un membre du sexe opposé attirant. On leur demande ensuite de se soumettre à un test en apparence sans rapport, à savoir, de dire combien ils seraient prêts à dépenser pour une nouvelle montre.

De nombreuses études ont été publiées sur l’amorçage romantique (43 expériences publiées dans 15 articles selon Shanks et al.) et la grande majorité a trouvé des effets statistiquement significatifs. L’effet semble donc être reproductible ! Mais dans ce nouvel article Shanks et al. rapportent qu’ils ont tenté de répliquer cet effet au cours de huit expériences, avec un total de plus de 1600 participants, et qu’ils ne sont parvenus à aucun résultat. L’amorçage romantique n’a pas d’effet.

Alors, que s’est-il passé ? Pourquoi les résultats des réplications diffèrent tellement des résultats des études originales ?

La réponse est plutôt déprimante et se trouve dans le graphique établi par Shanks et al. c’est un graphique en entonnoir (3), un nuage de points en deux dimensions dans lequel chacun des points représente une étude précédemment publiée. Le graphique représente la taille de l’effet observé par chaque étude en comparaison avec l’erreur type de la taille de l’effet – fondamentalement la précision des résultats, qui est en grande partie déterminée par la taille de l’échantillon.

funnel_shanks

Ce graphique en particulier est une preuve statistique fiable, et suggère que les résultats positifs des études d’origine (les points noirs) étaient probablement le résultat de p-hacking [NdT : partir de données ayant un grand nombre de variables et un grand nombre de résultats, et […] choisir les associations qui sont « statistiquement significatives (4)]. Ils ont été trouvés par hasard, et publiés de façon sélective car ils étaient positifs.

Voilà pourquoi. En théorie, les points d’un graphique en entonnoir devraient former un « entonnoir », c’est-à-dire un triangle qui pointe vers le haut. En d’autres termes, les études les plus précises, en haut du graphique, devraient avoir des estimations avec moins de bruit, mais elles devraient converger vers le même effet, ce dernier étant aussi la valeur moyenne des mesures moins précises.

Dans ce graphique cependant, les points noirs forment un « entonnoir » qui est très sérieusement déformé vers la gauche. La ligne directrice de ces points est une diagonale (la ligne rouge). En d’autres termes, les études les plus précises tendent à trouver des effets liés à l’amorçage romantique moindres. Plus l’étude est large, plus l’effet de l’amorçage romantique s’amoindrit.

En fait, cette ligne de tendance diagonale et rouge suit de près la ligne p<0,05 où un effet cesse d’avoir une signification statistique – ce qui est symbolisé par la limite extérieure du triangle gris sur le graphique. Un autre moyen d’exprimer cela serait de dire que les valeurs de p légèrement inférieures à 0.05 sont sur-représentées. Les résultats publiés frôlent la ligne de signification p=0.05. Ainsi chacune des études tend à reporter un effet à peine assez important pour être statistiquement significatif. Il est très difficile d’expliquer comment un tel motif pourrait apparaitre – excepté grâce aux biais.

Shanks et al. déclare que c’est la preuve « soit de p-hacking dans les études précédemment publiées soit d’une publication sélective des résultats (ou des deux) ». C’est deux formes de biais vont de pair, la réponse est donc probablement les deux. Le biais de publication est la tendance qu’ont les scientifiques (mais également les pairs et les éditeurs) à préférer les résultats positifs aux résultats négatifs. Le p-hacking est un processus grâce auquel les scientifiques peuvent augmenter leurs chances de trouver des résultats positifs.

Je publie des articles de blog sur ces problèmes depuis des années, malgré cela j’ai été extrêmement surpris par la nature dramatique du biais dans ce cas. Les études ressemblent à un torrent dégringolant le long de la montagne de la signification. L’image représente davantage un graphique en avalanche qu’un graphique en entonnoir.

avalanche

Quand pris de pair avec les résultats négatifs des huit réplications d’études conduites par Shanks et al., le graphique en entonnoir suggère que l’amorçage romantique n’existe pas, et que les nombreuses études reportant cet effet étaient fausses.

Cela ne signifie pas que les précédents chercheurs travaillant sur l’effet d’amorçage essayaient délibérément de tromper les gens en publiant des résultats qu’ils savaient faux. De mon point de vue, ils étaient probablement guidés par leurs propres biais cognitifs, aidés dans cette voie par la culture du « des résultats positifs ou rien » présent de nos jours en science. Ce système peut générer des réplicats de résultats positifs sortis de nulle part. Je ne pense pas que ce soit un moyen viable pour faire de la recherche. Une réforme est nécessaire.


Shanks DR, Vadillo MA, Riedel B, Clymo A, Govind S, Hickin N, Tamman AJ, & Puhlmann LM (2015). Romance, Risk, and Replication: Can Consumer Choices and Risk-Taking Be Primed by Mating Motives? Journal of experimental psychology. General PMID: 26501730


Notes de traduction :

(1) : Jeu de mots perdu lors de la traduction : « the plot thickens » peut se traduire par « l’affaire se corse » ou « le mystère s’épaissit » mais « plot » signifie également graphique

(2) Titre original : « Romance, Risk, and Replication »

(3) Tous les liens vers des pages Wikipédia présents dans l’article original ont étés remplacé par leur équivalent français.

(4) Définition reprise de : https://fr.wikipedia.org/wiki/Data_dredging