Des "phrases torturées" donnent des documents de recherche fabriqués

En avril 2021, une série de phrases étranges dans des articles de magazines a suscité l’intérêt d’un groupe d’informaticiens. Le groupe, dirigé par Guillaume Cabanac à l’Université de Toulouse en France, ne pouvait pas comprendre pourquoi les chercheurs utiliseraient les termes « fausse conscience », « organisation neuronale profonde » et « information colossale » au lieu des termes plus largement reconnus « intelligence artificielle ». . ‘,’ réseau de neurones profonds ‘et’ big data ‘.

Une enquête plus approfondie a révélé que ces termes étranges, qu’ils appellent « phrases torturées », sont probablement le résultat d’une traduction automatique ou d’un logiciel essayant de déguiser le plagiat. Et ils semblent abonder dans les articles d’informatique.

Les détectives de l’intégrité des enquêtes disent que Cabanac et ses collègues ont découvert un nouveau type de travail d’enquête fabriqué et que leur travail, publié dans une prépublication sur arXiv le 12 juillet,¹, cela pourrait n’exposer que la pointe de l’iceberg en ce qui concerne la littérature concernée.

Pour avoir une idée du nombre d’articles concernés, les chercheurs ont effectué une recherche de 30 phrases torturées dans des articles de revues indexés dans la base de données de citations Dimensions. Ils ont trouvé plus de 860 articles contenant au moins une des phrases, dont 500 ont été publiés dans une seule revue : Microprocesseurs et microsystèmes.

“Ça fait mal à la science. On ne peut pas se fier à ces papiers, nous devons donc les trouver et les retirer », explique Cabanac.

Soupçonnant que les phrases torturées sont le résultat d’une traduction automatique ou d’un logiciel qui réécrit le texte existant, Cabanac et ses collègues ont analysé une sélection de résumés de Microprocesseurs et microsystèmes et d’autres revues via un outil permettant d’identifier si les textes ont été générés par l’outil d’intelligence artificielle GPT. Du Microprocesseurs et microsystèmes documents marqués par l’outil, des contrôles manuels ont révélé des “défauts critiques” dans certains d’entre eux, comme du texte dénué de sens, ainsi que du texte et des images plagiés.

READ Défis et opportunités multilatéraux, avec Janos Pasztor

Pour approfondir, le groupe a téléchargé tous les articles publiés dans Microprocesseurs et microsystèmes entre 2018 et 2021, une période qu’ils ont choisie car une version améliorée de GPT a été publiée en 2019. L’analyse a révélé que les articles publiés après février 2021 avaient un délai d’acceptation cinq fois plus court, en moyenne, que ceux publiés avant cette date. Une forte proportion de ces articles provenaient d’auteurs chinois. Et un sous-ensemble d’articles avait des dates de soumission, d’examen et d’acceptation identiques, dont la plupart ont été publiés dans des numéros spéciaux de la revue. C’est suspect, disent les auteurs. Contrairement aux éditions standards, supervisées par le rédacteur en chef, les éditions spéciales sont généralement proposées et supervisées par un éditeur invité, et portent sur un domaine de recherche précis.

Microprocesseurs et microsystèmes Ce n’était pas le seul titre affecté : les chercheurs ont également trouvé des preuves de phrases torturées dans des articles publiés dans 35 autres revues. “Des enquêtes préliminaires montrent que plusieurs milliers d’articles contenant des phrases torturées sont indexés dans les principales bases de données”, écrivent-ils, ajoutant que “d’autres phrases torturées liées à des concepts d’autres domaines scientifiques n’ont pas encore été exposées”.

Enquête sur un sujet particulier

À l’époque où Cabanac et ses collègues remarquèrent pour la première fois les phrases torturées, et à leur insu, l’éditeur de Microprocesseurs et microsystèmes ont commencé à s’inquiéter de l’exhaustivité et de la rigueur des articles évalués par les pairs qui avaient été publiés dans certains des numéros spéciaux de la revue.

READ L'ONU met en garde contre une famine massive au Yémen avant la conférence des donateurs

Le rédacteur en chef du magazine, Elsevier, a lancé une enquête. Cela se poursuit toujours, mais à la mi-juillet, le rédacteur en chef a ajouté des expressions d’inquiétude à plus de 400 articles parus dans six numéros spéciaux du magazine.

Les expressions de préoccupation indiquent que les emplois dans les numéros spéciaux touchés de Microprocesseurs et microsystèmes ils sont « réévalués indépendamment » un par un, et le magazine fournira d’autres mises à jour sur leur statut une fois les enquêtes terminées.

L’éditeur ajoute qu’une “erreur de configuration dans le système éditorial” dans le magazine cela signifiait que ni le rédacteur en chef ni le rédacteur désigné pour traiter les articles ne les recevaient pour approbation comme ils le devraient. “Cette erreur de configuration était un problème temporaire dû à la migration du système et a été corrigée dès qu’elle a été découverte”, indique l’avis.

Un porte-parole d’Elsevier a déclaré La nature dans une déclaration que le Microprocesseurs et microsystèmes L’enquête a révélé que les auteurs ont probablement utilisé un logiciel de traduction inversée pour dissimuler le plagiat, et que c’est probablement la source des phrases torturées.

L’enquête a également révélé que 49 articles signalés comme suspects par Cabanac et ses collègues et publiés dans des numéros standard de la revue ont été initialement envoyés à leurs numéros spéciaux et ont été acceptés par les éditeurs invités, « mais ont ensuite été publiés dans des numéros réguliers, par le auteurs. « application », indique le communiqué. Ces documents font déjà partie des recherches d’Elsevier, ajoute-t-il.

Elisabeth Bik, une analyste de l’intégrité de la recherche en Californie connue pour sa capacité à détecter les images en double dans les documents, déclare que les résultats de la recherche de Cabanac sont « choquants ». « Il s’agit d’un type de papier manufacturé très nouveau et inquiétant », ajoute-t-il.

READ Les troubles brisent la couche de coexistence dans les villages mixtes d'Israël

Jennifer Byrne, chercheuse en oncologie moléculaire à l’Université de Sydney, en Australie, qui travaille également sur la détection d’articles fabriqués, affirme qu’il s’agit probablement de la pointe de l’iceberg, car les chercheurs n’ont plongé en profondeur que dans le journal d’un éditeur. “Ces articles ont également été trouvés parce qu’ils étaient de très mauvaise qualité, mais il pourrait y avoir des articles générés par l’IA plus plausibles dans la littérature qui sont plus difficiles à détecter”, ajoute-t-il.