花式造假的论文利用改写软件或AI来写论文,很多还被发表了。
2020年,估量近600万篇颠末同业评审的学术论文颁发,比2019年增长了10%。但在这数百万篇论文中,有成千上万篇可能是造假文章。很多研讨者受到“publish-or-perish(不颁发就消亡)”的影响,纵然是糟糕的研讨,也想将其颁发出来。
截图起源:Dimensions(https://app.dimensions.ai/)

比来,学术欺诈又呈现了新招数,有的研讨者应用软件以及新兴的人工智能技术来撰写文章,能逃过查重软件的检测。欺诈者为躲过查重软件,会使用无意义的扭曲短语(tortured phrases)来取代尺度术语。
什么是扭曲短语。
扭曲短语便是将已存在的科学术语改写成一串无意义的词语。例如,公众Artificial intelligence(人工智能)公众改成"大众counterfeit consciousness(仿造意识)"大众;公众Mean square error(均方偏差)公众改成"大众mean square blunder公众;"大众Breast cancer "大众改成"大众Bosom peril"大众…
截至2022年1月,一个名为“问题论文筛选器”的软件在3191篇已颁发的同业评审论文中发现了这种扭曲短语,此中也有颁发在顶级期刊上的论文。这些论文的作者,多半来自印度(71.2%),其次是中国(6.3%)。
在一个颁发此类论文较多的期刊中,从提交文章到论文颁发的光阴,2020岁首年月均匀为148天,2021岁首年月已降落到仅必要42天。
有问题文章的数目变化趋向
链接:
https://dbrech.irit.fr/pls/apex/f?p=9999:24::IR_years
还有研讨者从其他论文中复制择要,对词语进行批量改动,末了就形成了没有任何意义的新文章。
研讨职员预测扭曲短语的起源,可能是作者使用了主动改写软件,这种对象在网上很容易找到。
研讨职员还发现,这些已颁发的问题论文彷佛有一部门内容是用人工智能技术天生的。与改写软件分歧,这些人工智能体系是凭空撰写文本。
人工智能体系撰写的内容更难进行检测。例如,给定一个开首,像GPT-2如许的人工智能模子就可以对这个句子进行扩大,乃至天生整个段落,有些论文看起来便是由如许的体系发生的。研讨职员用GPT-2检测器筛选了学术出书商爱思唯尔在2021年出书的约14万篇论文的择要,成果发现,数百篇疑似为合成文本的可疑论文颁发在几十个有名期刊上。
这些造假是若何被发现的。
客岁春天,研讨职员在审查各类论文的可疑非常时发现,有文章引用虚伪的研讨证据或对打劫性期刊的文章进行引用。据说过“profound neural organization(深层神经组织)”这个词吗。有些人可能会以为这是对“deep neural network(深度神经收集)”的误写。
研讨职员在数据库中检索了这个短语,发现了还有其他一些文章也使用了同样的奇异短语。研讨职员接着发现了越来越多的文章呈现了相似的扭曲短语,截至2022年1月,已经发现473个如许的奇异短语。
为了追踪含有扭曲短语的论文,有研讨职员开发了一个“问题论文筛选器”的软件。该软件可以主动检索扭曲短语。
问题论文筛选器
链接:
https://dbrech.irit.fr/pls/apex/f?p=9999:1::::::
这些论文会造成什么影响。
编纂和审稿人确定会对这些扭曲短语进行审查,但仍有一部门论文躲过了审查,终极胜利颁发了。这意味着,其他研讨者在检索时必要自行鉴别这些有问题的论文。还有一个问题是,跨学科研讨可能会被影响,好比一位公共卫生专家可能会与一位在欺诈性论文中颁发了关于诊断对象的计算机科学家追求互助。
跟着更多人工智能对象的呈现,这些有问题的文章也可能会危及将来基于人工智能的研讨。例如,在2019年,出书商Springer Nature应用人工智能阐发了1086篇文章,并天生了一本关于锂离子电池的手册。人工智能敌手册中涉及的文章进行了扼要先容,然则假如这类项目标源文章纳入了无意义的、存在扭曲短语的的论文,成果会若何呢。
比来,扭曲短语也呈现在了COVID-19相关文献中。然则,学术界在办理论文造假问题上可以采取的步伐并不多。勉励同业评审时代和论文颁发落后行更严厉的反省,大概能缓解这一问题。例如,在PubPeer.com上对颁发后论文进行同业评审。
参考文章:
https://thebulletin.org/2022/01/bosom-peril-is-not-breast-cancer-how-weird-computer-generated-phrases-help-researchers-find-scientific-publishing-fraud/