打假神器来了?AI图像查重4小时筛查3500篇论文
7月23日,据“DeepTech深科技”微信公号报道,北京大学常务副校长詹启敏在Pubpeer网站上被指涉嫌25篇论文存在实验图像重复、实验方法存在错误等问题。
7月24日,署名詹启敏的作者在“潇敏ScienceArt”公号上回应称,已与论文合作者仔细核实相关文章表述和实验结果,认真开展讨论,目前并未发现数据造假和学术不端情况。
“实验图像重复”是论文被质疑的常见问题之一。此前,已有数起论文打假瞄准了生物医学领域,其中的一个关键靶点就是“实验图像重复”。
近日,Nature报道了美国计算机学者研发的一款图像查重软件,似乎为快速解决这一问题带来了希望。该软件在4小时内筛查了3500篇论文,并最终发现了400个可能重复的图像。
不过,有学者认为,这款软件的缺点也很明显,因为图像重复不一定是错误。而且,软件甚至会将相似的图像标记为重复。
知名学术打假人Elisabeth Bik评价称,该软件“仍需要人工监督,以确保它不会出现标记错误”。
新冠论文大筛查:4小时、3500篇论文、2.1万张图像
今年6月,雪城大学计算机学者丹尼尔·阿库纳(Daniel Acuna)利用开发的图像查重软件,提取和比较了预印本网站bioRxiv和medRxiv上的3500篇论文,共2.1万张图像。
Daniel Acuna (图源:Syracuse University)
这一软件可批量筛查论文,找出重复图像,即使经过旋转、裁剪的图片也难逃它的法眼。Acuna的公司Resis使用这一软件为期刊和研究机构提供服务,但目前还未公开使用。
他说,在4个小时内,该软件就发现了约400个可能存在重复的图像。不过,Acuna认为大多数都没有问题。
他选择了24篇包含“有趣”重复图片的论文,同时公布在他自己创建的网站和PubPeer上。
这引起了不小的轰动。论文作者们也反应不一。一些作者选择了承认错误并立即改正;一些论文的作者则回答说,有些错误在经同行评议的论文版本中已经改正。
芬兰赫尔辛基大学病毒学家Giuseppe Ballistreri对Acuna所做的工作表示感谢。他写道:“如果这个软件的运行结果是准确的,我认为应默认在PubMed中实施。”
帮助出版商筛查造假
目前,期刊审稿大多依赖于作者提交的手稿图像,进行手动筛查。《欧洲分子生物学学会杂志》主编Bernd Pulverer介绍说,整个过程很耗时,早就应该进行自动筛查以简化过程。
Acuna表示,如果期刊编辑采用类似软件,他们也许能更轻松地完成审查工作。
荷兰出版业巨头爱思唯尔科研诚信负责人IJsbrand Jan Aalbersberg说,为发现图像重复使用问题,出版商需要创建一个包含所有已出版图像的共享数据库,以便进行比较。
2015年,Acuna及合作者就从当时发表在PubMed生物医学文献数据库开放存取的76万篇文章中提取了260万张图像。他们从中抽取约3750张标记图像进行手动筛查,并根据结果预测,该数据库中1.5%的论文包含可疑图像,而0.6%的论文存在图像造假。
需要人工调整结果
不过,也有人表示,重复不一定是错误。Bik认为,该软件“需要人工监督。”
Acuna同意她的观点。他说,该软件尚无法根据上下文判断重复图片是否存在问题,需要人为审查。
“但这仍然是有用的,尽管Bik擅长在论文中查找重复的图像,但计算机可以通过比较数十万、数百万篇论文,来找到两篇论文中的重复之处,这对人类来说是不可能完成的任务。”Acuna说。
一些研究人员则反映,Acuna的软件将相似的图像也标记为重复。同时,软件无法兼容广为流行的PDF文件格式,也是一个问题。
后来,Acuna从他的网站中删除了约1/3的重复文章分析,并将其加密。作者只有从他那里获得访问密钥,才能看到相关结果。
来自德国海德堡的图像完整性分析师Jana Christopher说,从更广泛的意义上讲,重复图像查重软件过于专注查找重复项,从而忽视了图像的全貌。例如,两个被判定为重复的图像,其实只有很小的重复区域,在其他方面完全不同。Acuna认为,改进细微差别是机器学习进步的关键。
图像分析在持续,造假者要小心
即便该软件存在诸多问题,但Acuna表示,他将继续分析COVID-19预印本论文。目前已经分析了5500篇,这个数字还在持续上涨。
他还会将预印本中的图像与数据库PubMed中的研究论文进行比较,这可能还会引发其他图像的重复使用。
“我希望作者能意识到,有人正在做这样的事情。”他说。
参考资料:
1.https://www.nature.com/articles/d41586-020-02161-3
2.https://www.nature.com/articles/d41586-020-01363-z
3.https://www.nature.com/articles/d41586-018-02421-3
4.https://doi.org/10.1080/08989621.2020.1793675
5.https://ischool.syr.edu/people/directories/view/deacuna/
6. https://acuna.io/
7. https://www.thepaper.cn/newsDetail_forward_8416829
8. https://mp.weixin.qq.com/s/99t2qTQ7L_HguJpTb4mHdw
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。