文章目录[隐藏]
如果写过学术论文,想必会有这样的感受:绞尽脑汁、茶饭不思、夜不能寐,然而即使是这样,手中的论文却几乎没有一点进展。
可是,却有人4个月产出了16篇论文,已发表5篇。这位“高产”作者是美国田纳西大学健康科学中心的一名放射科医生,名为SomBiswas。从今年1月到5月,4个月时间里,Biswas已经用ChatGPT编写了至少16篇论文,并在4个不同的期刊上发表了其中5篇。Biswas并不是唯一一个利用ChatGPT实现论文高效率写作的人。
Nature一篇报道中,两位科学家借助人工智能工具ChatGPT,在不到一个小时的时间内撰写了一篇研究论文。这篇文章流畅、富有洞察力,并按照科学论文的预期结构呈现。
ChatGPT是一种基于深度学习的大语言模型,它正在以惊人的自然语言处理能力,引起广泛关注。自问世以来,就不断有学者尝试将其应用到学术领域。学术界对ChatGPT的态度刚开始是恐慌和排斥的,但随着对ChatGPT的了解更加深入,现在的态度已有所松动。今年3月,牛津、剑桥、布里斯托、爱丁堡等8所罗素大学成员宣布禁止使用ChatGPT。
但7月4日,牛津、剑桥、布里斯托、爱丁堡等24所罗素大学成员集体松口,宣布解除ChatGPT使用禁令,并推出了详细的使用原则,以帮助学生和研究人员更好地使用生成式AI,抓住生成式AI带来的全新教育和发展机遇。
同样地,今年1月,Science系列期刊曾在编辑政策中明确规定,论文中不得包含任何AI工具生成的文本、数字和图像,AI也不能被列为作者,违反相关政策的行为等同于篡改图像和剽窃等学术不端。
而在11月16日,Science系列期刊发布新的编辑政策:Change to policy on the use of generative AI and large language models,此次,Science及其子刊放宽了ChatGPT等AI工具的使用限制。最新政策指出:对于论文中的图像和文本,只要在“方法”部分按要求对AI辅助技术(如大型语言模型、聊天机器人和图像生成工具)的使用进行披露,在研究中使用这些工具是可以接受的。
该政策指出,如果作者将AI辅助技术作为研究的组成部分,或是在写论文时用作辅助工具,则应当在coverletter和论文的致谢部分注明,并在论文的“方法”部分标明使用的AI工具及版本,以及完整的提示词。随着大语言模型在学术界的应用日益广泛,越来越多机构也更新了AI相关政策,国际医学期刊编辑委员会(ICMJE)、世界医学编辑协会(WAME)、科学编辑理事会(CSE)等均已发布用AI生成文本和图像的相关指南。
据Nature报道,8月1日,荷兰出版巨头Elsevier为其Scopus数据库的部分用户发布了一个基于ChatGPT的AI界面。当天,英国公司Digital Science也宣布为其Dimensions数据库的AI大语言模型(LLM)进行封闭试验。与此同时,美国科睿唯安(Clarivate)公司表示,它也在努力将LLM纳入其Web of Science数据库。
客观来说,ChatGPT在众多领域中,已为科研工作者提供了非常便捷的帮助,减轻了许多繁杂的工作。比如,论文写作、论文润色、论文改写。
学术造假有了GPT-4,变得更容易了
然而,ChatGPT的使用也存在一些问题,例如可信度、抄袭和侵犯版权等。不少使用者都发现ChatGPT存在虚构内容、参考文献的行为。
一项研究审查了ChatGPT生成的放射学文章(与已发表或正在同行评审中的文章进行对比),经过两名放射科医生独立分析,发现5篇文章中有4篇内容明显不准确,且引用了虚构的文献;另一篇论文质量较好,介绍和讨论部分完成度都非常高,然而所有的参考文献都是虚构的。该研究作者在文中警告称,这些虚构的内容「对没有经验的读者来说可能看起来是真实的」。
也许你现在已经对ChatGPT“睁着眼睛说瞎话”的行为见怪不怪了,但你可能想不到,如今GPT-4的造假能力已经修炼到了“炉火纯青”的境界。这两天,一篇刊登在Nature上的新闻表示,GPT-4生成的造假数据集,第一眼还真不一定看得出来。除非请来业内专家仔细对数据集进行评估,才能发现个中细节的不合理性。
这个新闻的来源是一篇发表在JAMA Ophthalmology上的论文。论文使用GPT-4为一项医学学术研究生成了一个假数据集,发现它不仅能创造出看似合理的数据,甚至还能用来准确支撑错误的论文观点。
据悉,JAMA Ophthalmology自1869年以来连续出版,至今已有百余年历史,是同行评审的国际眼科和视觉科学期刊。Nature介绍,这次论文造假已不是抄袭这么简单,而是研究人员使用GPT-4的高级数据分析功能(Advanced Data Analysis,ADA)生成了一个假数据集,准确支撑了错误的论文观点,形成了误导结果。
据报道,研究人员先是向GPT-4输入了一系列数据生成要求,然后提供了一系列的提示词,要求它创建一个关于圆锥角膜(keratoconus)眼部疾病患者的数据集,以支持深板层角膜移植术(DALK)比穿透性角膜移植术(PK)效果更好的结论。最终,GPT-4成功生成了包含160名男性和140名女性患者的数据集,并做出了一组支撑DALK比PK效果更好的数据。
为了验证GPT-4做出来的数据是否真的令人信服,Nature特意请来了英国曼彻斯特大学生物统计学家Jack Wilkinson等人来检查数据可信度。结果让人咋舌,数据集中许多“参与者”的性别与通常从名字中预期的性别不匹配(比如“Mary”是男性)。此外,术前术后视力测量与眼部影像学测试之间的数据没有发现相关性。
他们认为该数据集存在缺陷。研究作者随后承认了该调查结果,并表示“如果只是快速地察看这个数据集,很难识别出他不是人做的。”《EMBO报告》的主编Bernd Pulverer认为这是一个令人担忧的问题。他说:“事实上,同行评审往往没有进行完整的数据重新分析,也不太可能发现使用人工智能精心设计的完整性漏洞。”他补充道,“期刊将需要更新质量检查的方法,以识别人工智能生成的合成数据。”Wilkinson正在领导一个合作项目,设计统计和非统计工具来评估潜在的问题研究。
他说:“就像人工智能可能是问题的一部分一样,其中一些可能有基于人工智能的解决方案。我们可能能够自动化其中一些检查。”但他警告说,生成人工智能的进步可能很快会提供绕过这些协议的方法。
Pulverer对此表示赞同:“一旦知道筛查的目的,人工智能就可以很容易地将这些东西武器化。”这一研究的目的是希望提高人们对科研诚信问题的关注。研究人员表示,人工智能捏造看似合理的科学数据的能力增加了学术界对科研诚信的担忧。
结语
在AI辅助工具逐步走向学术领域的过程中,学术界的态度发生了深刻的变化。从最初的担忧到现在的积极尝试,AI辅助工具正在改变学术写作的方式。
事实上,运用AI辅助论文写作成为了相当普遍的现象。但目前为止,很大一部分科学家还是对其可信性表示担忧。这次事件不仅是一个学术界的警钟,更是对人工智能在科学研究中潜在风险的一次揭示。科技进步不可阻挡,但我们可以在前行的路上保持警惕。GPT-4的“炉火纯青”虽然展示了人工智能的强大潜力,却也揭示了一个全新的学术挑战。
这不仅仅是一场学术论文的风波,更是一个思考科学未来的契机。未来,我们需要加强对人工智能技术的监管,确保其在科研领域的合理应用,防止滥用和误导。
同时,学术界和研究机构也需要提高警惕,加强对科研数据真实性的审查,维护科研诚信。但在技术进步的同时也需要我们对伦理的审慎考虑。我们不能因为追求速度而放弃了真实性和可信度。