一位論文作者火了,ChatGPT等大型語言模型何時(shí)能成為論文合著者?
有沒有一種可能,ChatGPT 在學(xué)術(shù)論文中署名是理所應(yīng)當(dāng)?shù)模?/p>
ChatGPT 自發(fā)布以來一直受到關(guān)注,被認(rèn)為是當(dāng)前最強(qiáng)大的語言模型之一。它的文本生成能力已經(jīng)不輸人類,甚至有機(jī)器學(xué)習(xí)頂會(huì)為此明令禁止研究者使用 ChatGPT 編寫論文。
但是近期有一篇論文居然在作者一欄明確署名 ChatGPT,這是怎么回事?
這篇論文是發(fā)表在醫(yī)學(xué)研究論文平臺(tái) medRxiv 上的《Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education Using Large Language Models》,ChatGPT 是論文的第三作者。
論文地址:https://www.medrxiv.org/content/10.1101/2022.12.19.22283643v2
從論文題目就能看出,這篇論文的主要內(nèi)容是研究 ChatGPT 在美國醫(yī)師執(zhí)照考試 (USMLE) 中的表現(xiàn)。實(shí)驗(yàn)結(jié)果表明,在沒有經(jīng)過任何專門的訓(xùn)練或強(qiáng)化的情況下,ChatGPT 在所有考試中的成績均達(dá)到或者接近通過門檻。并且,ChatGPT 生成的答案表現(xiàn)出高度的一致性和洞察力。該研究認(rèn)為大型語言模型可能有助于醫(yī)學(xué)教育,并可能有助于臨床決策。
從研究的內(nèi)容看,ChatGPT 似乎更像是一個(gè)研究對(duì)象,就像推特網(wǎng)友說的:「如果人類研究者為實(shí)驗(yàn)結(jié)果做出貢獻(xiàn),那他們當(dāng)然是論文合著者,但是模型和算法還沒有這種先例。」
不過,評(píng)論區(qū)馬上就有另一位網(wǎng)友反駁他:之前一篇名為《Rapamycin in the context of Pascal's Wager: generative pre-trained transformer perspective》的論文不僅署名了,ChatGPT 甚至還是第一作者。
這篇論文收錄在美國國立衛(wèi)生研究院(NIH)的 Oncoscience 中。不過,從論文作者貢獻(xiàn)中,我們發(fā)現(xiàn),這篇論文的大部分內(nèi)容確實(shí)是由 ChatGPT 生成的 —— 論文第二作者 Alex Zhavoronkov 詢問 ChatGPT 與研究主題有關(guān)的問題,ChatGPT 自動(dòng)生成大量觀點(diǎn)及解釋,然后由 Alex Zhavoronkov 來審核 ChatGPT 生成的內(nèi)容。此外,ChatGPT 還協(xié)助修改論文格式。
《Rapamycin in the context of Pascal's Wager: generative pre-trained transformer perspective》論文內(nèi)容截圖。
在決定論文署名時(shí),Alex Zhavoronkov 聯(lián)系 OpenAI 聯(lián)合創(chuàng)始人兼 CEO Sam Altman 進(jìn)行了確認(rèn),最終以 ChatGPT 作為第一作者來發(fā)表這篇論文。這說明大型語言模型等強(qiáng)大的 AI 系統(tǒng)未來將對(duì)學(xué)術(shù)工作做出有意義的貢獻(xiàn),甚至有能力成為論文合著者。
然而,讓大型語言模型編寫學(xué)術(shù)論文也存在一些弊端,比如機(jī)器學(xué)習(xí)頂會(huì) ICML 表示:「ChatGPT 接受公共數(shù)據(jù)的訓(xùn)練,這些數(shù)據(jù)通常是在未經(jīng)同意的情況下收集的,這會(huì)帶來一系列的責(zé)任歸屬問題?!?/span>
近期在西北大學(xué) Catherine Gao 等人的一項(xiàng)研究中,研究者選取一些發(fā)表在美國醫(yī)學(xué)會(huì)雜志(JAMA)、新英格蘭醫(yī)學(xué)雜志(NEJM)、英國醫(yī)學(xué)期刊(BMJ)、《柳葉刀》和《Nature Medicine》上的人工研究論文,使用 ChatGPT 為論文生成摘要,然后測(cè)試審稿人是否可以發(fā)現(xiàn)這些摘要是 AI 生成的。
實(shí)驗(yàn)結(jié)果表明,審稿人僅正確識(shí)別了 68% 的生成摘要和 86% 的原始摘要。他們錯(cuò)誤地將 32% 的生成摘要識(shí)別為原始摘要,將 14% 的原始摘要識(shí)別為 AI 生成的。審稿人表示:「要區(qū)分兩者出奇地困難,生成的摘要比較模糊,給人一種公式化的感覺?!?/span>
這一實(shí)驗(yàn)結(jié)果說明人類研究員已經(jīng)難以分辨文本是 AI 生成還是人類撰寫的,這并不是一個(gè)好現(xiàn)象,AI 似乎「蒙騙過關(guān)」了。
然而,到目前為止,語言模型生成的內(nèi)容還不能完全保證其正確性,甚至在一些專業(yè)領(lǐng)域的錯(cuò)誤率是很高的。如果無法區(qū)分人工編寫內(nèi)容和 AI 模型生成內(nèi)容,那么人類將面臨被 AI 誤導(dǎo)的嚴(yán)重問題。
參考鏈接:
https://twitter.com/rasbt/status/1613652370113855488
https://pubmed.ncbi.nlm.nih.gov/36589923/
https://www.biorxiv.org/content/10.1101/2022.12.23.521610v1
https://www.nature.com/articles/d41586-023-00056-7
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。