斯坦福大學(xué)團隊提出AI生成文本檢測器DetectGPT，通過文本對數(shù)概率的曲率進行可解釋判斷

發(fā)布人：大數(shù)據(jù)文摘時間：2023-02-18 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自將門創(chuàng)投作者：seven_
隨著以ChatGPT等大型語言模型（large language models，LLMs）的爆火，學(xué)界和工業(yè)界目前已經(jīng)開始重視這些模型的安全性，由于ChatGPT強大的知識存儲和推理能力，其目前可以針對各種各樣的用戶輸入來產(chǎn)生非常流暢和完整的回答，甚至在一些專業(yè)領(lǐng)域以及公共討論話題中，它也可以從容應(yīng)對。例如，一些學(xué)生可能會使用LLMs來幫助他們完成書面作業(yè)，使老師無法準確的判斷學(xué)生的學(xué)習效果，這也的的確確是LLMs帶來的負面影響。

論文鏈接：

https://arxiv.org/abs/2301.11305

項目主頁： https://ericmitchell.ai/detectgpt/
近日，來自斯坦福大學(xué)的研究團隊發(fā)布了一個名為DetectGPT的檢測模型來判斷一個文本段落是否是由機器生成的。作者首先觀察了LLMs的運行機制，他們發(fā)現(xiàn)LLM生成的文本往往占據(jù)模型的對數(shù)概率函數(shù)的負曲率區(qū)域。根據(jù)這一現(xiàn)象，作者提出想法，能夠基于概率函數(shù)的曲率標準來對文本進行判定呢？
實驗結(jié)果表明，這種想法完全可行，DetectGPT不需要專門訓(xùn)練一個單獨的分類器，也不需要額外收集真實場景中或者機器生成的文本段落數(shù)據(jù)，它只需要對當前模型計算其對數(shù)概率并與另外一個通用的預(yù)訓(xùn)練語言模型（例如T5）的段落隨機擾動進行比較，即可得出結(jié)論。作者發(fā)現(xiàn)DetectGPT比現(xiàn)有的zero-shot文本檢測方法更具有鑒別能力。

引言

如果我們仔細推敲ChatGPT等LLMs生成出的文本回答，會發(fā)現(xiàn)它們的答案仍然有明顯的機器翻譯痕跡。但是這種生成技術(shù)確實在一些領(lǐng)域能夠以假亂真，甚至取代人工勞動，特別是在學(xué)生的論文寫作和記者的新聞寫作中，這都會帶來很大的風險，例如影響學(xué)生的學(xué)習積極性，也有可能會因為虛假新聞導(dǎo)致公眾獲得錯誤的信息。但是幸運的是，目前機器模型生成的文本與人類編寫出的文字相比仍然有不小的差距，這使得我們及時開發(fā)文本檢測方法和工具成為可能。

之前已經(jīng)有很多工作將機器生成的文本檢測任務(wù)看做是一個二分類問題[1]，具體來說，這些方法的目標是對一個候選文本段落的來源進行分類，其中這些文本來源是預(yù)定義的類別。但是這種方法有幾個明顯的缺點，例如它們會非常傾向于參與訓(xùn)練的那些文本來源，并且不具備增量學(xué)習功能，如果想要使模型能夠識別未知來源的文本，就需要對模型整體重新訓(xùn)練。因此考慮開發(fā)具有zero-shot功能的模型才更符合現(xiàn)實場景，即根據(jù)文本源模型本身來進行開發(fā)，不進行任何形式的微調(diào)或適應(yīng)，來檢測它自己生成的樣本。
zero-shot文本檢測任務(wù)最常見的方法就是對生成文本的平均token對數(shù)概率進行評估，并設(shè)置閾值進行判斷。本文作者針對此提出了一個簡單的假設(shè)：機器對自己生成的文本進行改動時往往會比原始樣本的對數(shù)概率低，而人類對自己所寫文本的改動會遠超過原本文本的對數(shù)概率。換句話說，與人類寫的文本不同，模型生成的文本往往位于對數(shù)概率函數(shù)具有負曲率的區(qū)域（例如，對數(shù)概率的局部最大值），如下圖所示。

作者基于這一假設(shè)設(shè)計了DetectGPT，為了測試一個段落是否來自一個源模型 θ，DetectGPT將與 θ 相關(guān)候選段落的對數(shù)概率與對 θ 進行隨機擾動生成的段落的平均對數(shù)概率（例如用T5參與擾動）進行比較。如果被擾動的段落的平均對數(shù)概率比原始段落低一些，那么候選段落很可能來自于 θ，這一過程的具體運行如下圖所示。

本文方法

對于機器生成的zero-shot文本檢測任務(wù)設(shè)置，即檢測一段文本或候選段落是否是源模型 θ 的樣本，在模型訓(xùn)練時無需加入外部數(shù)據(jù)，其呈現(xiàn)“白盒設(shè)置”的特點，模型中的檢測器可以評估當前樣本對 θ 的對數(shù)概率情況。此外“白盒設(shè)置”也不限制對模型架構(gòu)和參數(shù)規(guī)模的選擇，因此作者在對DetectGPT的性能評估中也選用了目前通用的預(yù)訓(xùn)練Masked模型，用來生成與當前段落比較接近的候選文本，但是這些段落的生成不會經(jīng)過任何形式的微調(diào)和域適應(yīng)。
2.1 模型擾動假設(shè)
上文提到，DetectGPT基于這樣一個假設(shè)：來自源模型 θ 的樣本通常位于 θ 的對數(shù)概率函數(shù)的負曲率區(qū)域。如果我們對一段話 θ 施加一個小的擾動，產(chǎn)生，那么與人類編寫的文本相比，機器生成的樣本的對數(shù)值 θθ 應(yīng)該是比較大的?；谶@一假設(shè)，作者首先考慮了一個擾動函數(shù) ，它會先在上給出一個分布，代表意義相近的略微修改過的的版本。使用擾動函數(shù)的概念，我們可以q輕松的定義出擾動差異指標 θ：

對上述假設(shè)更為正式的定義如下：如果在數(shù)據(jù)流形分布上產(chǎn)生樣本，對于樣本 θ 來說 θ 大概率為正，而對于人類編寫文本，θ 對所有都趨向于0。

如果此時將擾動函數(shù) 定義為來自T5等預(yù)訓(xùn)練模型生成的擾動樣本，而不是人類改寫的樣本，就可以以一種自動的、可擴展的方式對上述假設(shè)進行經(jīng)驗性測試。對于機器生成樣本，這里作者使用了四個不同的LLM進行輸出，例如使用T5-3B模型來產(chǎn)生擾動，對于給定樣本，按照2個字的跨度進行隨機擾動，直到文本中15%的字被覆蓋。隨后使用經(jīng)過T5處理的100個樣本按照假設(shè)進行近似計算，發(fā)現(xiàn)擾動差異的分布對于人類編寫文本和機器生成樣本是明顯不同的，機器樣本往往有較大的擾動差異。

上圖展示了來自GPT-2、GPT-Neo-2.7B、GPT-J和GPT-NeoX 四個模型與人類樣本擾動后的分布對比，其中藍色區(qū)域為人類編寫文本的分布，橙色為機器生成文本的分布。
2.2 將擾動差異解釋為曲率
通過上圖，只能看出擾動差異在鑒別文本是否來自人類還是機器方面是有效的，但是其衡量的理論指標還不夠清晰。因而作者進一步為擾動差異尋找到了理論依據(jù)，作者表明擾動差異近似于候選段落附近對數(shù)概率函數(shù)的局部曲率的度量，更具體地說，它與對數(shù)概率函數(shù)的Hessian 矩陣的負跡成正比。為了處理離散數(shù)據(jù)的不可微性，作者在這里僅考慮了在潛在語義空間中的候選段落，其中的小擾動對應(yīng)于保留與原始相似含義的文本編輯過程。因為本文選用的擾動函數(shù) (T5) 是經(jīng)過大量自然文本語料預(yù)訓(xùn)練的，所以這里的擾動可以被粗略地認為是對原始段落的有效修改，而不是隨意編輯。
作者首先利用Hutchinson提出的跡估計器[3]給出矩陣跡的無偏估計：

隨后使用有限差分來近似這個表達式：

聯(lián)立上述兩式子并使用進行簡化，就可以得到負Hessian矩陣的跡估計：

作者觀察到上式其實對應(yīng)于擾動差異

，其中擾動函數(shù) 可以使用 Hutchinson跡估計器中使用的分布代替。這里，是一個高維的token序列，而是一個嵌入語義空間中的向量。由于擾動文本模型生成的句子與相似，語義變化較小，因此可以將擾動文本模型視為與當前采樣相似的語義嵌入 ~ ，然后將其映射到token序列中。這樣做，可以保證語義空間中的采樣都保持在數(shù)據(jù)流形附近，當隨機擾動發(fā)生后，對數(shù)概率就會產(chǎn)生明顯下降，這樣就可以將擾動差異解釋為近似限制在數(shù)據(jù)流形上的曲率。

實驗效果

本文的實驗部分作者使用了六個數(shù)據(jù)集，涵蓋了各種日常領(lǐng)域，例如使用XSum數(shù)據(jù)集中的新聞文章來進行假新聞檢測實驗，使用SQuAD上下文中的維基百科段落來表示機器編寫的學(xué)術(shù)論文，以及使用Reddit WritingPrompts數(shù)據(jù)集來表示機器生成的創(chuàng)意寫作。此外，為了評估分布變化的穩(wěn)健性，作者還使用了WMT16的英語和德語部分以及人類專家在PubMedQA數(shù)據(jù)集中編寫的標準答案。
作者首先對DetectGPT的zero-shot文本檢測能力進行評估，實驗結(jié)果如下表所示，可以看出，DetectGPT在所有15種數(shù)據(jù)集和模型組合中的14種實驗組合上都得到了最準確的檢測性能。尤其是DetectGPT最大程度地提高了XSum數(shù)據(jù)集的平均檢測精度（0.1 AUROC 改進），在SQuAD維基百科上下文數(shù)據(jù)集上也有明顯的性能提升（0.05 AUROC 改進）。

此外，作者還選取了一部分監(jiān)督學(xué)習訓(xùn)練的檢測器進行對比。作者著重探索了幾個領(lǐng)域，或者說幾種語境，對比結(jié)果如下圖所示。例如在英語新聞數(shù)據(jù)上，監(jiān)督檢測器可以達到與 DetectGPT 接近的檢測性能，但在英語科學(xué)寫作數(shù)據(jù)下，其性能明顯低于本文方法。而在德語寫作中監(jiān)督學(xué)習方法會完全失敗。相比之下，以DetectGPT為代表的零樣本方法更容易泛化到新的語言和領(lǐng)域中。

總結(jié)

隨著LLMs的不斷發(fā)展和改進，我們應(yīng)該一方面對它們在越來越多的領(lǐng)域中減輕人類工作者的創(chuàng)作壓力感到高興，另一方面也更應(yīng)該同步發(fā)展針對它們的安全檢測技術(shù)，這對于這一領(lǐng)域未來的健康發(fā)展至關(guān)重要。本文從這些大模型本身的運行機制出發(fā)設(shè)計了DetectGPT方法，DetectGPT通過一個簡單的數(shù)據(jù)分布特點即可判斷出文本的來源，此外作者還對本文方法進行了詳盡的理論推導(dǎo)，這使得DetectGPT具有更高的可信度和可解釋性。
此外DetectGPT的zero-shot特性使它相比那些使用數(shù)百萬數(shù)據(jù)樣本定制訓(xùn)練的檢測模型更具有競爭力。此外作者在文章的最后還談到了DetectGPT的未來計劃，他們會進一步探索對數(shù)概率曲率屬性是否在其他領(lǐng)域（音頻、視頻或圖像）的生成模型中也能起到很好的檢測作用，這一方向也具有非常重要的現(xiàn)實意義，讓我們一起期待吧。
參考文獻

[1] Jawahar, G., Abdul-Mageed, M., and Lakshmanan, L. V. S. Automatic detection of machine generated text: A critical survey. In International Conference on Computational Linguistics, 2020.

[2] Narayan, S., Cohen, S. B., and Lapata, M. Don’t give me the details, just the summary! Topic-aware convolutional neural networks for extreme summarization. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, Belgium, 2018.

[3] Hutchinson, M. A stochastic estimator of the trace of the influence matrix for laplacian smoothing splines. Communications in Statistics - Simulation and Computation, 19(2):433–450, 1990. doi: 10.1080/ 03610919008812866. URL https://doi.org/10. 1080/03610919008812866.

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

国产亚洲精品AA片在线观看,丰满熟妇HD,亚洲成色www成人网站妖精,丁香五月天婷婷五月天男人天堂

博客專欄

斯坦福大學(xué)團隊提出AI生成文本檢測器DetectGPT，通過文本對數(shù)概率的曲率進行可解釋判斷

相關(guān)推薦

技術(shù)專區(qū)

国产亚洲精品AA片在线观看,丰满熟妇HD,亚洲成色www成人网站妖精,丁香五月天婷婷五月天男人天堂

博客專欄

斯坦福大學(xué)團隊提出AI生成文本檢測器DetectGPT，通過文本對數(shù)概率的曲率進行可解釋判斷

相關(guān)推薦

技術(shù)專區(qū)

斯坦福大學(xué)團隊提出AI生成文本檢測器DetectGPT，通過文本對數(shù)概率的曲率進行可解釋判斷