百模大戰(zhàn)，誰是大模型的裁判員？

發(fā)布人：AI科技大本營時間：2023-08-03 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

定義了樹-鄰接語法（TAG）的阿拉文德·喬西（Aravind Joshi）教授，曾提出過“如果沒有基準(zhǔn)來評估模型，就像不造望遠(yuǎn)鏡的天文學(xué)家想看星星?！?/strong>

截至目前，國內(nèi)外已有數(shù)百種大模型出世，但無論何種大模型，在亮相階段，無一例外地都在強(qiáng)調(diào)自身的參數(shù)量，以及在各個評測基準(zhǔn)上的評分。

比如，前不久Meta剛宣布開源并支持商用的Llama2，就明確使用MMLU、TriviaQA、Natural Questions、GSM8K、HumanEval、BoolQ、HellaSwag、OpenBookQA、QuAC、Winogrande等多類數(shù)據(jù)集進(jìn)行評測。OpenAI則在GPT-4的報(bào)告GPT-4 Technical Report中，詳細(xì)展示了在各類型考試中的成績，以及在MMLU、HellaSwag、ARC、WinoGrande、HumanEval、DROP等學(xué)術(shù)基準(zhǔn)中的表現(xiàn)。

GPT-4 各類基準(zhǔn)測試對比（來源：GPT-4 Technical Report）

因?yàn)楦鱾€模型的基座、技術(shù)路徑都不盡相同，所以參數(shù)量和評測基準(zhǔn)的評分這兩類指標(biāo)相對直觀，這也使得模型評測基準(zhǔn)已經(jīng)成為了業(yè)內(nèi)衡量模型各方面性能的工具。

大模型評測基準(zhǔn)演進(jìn)之路

在規(guī)范化的模型評測基準(zhǔn)出現(xiàn)以前，模型多數(shù)使用SQuAD、Natural Questions這類問答數(shù)據(jù)集來檢驗(yàn)?zāi)Ｐ托Ч?，之后衍生出了多任?wù)、系列任務(wù)的評測基準(zhǔn)，來進(jìn)行更復(fù)雜、全面的評測。

自GLUE作為最早明確、規(guī)范的大語言模型評測基準(zhǔn)發(fā)布以來，在大語言模型評測基準(zhǔn)的議題上，主要分為幾條評測路徑：

一是以GLUE為代表，通過評估模型在自然語言推斷、文本蘊(yùn)含、情感分析、語義相似等NLU（自然語言理解）靜態(tài)任務(wù)上的表現(xiàn)。

二是以MMLU、AGIEval為代表，通過收集真實(shí)世界中的書籍、考試等資料，形成選擇題、問答題等任務(wù)。例如MMLU向大模型提出多選問答任務(wù)，涵蓋57個領(lǐng)域知識，包括STEM、人文社科等學(xué)科，目的是考察大模型在多樣性、高級知識任務(wù)上的推理能力的表現(xiàn)。

三是以HELM為代表，這類基準(zhǔn)著重場景劃分，評測各種場景下的模型表現(xiàn)。例如HELM提出了16個場景，并結(jié)合7個指標(biāo)進(jìn)行細(xì)粒度測量，進(jìn)一步加強(qiáng)了大語言模型的透明度。除了評測基準(zhǔn)，近年還涌現(xiàn)了多個垂直知識領(lǐng)域的評測基準(zhǔn)。

除此以外，還有進(jìn)一步細(xì)分的文本任務(wù)、多語言評測基準(zhǔn)、安全評測基準(zhǔn)等評測路徑。也有為了直觀地展現(xiàn)模型效果，讓人類參與評測，出現(xiàn)了Chatbot Arena這類基于Elo評分系統(tǒng)的工具，在國內(nèi)也有SuperClue瑯琊榜提供類似服務(wù)。

近期由吉林大學(xué)、微軟研究院、中國科學(xué)院自動化所等機(jī)構(gòu)發(fā)布的論文 A Survey on Evaluation of Large Language Models（https://arxiv.org/abs/2307.03109）中，羅列了全球主要的大模型評測基準(zhǔn)。

來源：A Survey on Evaluation of Large Language Models

中文世界同樣需要適應(yīng)中文語言類型的基準(zhǔn)大模型，所以近期在國內(nèi)也陸續(xù)涌現(xiàn)了多個中文大模型評測基準(zhǔn)，這些模型基準(zhǔn)基本對標(biāo)傳統(tǒng)模型基準(zhǔn)技術(shù)路徑，進(jìn)行了針對中文大模型評測基準(zhǔn)的改進(jìn)和優(yōu)化。

不少中文大模型已經(jīng)經(jīng)歷了多個版本的迭代，衍生出完整的測評矩陣，有些計(jì)劃上線更豐富的產(chǎn)品，形成一站式測評平臺。

CSDN收錄中文大模型基準(zhǔn)產(chǎn)品（部分）

項(xiàng)目名稱	團(tuán)隊(duì)	特點(diǎn)
C-Eval	上海交通大學(xué) 清華大學(xué) 愛丁堡大學(xué)等	覆蓋人文，社科，理工，其他專業(yè)四個大方向，52 個學(xué)科共 13948 道題目的中文知識和推理型測試集
CMMLU	MBZUAI 上海交通大學(xué) 微軟亞洲研究院等	涵蓋了從基礎(chǔ)學(xué)科到高級專業(yè)水平的67個學(xué)科，每個學(xué)科至少有105個問題，11528個問題
CLUE	CLUE團(tuán)隊(duì)	提供多種類型的評測基準(zhǔn)模型、數(shù)據(jù)集、排行榜、Elo評分工具等
FlagEval	智源	20+ 個主客觀評測數(shù)據(jù)集，涵蓋了公開數(shù)據(jù)集 HellaSwag、MMLU、C-Eval ，智源自建的主觀評測數(shù)據(jù)集CCLC
OpenCompass	OpenMMlab	大模型評測一站式平臺，提供 50+ 個數(shù)據(jù)集約 30 萬題的的模型評測方案
KoLA	清華大學(xué)團(tuán)隊(duì)	基于維基百科和近90天的新聞與小說作為數(shù)據(jù)集，從知識記憶、知識理解、知識應(yīng)用、知識創(chuàng)建四個維度，設(shè)計(jì)共119個任務(wù)
PandaLM	西湖大學(xué) 北京大學(xué)等	PandaLM的自動化打分模型基于三位專業(yè)標(biāo)注員對不同大模型的輸出進(jìn)行獨(dú)立打分，并構(gòu)建了包含 50 個領(lǐng)域、1000 個樣本的多樣化測試集
GAOKAO	OpenLMLab	收集了2010-2022年全國高考考題，其中包括1781道客觀題和1030道主觀題，評測分為兩部分，自動化評測的客觀題部分和依賴于專家打分的主觀題部分，構(gòu)成了最終評分
Xiezhi獬豸	復(fù)旦大學(xué) 肖仰華教授團(tuán)隊(duì)	由 249587 道多項(xiàng)選擇題組成，涵蓋 516 個不同學(xué)科和四個難度級別

國內(nèi)大模型梳理與評測基準(zhǔn)完整列表（持續(xù)更新）

模型基準(zhǔn)的評分能否全面、客觀地展現(xiàn)模型能力，排行榜是否證明了模型之間的優(yōu)劣？

CSDN了解到大部分大模型團(tuán)隊(duì)對于評測基準(zhǔn)較為重視，有受訪者向CSDN表示評測基準(zhǔn)給模型的調(diào)整方向提供了參考，團(tuán)隊(duì)可以通過模型在評測基準(zhǔn)中的表現(xiàn)，對模型進(jìn)行優(yōu)化，同時能夠了解自身與其他模型之間的差距和差異，具有一定的借鑒意義。

也有尚未進(jìn)行基準(zhǔn)評測的大模型團(tuán)隊(duì)，其中有受訪團(tuán)隊(duì)提到，目前中文大模型評測基準(zhǔn)多是MMLU路徑，側(cè)重于考驗(yàn)?zāi)Ｐ偷闹R能力，但對于想要衡量模型性能，還存在一定的局限性。同時這類基于考試、學(xué)術(shù)知識的數(shù)據(jù)集相對透明，易于獲得，也會影響評分、排行榜排名的客觀性。

所以，雖然模型評測基準(zhǔn)是目前衡量模型性能的有效工具，但它們能否成為中文大模型競賽中公正的裁判員，需要基準(zhǔn)本身也需要向全面、客觀、精準(zhǔn)方向繼續(xù)努力。根據(jù)當(dāng)下火熱的模型創(chuàng)業(yè)趨勢，我們可以樂觀地預(yù)見無論是中文大模型，還是中文大模型評測基準(zhǔn)，都將在未來維持不斷追趕的進(jìn)步趨勢與創(chuàng)新動力。

百模格局已現(xiàn)，后續(xù)如何發(fā)力？

大模型步履不停，但方向是否走對了呢？
根據(jù)CSDN的最新統(tǒng)計(jì)，國內(nèi)已經(jīng)涌現(xiàn)出的各類通用大模型過百家。群雄逐鹿中，通用大模型繼續(xù)堆資源，重點(diǎn)聚焦在參數(shù)量和推理能力的提升上，各個模型團(tuán)隊(duì)也在發(fā)力探索適合的技術(shù)演進(jìn)路徑。
大模型技術(shù)與應(yīng)用思考導(dǎo)圖（v20230428）
王詠剛 SeedV實(shí)驗(yàn)室創(chuàng)始人/CEO

智譜AI研發(fā)的ChatGLM、王小川領(lǐng)銜所做的Baichuan前后宣布開源大模型，并免費(fèi)商用，期待鏈接更多場景挖掘價(jià)值，快速搭建生態(tài)。行業(yè)模型則在盡可能探索商業(yè)化場景，百姓AI創(chuàng)始人王建碩在播客節(jié)目中表示，他們經(jīng)過調(diào)研后明確了會務(wù)服務(wù)的測試場景。
賈揚(yáng)清曾在播客節(jié)目中提及模型的保鮮期（shelf life）概念，他認(rèn)為從2012年AlexNet發(fā)布至今，在每個性能強(qiáng)勁的大模型發(fā)布后，只要六個月到一年左右時間，就會出現(xiàn)效果接近的模型。隨著更多優(yōu)質(zhì)的通用大模型逐漸開源，模型間的技術(shù)壁壘有望進(jìn)一步消除。
也有行業(yè)專家認(rèn)為，雖然近期大模型的熱情極為高漲，但大模型及其應(yīng)用的發(fā)展，取決于企業(yè)對模型部署成本與實(shí)際產(chǎn)生價(jià)值的衡量。
我們常說新技術(shù)總是在短期被高估，長期被低估。大模型的熱度從去年延續(xù)至今，讓全社會矚目的技術(shù)創(chuàng)新也在不斷刷屏。隨著時間和技術(shù)的推進(jìn)，大模型將不再是高深莫測的技術(shù)名詞。
大模型的祛魅過程中，評測基準(zhǔn)必將是重要的一環(huán)。而建立更全面、客觀、準(zhǔn)確的評測體系，形成與大模型研究之間的良性互動，也將是從業(yè)者與評測基準(zhǔn)團(tuán)隊(duì)繼續(xù)探索的方向。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

国产亚洲精品AA片在线观看,丰满熟妇HD,亚洲成色www成人网站妖精,丁香五月天婷婷五月天男人天堂

博客專欄

百模大戰(zhàn)，誰是大模型的裁判員？

相關(guān)推薦

技術(shù)專區(qū)

国产亚洲精品AA片在线观看,丰满熟妇HD,亚洲成色www成人网站妖精,丁香五月天婷婷五月天男人天堂

博客專欄

百模大戰(zhàn)，誰是大模型的裁判員？

相關(guān)推薦

技術(shù)專區(qū)

百模大戰(zhàn)，誰是大模型的裁判員？