浪潮“源1.0”大模型登頂中文語言能力評測基準CUGE榜首

本文章由注冊用戶熱點芝士上傳提供 2023-11-12 ☆ 評論 0

摘要：浪潮“源1.0”大模型登頂中文語言能力理解和生成評測基準CUGE總榜榜首，獲得語言理解（篇章級）、語言生成、對話交互、多語言、數學推理等5項評測最佳成績。這表現出浪潮在中文機器語言能力的強大實力。未來，浪潮源1.0將持續助力行業用戶和開發者，攜手推動技術創新、場景融合、應用開發，共同促進大模型的健康發展與產業落地，加速AI產業化和產業AI化發展。

2022年(nian)6月，浪潮“源1.0”大模型登頂中文(wen)語(yu)(yu)言能力理(li)解和生成評測(ce)基準CUGE總(zong)榜榜首，并(bing)獲(huo)得(de)語(yu)(yu)言理(li)解（篇章級）、語(yu)(yu)言生成、對話(hua)交(jiao)互、多語(yu)(yu)言、數學(xue)推理(li)等5項評測(ce)最佳成績。這是繼源1.0攬獲(huo)權威中文(wen)語(yu)(yu)言評測(ce)基準CLUE榜單的(de)零樣本學(xue)習和小樣本學(xue)習兩類(lei)總(zong)榜冠軍后，再次(ci)在評測(ce)中展現強大實力。

CUGE(Chinese Language Understanding and Generation Evaluation)智(zhi)源指數是(shi)由清華大學(xue)(xue)、北(bei)京大學(xue)(xue)、北(bei)京智(zhi)源研(yan)究院(yuan)等高校機構(gou)共同(tong)建立的(de)中文機器語言(yan)能力評測基準(zhun)(zhun)，該(gai)基準(zhun)(zhun)針對當前自(zi)然(ran)語言(yan)處理(li)和人(ren)工智(zhi)能發(fa)展新(xin)范式，面向(xiang)具有(you)“通用語言(yan)能力”的(de)預訓練模(mo)型，全面系統、多(duo)層次、多(duo)維(wei)度地(di)評測大模(mo)型能力。

源1.0領跑多類綜合語言場景

在(zai)(zai)語言理(li)(li)解(jie)(篇章級)評測(ce)中(zhong)，源1.0僅(jin)用(yong)時11分(fen)鐘，便完成數(shu)千篇閱讀(du)理(li)(li)解(jie)回(hui)答(da)4000多個問題，以(yi)86.9高分(fen)的成績位居榜首，展現出頂尖的語言理(li)(li)解(jie)能力。基于源1.0大(da)模型強大(da)的閱讀(du)理(li)(li)解(jie)能力及(ji)高速(su)處理(li)(li)大(da)量(liang)樣本的特(te)點，未來將加速(su)勞動密集型文本處理(li)(li)等行業變革(ge)，如應(ying)用(yong)于智(zhi)能客服根據用(yong)戶提供的信息(xi)在(zai)(zai)產(chan)品(pin)文檔中(zhong)快速(su)找(zhao)到解(jie)決方(fang)案及(ji)智(zhi)能司法、智(zhi)能招聘(pin)系統等。

在(zai)語言生(sheng)成(cheng)(cheng)評測中(zhong)，源1.0僅用時70秒，就(jiu)完成(cheng)(cheng)近800條摘(zhai)要(yao)內(nei)容的(de)(de)生(sheng)成(cheng)(cheng)，登頂該項榜單。源大模(mo)型強大的(de)(de)文本生(sheng)成(cheng)(cheng)能力可提(ti)升智能問答與(yu)對(dui)話、新聞摘(zhai)要(yao)、報告(gao)生(sheng)成(cheng)(cheng)等場(chang)景中(zhong)AI智能化(hua)水平，如從(cong)長篇幅(fu)的(de)(de)新聞資訊等文本中(zhong)提(ti)取出簡明扼要(yao)的(de)(de)文字(zi)描(miao)述，便于及(ji)時、高效的(de)(de)獲(huo)取有(you)價值的(de)(de)信(xin)息及(ji)智能文案(an)、協(xie)助寫作等場(chang)景。

在(zai)多(duo)語(yu)言機器翻(fan)(fan)譯(yi)評測中(zhong)，基(ji)(ji)于(yu)源1.0大(da)模(mo)型(xing)(xing)蒸(zheng)餾出來的(de)翻(fan)(fan)譯(yi)模(mo)型(xing)(xing)在(zai)完成近(jin)4000千(qian)對(dui)中(zhong)英文互(hu)譯(yi)后，登頂榜首，領先第二(er)名15%。翻(fan)(fan)譯(yi)模(mo)型(xing)(xing)在(zai)基(ji)(ji)于(yu)源1.0大(da)模(mo)型(xing)(xing)閱讀的(de)海(hai)量(liang)高質量(liang)數據集基(ji)(ji)礎上(shang)，采用維基(ji)(ji)百科、書(shu)籍、聯(lian)合(he)國文件及字幕組等近(jin)80G高質量(liang)數據集進行強化訓(xun)練(lian)，因此翻(fan)(fan)譯(yi)不僅(jin)專業準確，同(tong)時更(geng)符合(he)中(zhong)文表述。未來可(ke)廣泛(fan)應用于(yu)新聞(wen)、哲(zhe)學、小說等日常的(de)語(yu)言翻(fan)(fan)譯(yi)場(chang)景中(zhong)。

在對(dui)話交互評測中，基(ji)于源1.0大模型(xing)(xing)蒸餾出來的(de)對(dui)話模型(xing)(xing)回答(da)(da)了電影、音樂(le)、旅行(xing)3個(ge)領域(yu)共近(jin)萬個(ge)主題對(dui)話，成(cheng)績(ji)位居(ju)榜首(shou)，領先第二名成(cheng)績(ji)30%，展(zhan)現了極強的(de)智能對(dui)話能力(li)。在繼承源1.0大模型(xing)(xing)能力(li)的(de)基(ji)礎上，對(dui)話模型(xing)(xing)采用了2660萬條醫療、法律、保險等不(bu)同行(xing)業，歷史、電影、娛(yu)樂(le)等不(bu)同場(chang)景的(de)對(dui)話語料數據進(jin)行(xing)強化訓練，在知識問答(da)(da)、高頻(pin)閑聊等開(kai)放(fang)式任務(wu)上表(biao)現突(tu)出，此前已獲得(de)業界權威測評WebQA開(kai)放(fang)問答(da)(da)數據集榜單冠軍。

當前(qian)，智能(neng)對話(hua)(hua)普遍存(cun)在內(nei)容(rong)乏味、主題(ti)不連貫(guan)等問題(ti)，往往幾輪(lun)對話(hua)(hua)后，回答便空洞重復，大(da)(da)大(da)(da)降低用戶體驗(yan)。知(zhi)識驅動(dong)的對話(hua)(hua)模型(xing)直接連接到(dao)廣(guang)(guang)泛的知(zhi)識庫，大(da)(da)大(da)(da)增(zeng)加對話(hua)(hua)內(nei)容(rong)的豐富度(du)，在一(yi)(yi)定(ding)知(zhi)識背景下也不會(hui)偏題(ti)，更趨(qu)向于(yu)(yu)人類(lei)之間的交談。不久前(qian)，源開發(fa)(fa)者社(she)區的一(yi)(yi)位(wei)(wei)開發(fa)(fa)者基(ji)于(yu)(yu)源的對話(hua)(hua)模型(xing)創建(jian)了(le)一(yi)(yi)位(wei)(wei)能(neng)與人類(lei)玩劇本(ben)殺(sha)的AI虛擬玩家，一(yi)(yi)位(wei)(wei)人類(lei)玩家與AI虛擬玩家聊天到(dao)深夜凌晨仍興趣盎然。以知(zhi)識驅動(dong)的對話(hua)(hua)模型(xing)，可廣(guang)(guang)泛應(ying)用于(yu)(yu)各類(lei)虛擬人、智能(neng)助手、智能(neng)客服等場景，并極大(da)(da)提(ti)升對話(hua)(hua)的智能(neng)水平和(he)用戶體驗(yan)。

源1.0在數學推理鋒芒初露

當前業界各類大模型在(zai)(zai)自然語言處理(li)領(ling)域展示出了強(qiang)大的(de)能力(li)，但在(zai)(zai)數(shu)(shu)學(xue)(xue)領(ling)域卻還存在(zai)(zai)盲區。數(shu)(shu)學(xue)(xue)對邏輯和推理(li)能力(li)有極強(qiang)的(de)要求，Open AI開發出多種(zhong)方法訓練(lian)GPT-3的(de)數(shu)(shu)學(xue)(xue)推理(li)能力(li)，但在(zai)(zai)挑戰小學(xue)(xue)數(shu)(shu)學(xue)(xue)應用題時，GPT-3也尚未及格，數(shu)(shu)學(xue)(xue)推理(li)能力(li)甚至(zhi)低于9-12歲兒(er)童(tong)。

為更好評測大模型邏(luo)輯推(tui)理能(neng)(neng)(neng)力(li)(li)(li)，CUGE專門設立了數(shu)(shu)學(xue)推(tui)理能(neng)(neng)(neng)力(li)(li)(li)榜單(dan)，主(zhu)要考(kao)察(cha)模型數(shu)(shu)值計算能(neng)(neng)(neng)力(li)(li)(li)，即考(kao)察(cha)對(dui)應(ying)用情景和任務的(de)理解抽象能(neng)(neng)(neng)力(li)(li)(li)以及(ji)數(shu)(shu)值計算能(neng)(neng)(neng)力(li)(li)(li)，類似于小學(xue)數(shu)(shu)學(xue)應(ying)用題(ti)。數(shu)(shu)學(xue)推(tui)理能(neng)(neng)(neng)力(li)(li)(li)榜單(dan)數(shu)(shu)據(ju)庫(ku)內(nei)的(de)數(shu)(shu)學(xue)題(ti)來自在線教育網站提供的(de)小學(xue)數(shu)(shu)學(xue)應(ying)用題(ti)。

在(zai)CUGE數學推理評測(ce)中，源1.0大(da)模(mo)型完成1000道小(xiao)學數學應(ying)用題，以76.9的(de)高分大(da)幅(fu)領(ling)先高居榜(bang)首。

為應對大模型(xing)在(zai)(zai)數學(xue)(xue)(xue)(xue)(xue)(xue)推理(li)方(fang)(fang)面的(de)(de)(de)挑戰，浪(lang)潮(chao)為源1.0開(kai)發(fa)了一(yi)(yi)套相似(si)啟發(fa)式數據(ju)增(zeng)強的(de)(de)(de)方(fang)(fang)案，給每一(yi)(yi)個(ge)(ge)要求解(jie)的(de)(de)(de)數學(xue)(xue)(xue)(xue)(xue)(xue)問題(ti)(ti)(ti)從數據(ju)庫(ku)中檢索并匹配(pei)一(yi)(yi)個(ge)(ge)相似(si)的(de)(de)(de)題(ti)(ti)(ti)目(mu)(mu)并與(yu)原(yuan)題(ti)(ti)(ti)目(mu)(mu)進(jin)行(xing)拼接(jie)，通過類比學(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)，啟發(fa)大模型(xing)能(neng)夠根據(ju)兩道相似(si)問題(ti)(ti)(ti)更(geng)好地學(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)如何給出(chu)解(jie)題(ti)(ti)(ti)表達式，進(jin)而學(xue)(xue)(xue)(xue)(xue)(xue)會每一(yi)(yi)類題(ti)(ti)(ti)目(mu)(mu)的(de)(de)(de)解(jie)法(fa)，類似(si)于(yu)(yu)人類在(zai)(zai)學(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)過程(cheng)中會通過連(lian)(lian)續學(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)同(tong)一(yi)(yi)類型(xing)的(de)(de)(de)題(ti)(ti)(ti)目(mu)(mu)來提(ti)高對這(zhe)一(yi)(yi)類型(xing)題(ti)(ti)(ti)目(mu)(mu)的(de)(de)(de)理(li)解(jie)能(neng)力；同(tong)時(shi)，浪(lang)潮(chao)在(zai)(zai)源1.0改進(jin)了算法(fa)掩(yan)碼策略，使得模型(xing)在(zai)(zai)學(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)過程(cheng)中只(zhi)關(guan)注于(yu)(yu)連(lian)(lian)續的(de)(de)(de)相似(si)的(de)(de)(de)題(ti)(ti)(ti)目(mu)(mu)，不受同(tong)一(yi)(yi)個(ge)(ge)輸入序列(lie)中不相關(guan)題(ti)(ti)(ti)目(mu)(mu)的(de)(de)(de)影(ying)響，這(zhe)樣模型(xing)可以(yi)更(geng)專(zhuan)注于(yu)(yu)學(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)同(tong)一(yi)(yi)類型(xing)的(de)(de)(de)題(ti)(ti)(ti)目(mu)(mu)，極大地提(ti)升了解(jie)題(ti)(ti)(ti)準確度，全方(fang)(fang)面培養一(yi)(yi)個(ge)(ge)數學(xue)(xue)(xue)(xue)(xue)(xue)學(xue)(xue)(xue)(xue)(xue)(xue)霸。

源1.0開源開放計劃收效顯著

目(mu)前，浪(lang)潮“源1.0”已經將模型API、高質量數據集、模型訓練代碼(ma)、推理(li)代碼(ma)和(he)應用(yong)代碼(ma)等(deng)等(deng)工具和(he)能(neng)力(li)開(kai)源開(kai)放(fang)，超過300家行(xing)業(ye)用(yong)戶和(he)開(kai)發者(zhe)，通過“源1.0”提供的(de)數據和(he)API顯著提升了金融(rong)(rong)、互聯網、醫療和(he)自動駕駛等(deng)行(xing)業(ye)應用(yong)的(de)精度(du)。浪(lang)潮源1.0將持續助力(li)行(xing)業(ye)用(yong)戶和(he)開(kai)發者(zhe)，攜手(shou)推動技術創新、場景融(rong)(rong)合、應用(yong)開(kai)發，共同(tong)促進大模型的(de)健康發展(zhan)與產業(ye)落(luo)地，加(jia)速(su)AI產業(ye)化(hua)和(he)產業(ye)AI化(hua)發展(zhan)。

標簽： 浪潮inspur 服務器機頂盒服務器機柜工作站

網站提醒和聲明

本站(zhan)為注(zhu)冊(ce)用戶(hu)(hu)提供信息存儲(chu)空間(jian)服務，非“MAIGOO編輯上傳提供”的文章(zhang)/文字均(jun)是(shi)注(zhu)冊(ce)用戶(hu)(hu)自(zi)主發布上傳，不代表本站(zhan)觀點，版權(quan)歸原作者所有，如有侵權(quan)、虛假信息、錯誤信息或任何(he)問(wen)題，請及時聯系我們，我們將在第(di)一時間(jian)刪除或更(geng)正。申請刪除>> 糾錯>> 投訴侵權>> 網(wang)頁上相(xiang)關信息的知識產(chan)權歸網(wang)站方所有(包括(kuo)但不限于文字、圖(tu)片、圖(tu)表、著作權、商標(biao)權、為用戶(hu)提(ti)供的商業(ye)信息等)，非(fei)經許(xu)可不得抄(chao)襲或使用。

提交(jiao)說明：快速提交發布>> 提交資訊幫助>> 注冊登錄>>