2022年(nian)6月,浪潮“源1.0”大模型登頂中文(wen)語(yu)(yu)言能力理(li)解和生成評測(ce)基準CUGE總(zong)榜榜首,并(bing)獲(huo)得(de)語(yu)(yu)言理(li)解(篇章級)、語(yu)(yu)言生成、對話(hua)交(jiao)互、多語(yu)(yu)言、數學(xue)推理(li)等5項評測(ce)最佳成績。這是繼源1.0攬獲(huo)權威中文(wen)語(yu)(yu)言評測(ce)基準CLUE榜單的(de)零樣本學(xue)習和小樣本學(xue)習兩類(lei)總(zong)榜冠軍后,再次(ci)在評測(ce)中展現強大實力。
CUGE(Chinese Language Understanding and Generation Evaluation)智(zhi)源指數是(shi)由清華大學(xue)(xue)、北(bei)京大學(xue)(xue)、北(bei)京智(zhi)源研(yan)究院(yuan)等高校機構(gou)共同(tong)建立的(de)中文機器語言(yan)能力評測基準(zhun)(zhun),該(gai)基準(zhun)(zhun)針對當前自(zi)然(ran)語言(yan)處理(li)和人(ren)工智(zhi)能發(fa)展新(xin)范式,面向(xiang)具有(you)“通用語言(yan)能力”的(de)預訓練模(mo)型,全面系統、多(duo)層次、多(duo)維(wei)度地(di)評測大模(mo)型能力。
源1.0領跑多類綜合語言場景
在(zai)(zai)語言理(li)(li)解(jie)(篇章級)評測(ce)中(zhong),源1.0僅(jin)用(yong)時11分(fen)鐘,便完成數(shu)千篇閱讀(du)理(li)(li)解(jie)回(hui)答(da)4000多個問題,以(yi)86.9高分(fen)的成績位居榜首,展現出頂尖的語言理(li)(li)解(jie)能力。基于源1.0大(da)模型強大(da)的閱讀(du)理(li)(li)解(jie)能力及(ji)高速(su)處理(li)(li)大(da)量(liang)樣本的特(te)點,未來將加速(su)勞動密集型文本處理(li)(li)等行業變革(ge),如應(ying)用(yong)于智(zhi)能客服根據用(yong)戶提供的信息(xi)在(zai)(zai)產(chan)品(pin)文檔中(zhong)快速(su)找(zhao)到解(jie)決方(fang)案及(ji)智(zhi)能司法、智(zhi)能招聘(pin)系統等。
在(zai)語言生(sheng)成(cheng)(cheng)評測中(zhong),源1.0僅用時70秒,就(jiu)完成(cheng)(cheng)近800條摘(zhai)要(yao)內(nei)容的(de)(de)生(sheng)成(cheng)(cheng),登頂該項榜單。源大模(mo)型強大的(de)(de)文本生(sheng)成(cheng)(cheng)能力可提(ti)升智能問答與(yu)對(dui)話、新聞摘(zhai)要(yao)、報告(gao)生(sheng)成(cheng)(cheng)等場(chang)景中(zhong)AI智能化(hua)水平,如從(cong)長篇幅(fu)的(de)(de)新聞資訊等文本中(zhong)提(ti)取出簡明扼要(yao)的(de)(de)文字(zi)描(miao)述,便于及(ji)時、高效的(de)(de)獲(huo)取有(you)價值的(de)(de)信(xin)息及(ji)智能文案(an)、協(xie)助寫作等場(chang)景。
在(zai)多(duo)語(yu)言機器翻(fan)(fan)譯(yi)評測中(zhong),基(ji)(ji)于(yu)源1.0大(da)模(mo)型(xing)(xing)蒸(zheng)餾出來的(de)翻(fan)(fan)譯(yi)模(mo)型(xing)(xing)在(zai)完成近(jin)4000千(qian)對(dui)中(zhong)英文互(hu)譯(yi)后,登頂榜首,領先第二(er)名15%。翻(fan)(fan)譯(yi)模(mo)型(xing)(xing)在(zai)基(ji)(ji)于(yu)源1.0大(da)模(mo)型(xing)(xing)閱讀的(de)海(hai)量(liang)高質量(liang)數據集基(ji)(ji)礎上(shang),采用維基(ji)(ji)百科、書(shu)籍、聯(lian)合(he)國文件及字幕組等近(jin)80G高質量(liang)數據集進行強化訓(xun)練(lian),因此翻(fan)(fan)譯(yi)不僅(jin)專業準確,同(tong)時更(geng)符合(he)中(zhong)文表述。未來可(ke)廣泛(fan)應用于(yu)新聞(wen)、哲(zhe)學、小說等日常的(de)語(yu)言翻(fan)(fan)譯(yi)場(chang)景中(zhong)。
在對(dui)話交互評測中,基(ji)于源1.0大模型(xing)(xing)蒸餾出來的(de)對(dui)話模型(xing)(xing)回答(da)(da)了電影、音樂(le)、旅行(xing)3個(ge)領域(yu)共近(jin)萬個(ge)主題對(dui)話,成(cheng)績(ji)位居(ju)榜首(shou),領先第二名成(cheng)績(ji)30%,展(zhan)現了極強的(de)智能對(dui)話能力(li)。在繼承源1.0大模型(xing)(xing)能力(li)的(de)基(ji)礎上,對(dui)話模型(xing)(xing)采用了2660萬條醫療、法律、保險等不(bu)同行(xing)業,歷史、電影、娛(yu)樂(le)等不(bu)同場(chang)景的(de)對(dui)話語料數據進(jin)行(xing)強化訓練,在知識問答(da)(da)、高頻(pin)閑聊等開(kai)放(fang)式任務(wu)上表(biao)現突(tu)出,此前已獲得(de)業界權威測評WebQA開(kai)放(fang)問答(da)(da)數據集榜單冠軍。
當前(qian),智能(neng)對話(hua)(hua)普遍存(cun)在內(nei)容(rong)乏味、主題(ti)不連貫(guan)等問題(ti),往往幾輪(lun)對話(hua)(hua)后,回答便空洞重復,大(da)(da)大(da)(da)降低用戶體驗(yan)。知(zhi)識驅動(dong)的對話(hua)(hua)模型(xing)直接連接到(dao)廣(guang)(guang)泛的知(zhi)識庫,大(da)(da)大(da)(da)增(zeng)加對話(hua)(hua)內(nei)容(rong)的豐富度(du),在一(yi)(yi)定(ding)知(zhi)識背景下也不會(hui)偏題(ti),更趨(qu)向于(yu)(yu)人類(lei)之間的交談。不久前(qian),源開發(fa)(fa)者社(she)區的一(yi)(yi)位(wei)(wei)開發(fa)(fa)者基(ji)于(yu)(yu)源的對話(hua)(hua)模型(xing)創建(jian)了(le)一(yi)(yi)位(wei)(wei)能(neng)與人類(lei)玩劇本(ben)殺(sha)的AI虛擬玩家,一(yi)(yi)位(wei)(wei)人類(lei)玩家與AI虛擬玩家聊天到(dao)深夜凌晨仍興趣盎然。以知(zhi)識驅動(dong)的對話(hua)(hua)模型(xing),可廣(guang)(guang)泛應(ying)用于(yu)(yu)各類(lei)虛擬人、智能(neng)助手、智能(neng)客服等場景,并極大(da)(da)提(ti)升對話(hua)(hua)的智能(neng)水平和(he)用戶體驗(yan)。
源1.0在數學推理鋒芒初露
當前業界各類大模型在(zai)(zai)自然語言處理(li)領(ling)域展示出了強(qiang)大的(de)能力(li),但在(zai)(zai)數(shu)(shu)學(xue)(xue)領(ling)域卻還存在(zai)(zai)盲區。數(shu)(shu)學(xue)(xue)對邏輯和推理(li)能力(li)有極強(qiang)的(de)要求,Open AI開發出多種(zhong)方法訓練(lian)GPT-3的(de)數(shu)(shu)學(xue)(xue)推理(li)能力(li),但在(zai)(zai)挑戰小學(xue)(xue)數(shu)(shu)學(xue)(xue)應用題時,GPT-3也尚未及格,數(shu)(shu)學(xue)(xue)推理(li)能力(li)甚至(zhi)低于9-12歲兒(er)童(tong)。
為更好評測大模型邏(luo)輯推(tui)理能(neng)(neng)(neng)力(li)(li)(li),CUGE專門設立了數(shu)(shu)學(xue)推(tui)理能(neng)(neng)(neng)力(li)(li)(li)榜單(dan),主(zhu)要考(kao)察(cha)模型數(shu)(shu)值計算能(neng)(neng)(neng)力(li)(li)(li),即考(kao)察(cha)對(dui)應(ying)用情景和任務的(de)理解抽象能(neng)(neng)(neng)力(li)(li)(li)以及(ji)數(shu)(shu)值計算能(neng)(neng)(neng)力(li)(li)(li),類似于小學(xue)數(shu)(shu)學(xue)應(ying)用題(ti)。數(shu)(shu)學(xue)推(tui)理能(neng)(neng)(neng)力(li)(li)(li)榜單(dan)數(shu)(shu)據(ju)庫(ku)內(nei)的(de)數(shu)(shu)學(xue)題(ti)來自在線教育網站提供的(de)小學(xue)數(shu)(shu)學(xue)應(ying)用題(ti)。
在(zai)CUGE數學推理評測(ce)中,源1.0大(da)模(mo)型完成1000道小(xiao)學數學應(ying)用題,以76.9的(de)高分大(da)幅(fu)領(ling)先高居榜(bang)首。
為應對大模型(xing)在(zai)(zai)數學(xue)(xue)(xue)(xue)(xue)(xue)推理(li)方(fang)(fang)面的(de)(de)(de)挑戰,浪(lang)潮(chao)為源1.0開(kai)發(fa)了一(yi)(yi)套相似(si)啟發(fa)式數據(ju)增(zeng)強的(de)(de)(de)方(fang)(fang)案,給每一(yi)(yi)個(ge)(ge)要求解(jie)的(de)(de)(de)數學(xue)(xue)(xue)(xue)(xue)(xue)問題(ti)(ti)(ti)從數據(ju)庫(ku)中檢索并匹配(pei)一(yi)(yi)個(ge)(ge)相似(si)的(de)(de)(de)題(ti)(ti)(ti)目(mu)(mu)并與(yu)原(yuan)題(ti)(ti)(ti)目(mu)(mu)進(jin)行(xing)拼接(jie),通過類比學(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi),啟發(fa)大模型(xing)能(neng)夠根據(ju)兩道相似(si)問題(ti)(ti)(ti)更(geng)好地學(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)如何給出(chu)解(jie)題(ti)(ti)(ti)表達式,進(jin)而學(xue)(xue)(xue)(xue)(xue)(xue)會每一(yi)(yi)類題(ti)(ti)(ti)目(mu)(mu)的(de)(de)(de)解(jie)法(fa),類似(si)于(yu)(yu)人類在(zai)(zai)學(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)過程(cheng)中會通過連(lian)(lian)續學(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)同(tong)一(yi)(yi)類型(xing)的(de)(de)(de)題(ti)(ti)(ti)目(mu)(mu)來提(ti)高對這(zhe)一(yi)(yi)類型(xing)題(ti)(ti)(ti)目(mu)(mu)的(de)(de)(de)理(li)解(jie)能(neng)力;同(tong)時(shi),浪(lang)潮(chao)在(zai)(zai)源1.0改進(jin)了算法(fa)掩(yan)碼策略,使得模型(xing)在(zai)(zai)學(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)過程(cheng)中只(zhi)關(guan)注于(yu)(yu)連(lian)(lian)續的(de)(de)(de)相似(si)的(de)(de)(de)題(ti)(ti)(ti)目(mu)(mu),不受同(tong)一(yi)(yi)個(ge)(ge)輸入序列(lie)中不相關(guan)題(ti)(ti)(ti)目(mu)(mu)的(de)(de)(de)影(ying)響,這(zhe)樣模型(xing)可以(yi)更(geng)專(zhuan)注于(yu)(yu)學(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)同(tong)一(yi)(yi)類型(xing)的(de)(de)(de)題(ti)(ti)(ti)目(mu)(mu),極大地提(ti)升了解(jie)題(ti)(ti)(ti)準確度,全方(fang)(fang)面培養一(yi)(yi)個(ge)(ge)數學(xue)(xue)(xue)(xue)(xue)(xue)學(xue)(xue)(xue)(xue)(xue)(xue)霸。
源1.0開源開放計劃收效顯著
目(mu)前,浪(lang)潮“源1.0”已經將模型API、高質量數據集、模型訓練代碼(ma)、推理(li)代碼(ma)和(he)應用(yong)代碼(ma)等(deng)等(deng)工具和(he)能(neng)力(li)開(kai)源開(kai)放(fang),超過300家行(xing)業(ye)用(yong)戶和(he)開(kai)發者(zhe),通過“源1.0”提供的(de)數據和(he)API顯著提升了金融(rong)(rong)、互聯網、醫療和(he)自動駕駛等(deng)行(xing)業(ye)應用(yong)的(de)精度(du)。浪(lang)潮源1.0將持續助力(li)行(xing)業(ye)用(yong)戶和(he)開(kai)發者(zhe),攜手(shou)推動技術創新、場景融(rong)(rong)合、應用(yong)開(kai)發,共同(tong)促進大模型的(de)健康發展(zhan)與產業(ye)落(luo)地,加(jia)速(su)AI產業(ye)化(hua)和(he)產業(ye)AI化(hua)發展(zhan)。