2022年6月,浪潮“源1.0”大模(mo)型登頂中(zhong)(zhong)文語(yu)言能力理解(jie)和(he)生(sheng)(sheng)成評(ping)(ping)測基(ji)準CUGE總榜榜首,并獲(huo)得語(yu)言理解(jie)(篇章級(ji))、語(yu)言生(sheng)(sheng)成、對話(hua)交互、多(duo)語(yu)言、數學推理等5項評(ping)(ping)測最佳成績。這(zhe)是(shi)繼源1.0攬獲(huo)權威中(zhong)(zhong)文語(yu)言評(ping)(ping)測基(ji)準CLUE榜單的零樣本學習和(he)小樣本學習兩類總榜冠軍后(hou),再次(ci)在評(ping)(ping)測中(zhong)(zhong)展(zhan)現(xian)強(qiang)大實(shi)力。
CUGE(Chinese Language Understanding and Generation Evaluation)智(zhi)源指數是由(you)清華大學、北京大學、北京智(zhi)源研究院等高校(xiao)機構共同建立的(de)中文(wen)機器語言能(neng)力(li)(li)評(ping)測基準,該(gai)基準針對(dui)當前自(zi)然(ran)語言處理(li)和人工智(zhi)能(neng)發展新范(fan)式,面向(xiang)具有“通用語言能(neng)力(li)(li)”的(de)預訓(xun)練模型(xing),全(quan)面系統(tong)、多層次、多維度地評(ping)測大模型(xing)能(neng)力(li)(li)。
源1.0領跑多類綜合語言場景
在語(yu)言理(li)解(jie)(篇章級)評測中(zhong)(zhong),源1.0僅用(yong)(yong)時11分鐘,便(bian)完(wan)成(cheng)(cheng)數千篇閱讀(du)理(li)解(jie)回答4000多個問(wen)題,以(yi)86.9高(gao)分的(de)成(cheng)(cheng)績位居榜首,展現出(chu)頂尖的(de)語(yu)言理(li)解(jie)能(neng)力(li)。基于源1.0大模型強大的(de)閱讀(du)理(li)解(jie)能(neng)力(li)及高(gao)速(su)處(chu)理(li)大量樣本的(de)特點,未來將(jiang)加速(su)勞動密集型文(wen)本處(chu)理(li)等行業(ye)變革(ge),如應用(yong)(yong)于智能(neng)客服根據用(yong)(yong)戶提供的(de)信息在產品文(wen)檔中(zhong)(zhong)快速(su)找到(dao)解(jie)決方案(an)及智能(neng)司法、智能(neng)招聘系統(tong)等。
在語言生(sheng)(sheng)成評測中(zhong)(zhong),源1.0僅用時70秒,就完成近(jin)800條摘(zhai)要內容的生(sheng)(sheng)成,登頂(ding)該項(xiang)榜單。源大模(mo)型強大的文(wen)本生(sheng)(sheng)成能(neng)力可提升智(zhi)(zhi)能(neng)問答與(yu)對話、新(xin)聞(wen)摘(zhai)要、報告生(sheng)(sheng)成等場(chang)景中(zhong)(zhong)AI智(zhi)(zhi)能(neng)化(hua)水平,如從長篇幅的新(xin)聞(wen)資訊等文(wen)本中(zhong)(zhong)提取出簡(jian)明扼要的文(wen)字(zi)描述,便于及時、高效的獲取有價值的信息及智(zhi)(zhi)能(neng)文(wen)案、協助寫作等場(chang)景。
在(zai)(zai)多語言機器(qi)翻(fan)譯(yi)(yi)評(ping)測中(zhong),基(ji)(ji)于源1.0大模(mo)(mo)型(xing)(xing)蒸餾(liu)出來的翻(fan)譯(yi)(yi)模(mo)(mo)型(xing)(xing)在(zai)(zai)完(wan)成近4000千對中(zhong)英文互譯(yi)(yi)后,登(deng)頂榜首,領先第二名(ming)15%。翻(fan)譯(yi)(yi)模(mo)(mo)型(xing)(xing)在(zai)(zai)基(ji)(ji)于源1.0大模(mo)(mo)型(xing)(xing)閱讀的海量高質量數(shu)據集基(ji)(ji)礎上,采用維基(ji)(ji)百科(ke)、書籍、聯合(he)國文件及字幕(mu)組等近80G高質量數(shu)據集進行強化訓(xun)練,因此翻(fan)譯(yi)(yi)不僅專業準(zhun)確,同(tong)時更符合(he)中(zhong)文表述。未來可(ke)廣泛應(ying)用于新(xin)聞、哲學、小說等日(ri)常的語言翻(fan)譯(yi)(yi)場景中(zhong)。
在對(dui)話(hua)(hua)交互評(ping)測中,基(ji)于源(yuan)1.0大(da)模(mo)(mo)型蒸餾出(chu)來(lai)的對(dui)話(hua)(hua)模(mo)(mo)型回答了(le)電(dian)影、音樂、旅行(xing)3個(ge)領域共近萬(wan)個(ge)主題對(dui)話(hua)(hua),成績位居榜首(shou),領先(xian)第二(er)名成績30%,展現了(le)極強的智(zhi)能(neng)對(dui)話(hua)(hua)能(neng)力。在繼承(cheng)源(yuan)1.0大(da)模(mo)(mo)型能(neng)力的基(ji)礎上,對(dui)話(hua)(hua)模(mo)(mo)型采用了(le)2660萬(wan)條醫療、法(fa)律、保險等不同行(xing)業,歷史、電(dian)影、娛樂等不同場景的對(dui)話(hua)(hua)語料數(shu)據(ju)進(jin)行(xing)強化訓練,在知識(shi)問答、高頻(pin)閑聊等開(kai)放式任務(wu)上表現突出(chu),此前已獲得業界權威測評(ping)WebQA開(kai)放問答數(shu)據(ju)集榜單冠軍。
當前,智(zhi)能對話(hua)(hua)普遍存在(zai)內容乏(fa)味(wei)、主題(ti)不連貫等問(wen)題(ti),往往幾(ji)輪對話(hua)(hua)后,回(hui)答便(bian)空洞重復,大(da)(da)大(da)(da)降(jiang)低用(yong)戶體驗(yan)。知(zhi)識(shi)驅(qu)動的(de)對話(hua)(hua)模(mo)型直接(jie)連接(jie)到廣(guang)泛(fan)的(de)知(zhi)識(shi)庫(ku),大(da)(da)大(da)(da)增加對話(hua)(hua)內容的(de)豐富度,在(zai)一定(ding)知(zhi)識(shi)背景下也不會偏(pian)題(ti),更趨向于人(ren)(ren)類之(zhi)間的(de)交談。不久前,源(yuan)(yuan)開發(fa)(fa)者社(she)區的(de)一位(wei)開發(fa)(fa)者基于源(yuan)(yuan)的(de)對話(hua)(hua)模(mo)型創建了一位(wei)能與人(ren)(ren)類玩劇本殺的(de)AI虛擬(ni)(ni)玩家,一位(wei)人(ren)(ren)類玩家與AI虛擬(ni)(ni)玩家聊天(tian)到深夜(ye)凌晨仍興趣盎然。以(yi)知(zhi)識(shi)驅(qu)動的(de)對話(hua)(hua)模(mo)型,可(ke)廣(guang)泛(fan)應用(yong)于各類虛擬(ni)(ni)人(ren)(ren)、智(zhi)能助手、智(zhi)能客服等場景,并(bing)極大(da)(da)提(ti)升對話(hua)(hua)的(de)智(zhi)能水平和用(yong)戶體驗(yan)。
源1.0在數學推理鋒芒初露
當前(qian)業界各類大模型(xing)在(zai)(zai)自然語言處理領(ling)域展示出了強(qiang)大的能力,但(dan)在(zai)(zai)數(shu)學(xue)(xue)領(ling)域卻還存在(zai)(zai)盲區。數(shu)學(xue)(xue)對邏輯和推(tui)理能力有極(ji)強(qiang)的要求(qiu),Open AI開發(fa)出多種方法訓練GPT-3的數(shu)學(xue)(xue)推(tui)理能力,但(dan)在(zai)(zai)挑(tiao)戰小學(xue)(xue)數(shu)學(xue)(xue)應用題時,GPT-3也尚未(wei)及格,數(shu)學(xue)(xue)推(tui)理能力甚至低于9-12歲兒童。
為更好(hao)評測大模型(xing)邏輯推理(li)能力(li)(li),CUGE專門設立(li)了數(shu)(shu)學(xue)(xue)推理(li)能力(li)(li)榜單,主要考(kao)察模型(xing)數(shu)(shu)值計算能力(li)(li),即考(kao)察對應用情景(jing)和任務的(de)理(li)解抽象能力(li)(li)以及數(shu)(shu)值計算能力(li)(li),類似于小(xiao)學(xue)(xue)數(shu)(shu)學(xue)(xue)應用題。數(shu)(shu)學(xue)(xue)推理(li)能力(li)(li)榜單數(shu)(shu)據(ju)庫內(nei)的(de)數(shu)(shu)學(xue)(xue)題來自在(zai)線教育網站提供的(de)小(xiao)學(xue)(xue)數(shu)(shu)學(xue)(xue)應用題。
在CUGE數(shu)學推理評測中(zhong),源1.0大模(mo)型完成1000道(dao)小學數(shu)學應(ying)用題,以(yi)76.9的(de)高分大幅領先(xian)高居榜首(shou)。
為應對(dui)大(da)模(mo)型(xing)(xing)在(zai)數(shu)學(xue)(xue)推理方面的挑(tiao)戰,浪潮(chao)為源(yuan)1.0開發了一(yi)(yi)套(tao)相(xiang)似(si)(si)(si)啟發式數(shu)據(ju)增強的方案,給每一(yi)(yi)個要求解的數(shu)學(xue)(xue)問題從數(shu)據(ju)庫中(zhong)檢索(suo)并匹配(pei)一(yi)(yi)個相(xiang)似(si)(si)(si)的題目(mu)(mu)并與(yu)原題目(mu)(mu)進行拼接,通過(guo)類(lei)(lei)比學(xue)(xue)習(xi)(xi),啟發大(da)模(mo)型(xing)(xing)能夠根據(ju)兩(liang)道相(xiang)似(si)(si)(si)問題更好地學(xue)(xue)習(xi)(xi)如何(he)給出解題表達式,進而學(xue)(xue)會(hui)每一(yi)(yi)類(lei)(lei)題目(mu)(mu)的解法(fa),類(lei)(lei)似(si)(si)(si)于(yu)(yu)人(ren)類(lei)(lei)在(zai)學(xue)(xue)習(xi)(xi)過(guo)程(cheng)中(zhong)會(hui)通過(guo)連(lian)續學(xue)(xue)習(xi)(xi)同(tong)一(yi)(yi)類(lei)(lei)型(xing)(xing)的題目(mu)(mu)來(lai)提(ti)高對(dui)這(zhe)一(yi)(yi)類(lei)(lei)型(xing)(xing)題目(mu)(mu)的理解能力;同(tong)時(shi),浪潮(chao)在(zai)源(yuan)1.0改進了算法(fa)掩(yan)碼策略,使得模(mo)型(xing)(xing)在(zai)學(xue)(xue)習(xi)(xi)過(guo)程(cheng)中(zhong)只(zhi)關(guan)注(zhu)于(yu)(yu)連(lian)續的相(xiang)似(si)(si)(si)的題目(mu)(mu),不受同(tong)一(yi)(yi)個輸入序列中(zhong)不相(xiang)關(guan)題目(mu)(mu)的影(ying)響,這(zhe)樣模(mo)型(xing)(xing)可以更專注(zhu)于(yu)(yu)學(xue)(xue)習(xi)(xi)同(tong)一(yi)(yi)類(lei)(lei)型(xing)(xing)的題目(mu)(mu),極大(da)地提(ti)升(sheng)了解題準確度,全方面培養一(yi)(yi)個數(shu)學(xue)(xue)學(xue)(xue)霸。
源1.0開源開放計劃收效顯著
目前,浪潮“源(yuan)1.0”已經將模型API、高(gao)質量數據集(ji)、模型訓練代(dai)碼(ma)(ma)、推(tui)理代(dai)碼(ma)(ma)和(he)(he)應用代(dai)碼(ma)(ma)等(deng)(deng)等(deng)(deng)工(gong)具和(he)(he)能(neng)力開源(yuan)開放,超(chao)過300家行(xing)業(ye)(ye)(ye)用戶和(he)(he)開發者,通過“源(yuan)1.0”提(ti)供的數據和(he)(he)API顯(xian)著提(ti)升(sheng)了金融(rong)、互聯網、醫療和(he)(he)自動(dong)駕駛等(deng)(deng)行(xing)業(ye)(ye)(ye)應用的精度。浪潮源(yuan)1.0將持續助力行(xing)業(ye)(ye)(ye)用戶和(he)(he)開發者,攜手推(tui)動(dong)技術創(chuang)新(xin)、場景融(rong)合、應用開發,共同促進(jin)大模型的健康發展與產(chan)(chan)業(ye)(ye)(ye)落地,加速AI產(chan)(chan)業(ye)(ye)(ye)化和(he)(he)產(chan)(chan)業(ye)(ye)(ye)AI化發展。