2022年4月,第十(shi)六屆(jie)國際語義(yi)評(ping)測(ce)(The 16th International Workshop on Semantic Evaluation, SemEval 2022)大(da)賽落下帷(wei)幕(mu),科(ke)大(da)訊飛在三項主要賽道中拿(na)下冠軍,標志著(zhu)科(ke)大(da)訊飛在多(duo)語種語言理解領(ling)域持續進階。
SemEval 2022評測由國(guo)際計算語(yu)言學協(xie)會(Association for Computational Linguistics, ACL)旗下(xia)SIGLEX主辦,參賽者覆蓋國(guo)內、外一流(liu)高(gao)校及知(zhi)名企(qi)業,包括達特茅斯學院、謝菲爾(er)德大學、華(hua)為、阿里達摩院等,代(dai)表著最前沿國(guo)際技(ji)術和水平(ping)。
經過(guo)角逐,科大訊飛分別(bie)在“多(duo)語種新聞相(xiang)似度評(ping)測(ce)任務(wu)”(Task 8)、“多(duo)語種慣用語識別(bie)任務(wu)” 子賽道(Task 2: Subtask A one-shot)、“多(duo)語種復雜命名實體(ti)識別(bie)任務(wu)”(Task 11)三(san)個(ge)子賽道中拿下冠(guan)軍(jun)。
新聞相似度評價:目光如炬
本次SemEval 2022評測聚焦的Task 8是多語種新聞相似度評價任務。科(ke)大訊(xun)(xun)飛與哈(ha)爾濱工(gong)業大學聯(lian)合(he)組建的“哈(ha)工(gong)大訊(xun)(xun)飛聯(lian)合(he)實(shi)驗室”(Joint Laboratory of HIT and iFLYTEK Research,簡(jian)稱HFL)以(yi)顯著(zhu)優勢摘得冠軍。
簡(jian)單(dan)來說,參賽(sai)隊(dui)伍(wu)需要在每組新聞(wen)中(zhong)判斷(duan)是否(fou)描(miao)述了同一(yi)個事件,并以1-4分為(wei)兩(liang)篇(pian)新聞(wen)的相似度打分,其中(zhong)包含了多達10種語言,分別為(wei)阿拉伯(bo)語、德語、英語、西(xi)班牙(ya)語、法語、意(yi)大(da)利語、波蘭(lan)語、俄語、土耳(er)其語和中(zhong)文。但新聞(wen)相似度究竟是什么?讓我(wo)們(men)用一(yi)則(ze)示例為(wei)大(da)家(jia)解讀。
圖中(zhong)列舉了兩篇相(xiang)似(si)(si)度極(ji)高的新聞稿(gao)件,參賽隊(dui)伍必須(xu)將(jiang)文(wen)(wen)中(zhong)相(xiang)似(si)(si)的主(zhu)要元(yuan)素剝(bo)離出來(lai)并逐一分析,比如地理(li)信息(xi)、敘事技巧、實體、語氣、時間及風格(ge),最終得(de)出兩篇文(wen)(wen)章的相(xiang)似(si)(si)度與差異(yi)化。
與普(pu)通(tong)(tong)的(de)文章相(xiang)比(bi),該項比(bi)賽更強調跨(kua)語言理(li)解能力,除了寫作風格和敘述方(fang)式外,還需要把握文章中描述的(de)具體事件。通(tong)(tong)俗(su)來說,該項技術可以甄別外網的(de)一些新聞報道是否存在(zai)偏差(cha)與曲解,從而(er)有效預(yu)防虛假信息、不良信息的(de)傳播。
科(ke)大訊飛在這樣的(de)賽道上拔得頭籌,充分展示了在跨(kua)語(yu)言(yan)理解(jie)能力上的(de)強硬實力。
慣用語檢測:熟能生巧
哈工大訊飛聯合(he)實驗室拿(na)下的(de)第二項任務(wu)冠(guan)軍,便是(shi)Task2 Subtask A的(de)慣用(yong)語(yu)(yu)檢測(ce)。通俗(su)來說,無論你是(shi)哪(na)國人,在日常表達中(zhong)都(dou)有(you)一類(lei)短(duan)語(yu)(yu)的(de)固(gu)定用(yong)法(fa),并且該(gai)固(gu)定用(yong)法(fa)通常與短(duan)語(yu)(yu)的(de)字面語(yu)(yu)義不同,我們會將這(zhe)些短(duan)語(yu)(yu)稱為(wei)“慣用(yong)語(yu)(yu)”。想要理解(jie)包(bao)含慣用(yong)語(yu)(yu)的(de)句子,首先需要判(pan)斷句子中(zhong)的(de)多字短(duan)語(yu)(yu)是(shi)否(fou)為(wei)慣用(yong)語(yu)(yu),比如“說曹操(cao),曹操(cao)到。”句中(zhong)的(de)曹操(cao)是(shi)否(fou)真實存在。
該任(ren)務(wu)的形式(shi)便是(shi)給定一個目標(biao)語(yu)(yu)句(ju),包括其上(shang)下文和多字短(duan)語(yu)(yu),繼而判斷該語(yu)(yu)句(ju)中(zhong)的多字短(duan)語(yu)(yu)用法究竟是(shi)慣用語(yu)(yu)還是(shi)字面意思。該任(ren)務(wu)為多語(yu)(yu)言(yan)任(ren)務(wu),包含英語(yu)(yu)、葡萄(tao)牙語(yu)(yu)、加利(li)西(xi)亞語(yu)(yu)三種(zhong)語(yu)(yu)言(yan)。其中(zhong)加利(li)西(xi)亞語(yu)(yu)沒有在訓(xun)練集中(zhong)出(chu)現(xian)過(guo),因此科(ke)大(da)訊飛代表隊需要在不同語(yu)(yu)言(yan)之間進行遷移學習。
還是不懂?別擔心,讓(rang)我(wo)們(men)來(lai)看一則示例(li)。
如例所(suo)示(shi),Literal表(biao)示(shi)字(zi)(zi)面意思,第一句話可翻譯為(wei):當你從(cong)網中抓一條大魚時,最好撐住(zhu)它的腰。Idiomatic表(biao)示(shi)慣用語,所(suo)以第二句話中再次出現了大魚一詞,但卻不是(shi)簡單的字(zi)(zi)面意思,而是(shi)“大人物”。
所以該(gai)任務要求參賽隊伍區分不(bu)同(tong)句子(zi)中(zhong)同(tong)一個(ge)詞的不(bu)同(tong)語義(yi),這需要強大的分析及跨語言理解(jie)能力(li)。有(you)了該(gai)項技術,在日常(chang)寫(xie)作和翻譯工作中(zhong),即可有(you)效鑒別慣用語的表達用意,極大提(ti)高內容準(zhun)確(que)率。
科大訊飛不負(fu)眾望(wang),再摘(zhai)桂冠。
復雜命名實體識別:披荊斬棘
這第三冠(guan)有多(duo)難?光聽名字就覺得復雜:多(duo)語(yu)(yu)種(zhong)復雜命名實體識別任務(MutiCoNER)。科(ke)大(da)(da)訊飛聯合中國科(ke)學技術大(da)(da)學語(yu)(yu)音及語(yu)(yu)言(yan)信息處理國家工(gong)程研(yan)究中心迎難而上,在該項任務中一(yi)舉(ju)拿下三個子賽(sai)道冠(guan)軍。
我們先拆解一下MuticoNER這個詞,Muti是multilingual(多語言)的簡稱,Co即是complex(復(fu)雜(za)),而NER則是Named Entity Recognition,又稱作“命名(ming)實體識(shi)別”,是指識(shi)別文(wen)本(ben)中具有特定意義(yi)的實體,主(zhu)要包括人名(ming)、地名(ming)、機構(gou)名(ming)、專有名(ming)詞等。
該(gai)(gai)任務(wu)是一(yi)個(ge)多(duo)語(yu)言賽(sai)道數據(ju)(ju)(ju)集,包含(han)11項(xiang)單獨語(yu)言命(ming)名實體(ti)評測(ce)任務(wu),以及(ji)2項(xiang)多(duo)語(yu)言統一(yi)建模的(de)評測(ce)任務(wu)。該(gai)(gai)榜單數據(ju)(ju)(ju)來源于(yu)Wikidata(維基數據(ju)(ju)(ju)),數據(ju)(ju)(ju)量龐大且極具應(ying)用(yong)價值(zhi)。參賽(sai)團隊需(xu)要在單個(ge)語(yu)言以及(ji)多(duo)個(ge)語(yu)言混合的(de)文本數據(ju)(ju)(ju)中(zhong),精準預(yu)測(ce)不(bu)同(tong)語(yu)言實體(ti)的(de)類別標簽。該(gai)(gai)任務(wu)采用(yong)國際通(tong)用(yong)的(de)槽位F1評價指(zhi)標, 我們在多(duo)語(yu)言混合、中(zhong)文、孟加拉語(yu)賽(sai)道上,分別以92.9%、81.6%、84.2%的(de)F1成績登頂。
這項任務究竟有多難?舉個例子:NER是指從用戶文本中按照業務需求識別出實體的類別,之前任務基本上一句話中僅會出現一到兩個實體,本次任務需要抽出多實體增加實體抽取難度,同時需要具備多語種能力,例如【(皇馬)[organization]除了首輪負于[克星拉科](organization)以外,現在已是四連勝。(Rafael van der Vaart)[PER]、(Gonzalo Higuaín)[PER]和(he)(Arjen Robben)[PER]的表(biao)現出色。】既(ji)要(yao)識(shi)別出多個相(xiang)關實(shi)體,同時是各(ge)語(yu)種夾雜的文本。
此(ci)前針對中文和(he)英文需要(yao)單獨進行模型建模,此(ci)次有關(guan)賽(sai)道的挑(tiao)戰(zhan)是僅使(shi)用一個模型來(lai)可以完成(cheng)不同語(yu)種任(ren)務,能夠快(kuai)速識別復(fu)雜、專有詞匯(hui),提高準(zhun)確率。
拒絕紙上談兵,技術應用要落地
當前(qian),人(ren)(ren)類已進入“人(ren)(ren)、機、物”智(zhi)能互聯(lian)時代,智(zhi)能語音(yin)是這(zhe)個(ge)時代最為(wei)關鍵(jian)的入口之一(yi),有助于(yu)實現語言大互通,建(jian)設(she)人(ren)(ren)類命運共同體。科大訊(xun)飛始終保持初(chu)心(xin)、堅持源頭核心(xin)技術(shu)創新,在(zai)語音(yin)、語義(yi)等國際賽事中為(wei)國爭光。
在(zai)2021年11月舉辦的(de)國(guo)際低資(zi)源多(duo)種(zhong)(zhong)語(yu)(yu)(yu)音識別競賽OpenASR中,科(ke)大(da)訊飛參(can)加了(le)所(suo)有(you)15個語(yu)(yu)(yu)種(zhong)(zhong)受限賽道和(he)7個語(yu)(yu)(yu)種(zhong)(zhong)非受限賽道,并全部(bu)取(qu)得了(le)第一名,而在(zai)SemEval2022多(duo)語(yu)(yu)(yu)種(zhong)(zhong)NLP領域中取(qu)得佳績也(ye)標(biao)志著(zhu)科(ke)大(da)訊飛在(zai)多(duo)語(yu)(yu)(yu)言(yan)理解與跨(kua)語(yu)(yu)(yu)言(yan)遷移(yi)能(neng)力(li)再上新臺階,從多(duo)語(yu)(yu)(yu)種(zhong)(zhong)語(yu)(yu)(yu)音到多(duo)語(yu)(yu)(yu)種(zhong)(zhong)語(yu)(yu)(yu)言(yan)都有(you)著(zhu)頂(ding)尖技(ji)術(shu)實力(li)。
而在2022年的北京冬奧會(hui)和冬殘奧會(hui)上,科大訊飛(fei)作為“官方自(zi)動(dong)語音轉換與翻譯獨家(jia)供應(ying)商(shang)”,為所有觀眾展現了一場“無障(zhang)礙溝(gou)通”的體育盛會(hui)。
基于強大的(de)多語(yu)種(zhong)語(yu)音(yin)(yin)語(yu)言技術(shu),我們可以做(zuo)到語(yu)種(zhong)足夠全、翻(fan)譯(yi)足夠準、反應足夠快,支持包括冬奧(ao)體育在內的(de)16大行業領域(yu)翻(fan)譯(yi),在冬奧(ao)應用(yong)(yong)場景(jing)下(xia),中文(wen)與(yu)英(ying)/俄/法/西(xi)/日等重(zhong)點語(yu)種(zhong)的(de)翻(fan)譯(yi)準確率超過(guo)90%,平(ping)均每句(ju)語(yu)音(yin)(yin)翻(fan)譯(yi)響(xiang)應時間不超過(guo)1.5秒,一(yi)方(fang)面幫(bang)助(zhu)各國觀眾(zhong)、游客快速(su)掌(zhang)握賽事信息(xi),另一(yi)方(fang)面我們特別希望幫(bang)助(zhu)聽(ting)障(zhang)人士運用(yong)(yong)科技的(de)手段聽(ting)得(de)見奧(ao)運文(wen)字,看(kan)得(de)見奧(ao)運聲音(yin)(yin)。
值得一(yi)(yi)(yi)提的是,科(ke)大(da)訊飛AI虛擬人“愛(ai)(ai)加(i+)”也成為了冬(dong)(dong)奧(ao)(ao)會(hui)的一(yi)(yi)(yi)名“虛擬志愿者”。在(zai)北京冬(dong)(dong)奧(ao)(ao)小屋中,愛(ai)(ai)加可以(yi)用多(duo)種(zhong)語(yu)(yu)言(yan)(yan)與各國運動(dong)(dong)員進行(xing)(xing)面(mian)(mian)(mian)對面(mian)(mian)(mian)的交流,助力(li)冬(dong)(dong)奧(ao)(ao)的無障礙(ai)溝通(tong)。科(ke)大(da)訊飛運用語(yu)(yu)音(yin)識別(bie)、語(yu)(yu)音(yin)合成、口唇(chun)驅動(dong)(dong)、面(mian)(mian)(mian)部驅動(dong)(dong)、肢(zhi)體動(dong)(dong)作(zuo)驅動(dong)(dong)等多(duo)項核心技術(shu),打造(zao)出虛擬形象自動(dong)(dong)化(hua)內容生產(chan)方案,讓虛擬人不(bu)僅會(hui)說(shuo)普通(tong)話(hua)(hua),同時(shi)支持31種(zhong)語(yu)(yu)言(yan)(yan)及(ji)方言(yan)(yan),是不(bu)折不(bu)扣的“語(yu)(yu)言(yan)(yan)通(tong)”,不(bu)僅能(neng)進行(xing)(xing)面(mian)(mian)(mian)對面(mian)(mian)(mian)的冬(dong)(dong)奧(ao)(ao)賽事、賽程實時(shi)互(hu)動(dong)(dong)交流,還(huan)能(neng)陪你玩(wan)一(yi)(yi)(yi)把冬(dong)(dong)奧(ao)(ao)知識游戲大(da)PK,周邊(bian)交通(tong)、文化(hua)、旅游等咨詢問答也不(bu)在(zai)話(hua)(hua)下。
除此之外,在(zai)教育、醫(yi)療、司法等(deng)場景中(zhong)的(de)各類行(xing)業人工智能應用中(zhong),多語(yu)(yu)種語(yu)(yu)音交互系(xi)統都將(jiang)發(fa)揮(hui)重要作(zuo)用。經(jing)過(guo)多年的(de)技術(shu)積累(lei),除了(le)中(zhong)英以外,當前(qian)科大訊飛已經(jing)具備其他69種語(yu)(yu)言的(de)語(yu)(yu)音識(shi)別(bie)能力,其中(zhong)已經(jing)有(you)35個語(yu)(yu)種準確率已經(jing)超過(guo)90%,并已在(zai)新加坡、俄(e)羅(luo)斯、印度、日本等(deng)國家部署了(le)海外站點,將(jiang)持續為海內(nei)外開發(fa)者提(ti)供語(yu)(yu)音識(shi)別(bie)、語(yu)(yu)音合成、機器(qi)翻譯(yi)、圖文識(shi)別(bie)等(deng)語(yu)(yu)音語(yu)(yu)言服務(wu)。
如何(he)更好地研(yan)發包括中文在內的多語(yu)(yu)種語(yu)(yu)音及語(yu)(yu)言技(ji)術(shu)的AI能力并實現大(da)規模應用落(luo)地,如何(he)更好地用人工智能技(ji)術(shu)服務社會、建設美(mei)好世(shi)界(jie),是我們(men)不斷奮斗努力的方向。
未來,科大(da)訊飛(fei)將不斷開展(zhan)人工(gong)智(zhi)能源頭技術創新(xin),助力中國人工(gong)智(zhi)能在(zai)全球贏得(de)話語權,實現(xian)更多人工(gong)智(zhi)能創新(xin)應用真正解決(jue)社(she)會剛需,蓬勃向(xiang)上,生生不息。