蘋果

華為

歐珀

小米

VIVO

佳能

優學派

大疆

惠普

戴爾

科大訊飛拿下SemEval三項冠軍，多語種語言理解再上新臺階

本文章由注冊用戶沉靜時光上傳提供 2024-05-22 ☆ 評論 0

摘要：第十六屆國際語義評測大賽落下帷幕，科大訊飛在三項主要賽道中拿下冠軍，標志著科大訊飛在多語種語言理解領域持續進階。未來，科大訊飛將不斷開展人工智能源頭技術創新，助力中國人工智能在全球贏得話語權，實現更多人工智能創新應用真正解決社會剛需，蓬勃向上，生生不息。

2022年4月，第十(shi)六屆(jie)國際語義(yi)評(ping)測(ce)（The 16th International Workshop on Semantic Evaluation， SemEval 2022）大(da)賽落下帷(wei)幕(mu)，科(ke)大(da)訊飛在三項主要賽道中拿(na)下冠軍，標志著(zhu)科(ke)大(da)訊飛在多(duo)語種語言理解領(ling)域持續進階。

SemEval 2022評測由國(guo)際計算語(yu)言學協(xie)會（Association for Computational Linguistics， ACL）旗下(xia)SIGLEX主辦，參賽者覆蓋國(guo)內、外一流(liu)高(gao)校及知(zhi)名企(qi)業，包括達特茅斯學院、謝菲爾(er)德大學、華(hua)為、阿里達摩院等，代(dai)表著最前沿國(guo)際技(ji)術和水平(ping)。

經過(guo)角逐，科大訊飛分別(bie)在“多(duo)語種新聞相(xiang)似度評(ping)測(ce)任務(wu)”（Task 8）、“多(duo)語種慣用語識別(bie)任務(wu)” 子賽道（Task 2： Subtask A one-shot）、“多(duo)語種復雜命名實體(ti)識別(bie)任務(wu)”（Task 11）三(san)個(ge)子賽道中拿下冠(guan)軍(jun)。

新聞相似度評價：目光如炬

本次SemEval 2022評測聚焦的Task 8是多語種新聞相似度評價任務。科(ke)大訊(xun)(xun)飛與哈(ha)爾濱工(gong)業大學聯(lian)合(he)組建的“哈(ha)工(gong)大訊(xun)(xun)飛聯(lian)合(he)實(shi)驗室”（Joint Laboratory of HIT and iFLYTEK Research，簡(jian)稱HFL）以(yi)顯著(zhu)優勢摘得冠軍。

簡(jian)單(dan)來說，參賽(sai)隊(dui)伍(wu)需要在每組新聞(wen)中(zhong)判斷(duan)是否(fou)描(miao)述了同一(yi)個事件，并以1-4分為(wei)兩(liang)篇(pian)新聞(wen)的相似度打分，其中(zhong)包含了多達10種語言，分別為(wei)阿拉伯(bo)語、德語、英語、西(xi)班牙(ya)語、法語、意(yi)大(da)利語、波蘭(lan)語、俄語、土耳(er)其語和中(zhong)文。但新聞(wen)相似度究竟是什么？讓我(wo)們(men)用一(yi)則(ze)示例為(wei)大(da)家(jia)解讀。

圖中(zhong)列舉了兩篇相(xiang)似(si)(si)度極(ji)高的新聞稿(gao)件，參賽隊(dui)伍必須(xu)將(jiang)文(wen)(wen)中(zhong)相(xiang)似(si)(si)的主(zhu)要元(yuan)素剝(bo)離出來(lai)并逐一分析，比如地理(li)信息(xi)、敘事技巧、實體、語氣、時間及風格(ge)，最終得(de)出兩篇文(wen)(wen)章的相(xiang)似(si)(si)度與差異(yi)化。

與普(pu)通(tong)(tong)的(de)文章相(xiang)比(bi)，該項比(bi)賽更強調跨(kua)語言理(li)解能力，除了寫作風格和敘述方(fang)式外，還需要把握文章中描述的(de)具體事件。通(tong)(tong)俗(su)來說，該項技術可以甄別外網的(de)一些新聞報道是否存在(zai)偏差(cha)與曲解，從而(er)有效預(yu)防虛假信息、不良信息的(de)傳播。

科(ke)大訊飛在這樣的(de)賽道上拔得頭籌，充分展示了在跨(kua)語(yu)言(yan)理解(jie)能力上的(de)強硬實力。

慣用語檢測：熟能生巧

哈工大訊飛聯合(he)實驗室拿(na)下的(de)第二項任務(wu)冠(guan)軍，便是(shi)Task2 Subtask A的(de)慣用(yong)語(yu)(yu)檢測(ce)。通俗(su)來說，無論你是(shi)哪(na)國人，在日常表達中(zhong)都(dou)有(you)一類(lei)短(duan)語(yu)(yu)的(de)固(gu)定用(yong)法(fa)，并且該(gai)固(gu)定用(yong)法(fa)通常與短(duan)語(yu)(yu)的(de)字面語(yu)(yu)義不同，我們會將這(zhe)些短(duan)語(yu)(yu)稱為(wei)“慣用(yong)語(yu)(yu)”。想要理解(jie)包(bao)含慣用(yong)語(yu)(yu)的(de)句子，首先需要判(pan)斷句子中(zhong)的(de)多字短(duan)語(yu)(yu)是(shi)否(fou)為(wei)慣用(yong)語(yu)(yu)，比如“說曹操(cao)，曹操(cao)到。”句中(zhong)的(de)曹操(cao)是(shi)否(fou)真實存在。

該任(ren)務(wu)的形式(shi)便是(shi)給定一個目標(biao)語(yu)(yu)句(ju)，包括其上(shang)下文和多字短(duan)語(yu)(yu)，繼而判斷該語(yu)(yu)句(ju)中(zhong)的多字短(duan)語(yu)(yu)用法究竟是(shi)慣用語(yu)(yu)還是(shi)字面意思。該任(ren)務(wu)為多語(yu)(yu)言(yan)任(ren)務(wu)，包含英語(yu)(yu)、葡萄(tao)牙語(yu)(yu)、加利(li)西(xi)亞語(yu)(yu)三種(zhong)語(yu)(yu)言(yan)。其中(zhong)加利(li)西(xi)亞語(yu)(yu)沒有在訓(xun)練集中(zhong)出(chu)現(xian)過(guo)，因此科(ke)大(da)訊飛代表隊需要在不同語(yu)(yu)言(yan)之間進行遷移學習。

還是不懂？別擔心，讓(rang)我(wo)們(men)來(lai)看一則示例(li)。

如例所(suo)示(shi)，Literal表(biao)示(shi)字(zi)(zi)面意思，第一句話可翻譯為(wei)：當你從(cong)網中抓一條大魚時，最好撐住(zhu)它的腰。Idiomatic表(biao)示(shi)慣用語，所(suo)以第二句話中再次出現了大魚一詞，但卻不是(shi)簡單的字(zi)(zi)面意思，而是(shi)“大人物”。

所以該(gai)任務要求參賽隊伍區分不(bu)同(tong)句子(zi)中(zhong)同(tong)一個(ge)詞的不(bu)同(tong)語義(yi)，這需要強大的分析及跨語言理解(jie)能力(li)。有(you)了該(gai)項技術，在日常(chang)寫(xie)作和翻譯工作中(zhong)，即可有(you)效鑒別慣用語的表達用意，極大提(ti)高內容準(zhun)確(que)率。

科大訊飛不負(fu)眾望(wang)，再摘(zhai)桂冠。

復雜命名實體識別：披荊斬棘

這第三冠(guan)有多(duo)難？光聽名字就覺得復雜：多(duo)語(yu)(yu)種(zhong)復雜命名實體識別任務（MutiCoNER）。科(ke)大(da)(da)訊飛聯合中國科(ke)學技術大(da)(da)學語(yu)(yu)音及語(yu)(yu)言(yan)信息處理國家工(gong)程研(yan)究中心迎難而上，在該項任務中一(yi)舉(ju)拿下三個子賽(sai)道冠(guan)軍。

我們先拆解一下MuticoNER這個詞，Muti是multilingual（多語言）的簡稱，Co即是complex（復(fu)雜(za)），而NER則是Named Entity Recognition，又稱作“命名(ming)實體識(shi)別”，是指識(shi)別文(wen)本(ben)中具有特定意義(yi)的實體，主(zhu)要包括人名(ming)、地名(ming)、機構(gou)名(ming)、專有名(ming)詞等。

該(gai)(gai)任務(wu)是一(yi)個(ge)多(duo)語(yu)言賽(sai)道數據(ju)(ju)(ju)集，包含(han)11項(xiang)單獨語(yu)言命(ming)名實體(ti)評測(ce)任務(wu)，以及(ji)2項(xiang)多(duo)語(yu)言統一(yi)建模的(de)評測(ce)任務(wu)。該(gai)(gai)榜單數據(ju)(ju)(ju)來源于(yu)Wikidata（維基數據(ju)(ju)(ju)），數據(ju)(ju)(ju)量龐大且極具應(ying)用(yong)價值(zhi)。參賽(sai)團隊需(xu)要在單個(ge)語(yu)言以及(ji)多(duo)個(ge)語(yu)言混合的(de)文本數據(ju)(ju)(ju)中(zhong)，精準預(yu)測(ce)不(bu)同(tong)語(yu)言實體(ti)的(de)類別標簽。該(gai)(gai)任務(wu)采用(yong)國際通(tong)用(yong)的(de)槽位F1評價指(zhi)標，我們在多(duo)語(yu)言混合、中(zhong)文、孟加拉語(yu)賽(sai)道上，分別以92.9%、81.6%、84.2%的(de)F1成績登頂。

這項任務究竟有多難？舉個例子：NER是指從用戶文本中按照業務需求識別出實體的類別，之前任務基本上一句話中僅會出現一到兩個實體，本次任務需要抽出多實體增加實體抽取難度，同時需要具備多語種能力，例如【（皇馬）[organization]除了首輪負于[克星拉科]（organization）以外，現在已是四連勝。（Rafael van der Vaart）[PER]、（Gonzalo Higuaín）[PER]和(he)(Arjen Robben）[PER]的表(biao)現出色。】既(ji)要(yao)識(shi)別出多個相(xiang)關實(shi)體，同時是各(ge)語(yu)種夾雜的文本。

此(ci)前針對中文和(he)英文需要(yao)單獨進行模型建模，此(ci)次有關(guan)賽(sai)道的挑(tiao)戰(zhan)是僅使(shi)用一個模型來(lai)可以完成(cheng)不同語(yu)種任(ren)務，能夠快(kuai)速識別復(fu)雜、專有詞匯(hui)，提高準(zhun)確率。

拒絕紙上談兵，技術應用要落地

當前(qian)，人(ren)(ren)類已進入“人(ren)(ren)、機、物”智(zhi)能互聯(lian)時代，智(zhi)能語音(yin)是這(zhe)個(ge)時代最為(wei)關鍵(jian)的入口之一(yi)，有助于(yu)實現語言大互通，建(jian)設(she)人(ren)(ren)類命運共同體。科大訊(xun)飛始終保持初(chu)心(xin)、堅持源頭核心(xin)技術(shu)創新，在(zai)語音(yin)、語義(yi)等國際賽事中為(wei)國爭光。

在(zai)2021年11月舉辦的(de)國(guo)際低資(zi)源多(duo)種(zhong)(zhong)語(yu)(yu)(yu)音識別競賽OpenASR中，科(ke)大(da)訊飛參(can)加了(le)所(suo)有(you)15個語(yu)(yu)(yu)種(zhong)(zhong)受限賽道和(he)7個語(yu)(yu)(yu)種(zhong)(zhong)非受限賽道，并全部(bu)取(qu)得了(le)第一名，而在(zai)SemEval2022多(duo)語(yu)(yu)(yu)種(zhong)(zhong)NLP領域中取(qu)得佳績也(ye)標(biao)志著(zhu)科(ke)大(da)訊飛在(zai)多(duo)語(yu)(yu)(yu)言(yan)理解與跨(kua)語(yu)(yu)(yu)言(yan)遷移(yi)能(neng)力(li)再上新臺階，從多(duo)語(yu)(yu)(yu)種(zhong)(zhong)語(yu)(yu)(yu)音到多(duo)語(yu)(yu)(yu)種(zhong)(zhong)語(yu)(yu)(yu)言(yan)都有(you)著(zhu)頂(ding)尖技(ji)術(shu)實力(li)。

而在2022年的北京冬奧會(hui)和冬殘奧會(hui)上，科大訊飛(fei)作為“官方自(zi)動(dong)語音轉換與翻譯獨家(jia)供應(ying)商(shang)”，為所有觀眾展現了一場“無障(zhang)礙溝(gou)通”的體育盛會(hui)。

基于強大的(de)多語(yu)種(zhong)語(yu)音(yin)(yin)語(yu)言技術(shu)，我們可以做(zuo)到語(yu)種(zhong)足夠全、翻(fan)譯(yi)足夠準、反應足夠快，支持包括冬奧(ao)體育在內的(de)16大行業領域(yu)翻(fan)譯(yi)，在冬奧(ao)應用(yong)(yong)場景(jing)下(xia)，中文(wen)與(yu)英(ying)/俄/法/西(xi)/日等重(zhong)點語(yu)種(zhong)的(de)翻(fan)譯(yi)準確率超過(guo)90%，平(ping)均每句(ju)語(yu)音(yin)(yin)翻(fan)譯(yi)響(xiang)應時間不超過(guo)1.5秒，一(yi)方(fang)面幫(bang)助(zhu)各國觀眾(zhong)、游客快速(su)掌(zhang)握賽事信息(xi)，另一(yi)方(fang)面我們特別希望幫(bang)助(zhu)聽(ting)障(zhang)人士運用(yong)(yong)科技的(de)手段聽(ting)得(de)見奧(ao)運文(wen)字，看(kan)得(de)見奧(ao)運聲音(yin)(yin)。

值得一(yi)(yi)(yi)提的是，科(ke)大(da)訊飛AI虛擬人“愛(ai)(ai)加（i+）”也成為了冬(dong)(dong)奧(ao)(ao)會(hui)的一(yi)(yi)(yi)名“虛擬志愿者”。在(zai)北京冬(dong)(dong)奧(ao)(ao)小屋中，愛(ai)(ai)加可以(yi)用多(duo)種(zhong)語(yu)(yu)言(yan)(yan)與各國運動(dong)(dong)員進行(xing)(xing)面(mian)(mian)(mian)對面(mian)(mian)(mian)的交流，助力(li)冬(dong)(dong)奧(ao)(ao)的無障礙(ai)溝通(tong)。科(ke)大(da)訊飛運用語(yu)(yu)音(yin)識別(bie)、語(yu)(yu)音(yin)合成、口唇(chun)驅動(dong)(dong)、面(mian)(mian)(mian)部驅動(dong)(dong)、肢(zhi)體動(dong)(dong)作(zuo)驅動(dong)(dong)等多(duo)項核心技術(shu)，打造(zao)出虛擬形象自動(dong)(dong)化(hua)內容生產(chan)方案，讓虛擬人不(bu)僅會(hui)說(shuo)普通(tong)話(hua)(hua)，同時(shi)支持31種(zhong)語(yu)(yu)言(yan)(yan)及(ji)方言(yan)(yan)，是不(bu)折不(bu)扣的“語(yu)(yu)言(yan)(yan)通(tong)”，不(bu)僅能(neng)進行(xing)(xing)面(mian)(mian)(mian)對面(mian)(mian)(mian)的冬(dong)(dong)奧(ao)(ao)賽事、賽程實時(shi)互(hu)動(dong)(dong)交流，還(huan)能(neng)陪你玩(wan)一(yi)(yi)(yi)把冬(dong)(dong)奧(ao)(ao)知識游戲大(da)PK，周邊(bian)交通(tong)、文化(hua)、旅游等咨詢問答也不(bu)在(zai)話(hua)(hua)下。

除此之外，在(zai)教育、醫(yi)療、司法等(deng)場景中(zhong)的(de)各類行(xing)業人工智能應用中(zhong)，多語(yu)(yu)種語(yu)(yu)音交互系(xi)統都將(jiang)發(fa)揮(hui)重要作(zuo)用。經(jing)過(guo)多年的(de)技術(shu)積累(lei)，除了(le)中(zhong)英以外，當前(qian)科大訊飛已經(jing)具備其他69種語(yu)(yu)言的(de)語(yu)(yu)音識(shi)別(bie)能力，其中(zhong)已經(jing)有(you)35個語(yu)(yu)種準確率已經(jing)超過(guo)90%，并已在(zai)新加坡、俄(e)羅(luo)斯、印度、日本等(deng)國家部署了(le)海外站點，將(jiang)持續為海內(nei)外開發(fa)者提(ti)供語(yu)(yu)音識(shi)別(bie)、語(yu)(yu)音合成、機器(qi)翻譯(yi)、圖文識(shi)別(bie)等(deng)語(yu)(yu)音語(yu)(yu)言服務(wu)。

如何(he)更好地研(yan)發包括中文在內的多語(yu)(yu)種語(yu)(yu)音及語(yu)(yu)言技(ji)術(shu)的AI能力并實現大(da)規模應用落(luo)地，如何(he)更好地用人工智能技(ji)術(shu)服務社會、建設美(mei)好世(shi)界(jie)，是我們(men)不斷奮斗努力的方向。

未來，科大(da)訊飛(fei)將不斷開展(zhan)人工(gong)智(zhi)能源頭技術創新(xin)，助力中國人工(gong)智(zhi)能在(zai)全球贏得(de)話語權，實現(xian)更多人工(gong)智(zhi)能創新(xin)應用真正解決(jue)社(she)會剛需，蓬勃向(xiang)上，生生不息。

標簽： 人工智能世界科技世界語言世界國家科技數碼

網站提醒和聲明

本(ben)站為注(zhu)冊用戶提供(gong)信息(xi)存儲空間服務，非(fei)“MAIGOO編輯”、“MAIGOO榜單研(yan)究員”、“MAIGOO文(wen)章(zhang)編輯員”上(shang)(shang)傳提供(gong)的(de)文(wen)章(zhang)/文(wen)字均是注(zhu)冊用戶自主發布(bu)上(shang)(shang)傳，不代表本(ben)站觀點，版權歸(gui)原(yuan)作者所有，如(ru)有侵權、虛假信息(xi)、錯誤信息(xi)或任何問題，請及時聯系我(wo)們，我(wo)們將在第一時間刪除或更正。申請刪除>> 糾錯>> 投訴侵權>> 網(wang)頁上相關信息(xi)的知識產權歸網(wang)站方所(suo)有(包(bao)括但不限于文字、圖(tu)片、圖(tu)表(biao)、著作(zuo)權、商(shang)標權、為用(yong)戶提供的商(shang)業信息(xi)等)，非經許可不得抄襲(xi)或使用(yong)。

提交說明：快速提交發布>> 提交資訊幫助>> 注冊登錄>>