2022年(nian)4月,第十六屆國際語(yu)義評(ping)測(The 16th International Workshop on Semantic Evaluation, SemEval 2022)大賽落下帷(wei)幕,科大訊飛在三項主要賽道中拿下冠軍,標(biao)志著(zhu)科大訊飛在多語(yu)種語(yu)言(yan)理(li)解領(ling)域(yu)持續進階。
SemEval 2022評測由國(guo)際(ji)(ji)計算語言學(xue)協會(Association for Computational Linguistics, ACL)旗下SIGLEX主(zhu)辦,參賽者覆蓋國(guo)內、外一流高校及(ji)知(zhi)名企(qi)業,包括達(da)特(te)茅斯學(xue)院、謝(xie)菲爾德大(da)學(xue)、華為、阿里達(da)摩院等,代表著(zhu)最前沿國(guo)際(ji)(ji)技術(shu)和水平。
經過角逐,科大訊飛(fei)分別在“多(duo)語(yu)(yu)種新(xin)聞相似度評測任(ren)務”(Task 8)、“多(duo)語(yu)(yu)種慣(guan)用(yong)語(yu)(yu)識別任(ren)務” 子賽(sai)道(Task 2: Subtask A one-shot)、“多(duo)語(yu)(yu)種復雜(za)命名實體識別任(ren)務”(Task 11)三個子賽(sai)道中拿(na)下冠軍。
新聞相似度評價:目光如炬
本次SemEval 2022評(ping)測(ce)聚焦的Task 8是多語種新聞相似度評(ping)價任務。科大訊(xun)飛與哈爾濱工業(ye)大學(xue)聯合(he)組建的“哈工大訊(xun)飛聯合(he)實驗室”(Joint Laboratory of HIT and iFLYTEK Research,簡稱HFL)以顯著優勢摘得(de)冠軍。
簡(jian)單來說,參賽(sai)隊伍需要在每組新(xin)聞(wen)(wen)中(zhong)判斷是(shi)否描(miao)述了同一(yi)個事件,并以1-4分(fen)為(wei)兩篇新(xin)聞(wen)(wen)的相似度(du)(du)打分(fen),其(qi)中(zhong)包含了多達10種語(yu)(yu)(yu)(yu)言,分(fen)別(bie)為(wei)阿拉(la)伯(bo)語(yu)(yu)(yu)(yu)、德語(yu)(yu)(yu)(yu)、英語(yu)(yu)(yu)(yu)、西班牙(ya)語(yu)(yu)(yu)(yu)、法語(yu)(yu)(yu)(yu)、意大利語(yu)(yu)(yu)(yu)、波(bo)蘭語(yu)(yu)(yu)(yu)、俄語(yu)(yu)(yu)(yu)、土耳其(qi)語(yu)(yu)(yu)(yu)和中(zhong)文。但新(xin)聞(wen)(wen)相似度(du)(du)究竟(jing)是(shi)什么?讓我們(men)用一(yi)則示例為(wei)大家解讀。
圖中列舉了兩(liang)篇相(xiang)(xiang)似度(du)極(ji)高(gao)的(de)新聞稿件,參賽隊伍必須將(jiang)文中相(xiang)(xiang)似的(de)主要元素(su)剝(bo)離出來(lai)并(bing)逐一分析,比如地理信息、敘事技巧、實(shi)體、語氣(qi)、時間及風格,最終(zhong)得出兩(liang)篇文章的(de)相(xiang)(xiang)似度(du)與差異化。
與普(pu)通(tong)的(de)文章相比,該項(xiang)比賽更強調跨語言理解能(neng)力,除了寫(xie)作(zuo)風格和敘(xu)述(shu)(shu)方式外,還需要把握文章中描(miao)述(shu)(shu)的(de)具體事件。通(tong)俗來說,該項(xiang)技術可以(yi)甄別(bie)外網的(de)一些(xie)新聞報道是否存在偏(pian)差與曲(qu)解,從而有效預(yu)防虛假信(xin)息、不良信(xin)息的(de)傳(chuan)播。
科大(da)訊飛在(zai)這樣的賽道上拔得(de)頭籌,充分(fen)展示了在(zai)跨語言(yan)理(li)解能力上的強硬實力。
慣用語檢測:熟能生巧
哈工大訊飛聯合實驗室拿下(xia)的(de)(de)第(di)二項(xiang)任務冠軍,便(bian)是(shi)Task2 Subtask A的(de)(de)慣(guan)用(yong)(yong)語(yu)(yu)(yu)(yu)檢測。通俗來說(shuo),無論你是(shi)哪國人,在(zai)日常(chang)表(biao)達中(zhong)都(dou)有一類(lei)短語(yu)(yu)(yu)(yu)的(de)(de)固(gu)(gu)定(ding)用(yong)(yong)法,并且該固(gu)(gu)定(ding)用(yong)(yong)法通常(chang)與短語(yu)(yu)(yu)(yu)的(de)(de)字(zi)面語(yu)(yu)(yu)(yu)義(yi)不同,我們會(hui)將(jiang)這些短語(yu)(yu)(yu)(yu)稱(cheng)為“慣(guan)用(yong)(yong)語(yu)(yu)(yu)(yu)”。想(xiang)要理(li)解包含慣(guan)用(yong)(yong)語(yu)(yu)(yu)(yu)的(de)(de)句(ju)子(zi),首先(xian)需要判(pan)斷句(ju)子(zi)中(zhong)的(de)(de)多字(zi)短語(yu)(yu)(yu)(yu)是(shi)否為慣(guan)用(yong)(yong)語(yu)(yu)(yu)(yu),比如“說(shuo)曹(cao)(cao)操,曹(cao)(cao)操到。”句(ju)中(zhong)的(de)(de)曹(cao)(cao)操是(shi)否真實存在(zai)。
該(gai)任(ren)務(wu)的(de)形式便是(shi)(shi)給定(ding)一(yi)個目標語(yu)(yu)(yu)句,包括其上下(xia)文和多字短語(yu)(yu)(yu),繼而判斷該(gai)語(yu)(yu)(yu)句中(zhong)的(de)多字短語(yu)(yu)(yu)用(yong)法究竟(jing)是(shi)(shi)慣用(yong)語(yu)(yu)(yu)還是(shi)(shi)字面意思(si)。該(gai)任(ren)務(wu)為多語(yu)(yu)(yu)言(yan)(yan)任(ren)務(wu),包含英(ying)語(yu)(yu)(yu)、葡萄牙語(yu)(yu)(yu)、加利西(xi)亞語(yu)(yu)(yu)三種語(yu)(yu)(yu)言(yan)(yan)。其中(zhong)加利西(xi)亞語(yu)(yu)(yu)沒有(you)在訓練集(ji)中(zhong)出現過,因此科(ke)大訊飛(fei)代(dai)表隊(dui)需要在不同(tong)語(yu)(yu)(yu)言(yan)(yan)之間(jian)進(jin)行遷移(yi)學習。
還是不懂?別擔心,讓我們來(lai)看一則示例。
如(ru)例所示(shi),Literal表(biao)(biao)示(shi)字(zi)(zi)面(mian)意(yi)思,第(di)一句話可翻譯為:當你從(cong)網中抓一條(tiao)大(da)魚時(shi),最好撐住它(ta)的腰。Idiomatic表(biao)(biao)示(shi)慣用(yong)語(yu),所以(yi)第(di)二句話中再次出現了大(da)魚一詞,但(dan)卻不(bu)是(shi)簡單的字(zi)(zi)面(mian)意(yi)思,而(er)是(shi)“大(da)人物(wu)”。
所以(yi)該任務要求(qiu)參賽隊(dui)伍區分不同句子中同一(yi)個詞的(de)(de)不同語(yu)義,這需要強大的(de)(de)分析(xi)及跨語(yu)言理解能力。有(you)了該項技術(shu),在(zai)日常寫作(zuo)(zuo)和翻(fan)譯工(gong)作(zuo)(zuo)中,即可有(you)效鑒別慣用(yong)語(yu)的(de)(de)表達用(yong)意,極大提高內容準確率(lv)。
科(ke)大訊(xun)飛(fei)不(bu)負眾望,再摘桂冠(guan)。
復雜命名實體識別:披荊斬棘
這第三(san)冠有(you)多難?光聽名字(zi)就(jiu)覺(jue)得(de)復雜:多語種復雜命名實(shi)體識別任(ren)務(MutiCoNER)。科大訊飛聯(lian)合中(zhong)國科學技術大學語音及語言信息處理國家工程研究(jiu)中(zhong)心迎(ying)難而上,在該項任(ren)務中(zhong)一舉拿(na)下(xia)三(san)個(ge)子賽(sai)道冠軍。
我們先拆解一下MuticoNER這個詞,Muti是multilingual(多語言)的簡稱,Co即是complex(復雜),而NER則(ze)是Named Entity Recognition,又稱作“命名實體識(shi)別”,是指(zhi)識(shi)別文(wen)本中具有特定(ding)意義的實體,主要包括人名、地名、機構(gou)名、專有名詞等。
該(gai)任(ren)(ren)務(wu)(wu)是(shi)一個多(duo)(duo)語(yu)(yu)(yu)(yu)言賽道數(shu)據集(ji),包含11項單(dan)獨語(yu)(yu)(yu)(yu)言命名實體(ti)評測任(ren)(ren)務(wu)(wu),以及2項多(duo)(duo)語(yu)(yu)(yu)(yu)言統(tong)一建模的(de)(de)評測任(ren)(ren)務(wu)(wu)。該(gai)榜單(dan)數(shu)據來源于Wikidata(維基數(shu)據),數(shu)據量龐大(da)且極具應用價值。參賽團(tuan)隊需要在(zai)單(dan)個語(yu)(yu)(yu)(yu)言以及多(duo)(duo)個語(yu)(yu)(yu)(yu)言混(hun)合(he)的(de)(de)文本數(shu)據中,精準(zhun)預(yu)測不同語(yu)(yu)(yu)(yu)言實體(ti)的(de)(de)類別標簽。該(gai)任(ren)(ren)務(wu)(wu)采(cai)用國際通(tong)用的(de)(de)槽位F1評價指(zhi)標, 我們(men)在(zai)多(duo)(duo)語(yu)(yu)(yu)(yu)言混(hun)合(he)、中文、孟加拉(la)語(yu)(yu)(yu)(yu)賽道上,分別以92.9%、81.6%、84.2%的(de)(de)F1成(cheng)績登頂。
這項任務究竟有多難?舉個例子:NER是指從用戶文本中按照業務需求識別出實體的類別,之前任務基本上一句話中僅會出現一到兩個實體,本次任務需要抽出多實體增加實體抽取難度,同時需要具備多語種能力,例如【(皇馬)[organization]除了首輪負于[克星拉科](organization)以外,現在已是四連勝。(Rafael van der Vaart)[PER]、(Gonzalo Higuaín)[PER]和(Arjen Robben)[PER]的(de)表(biao)現出色(se)。】既要識別出多個相關實體,同時是各語(yu)種夾雜(za)的(de)文本(ben)。
此(ci)前針(zhen)對中文和英(ying)文需要(yao)單獨進行模(mo)型建(jian)模(mo),此(ci)次有關(guan)賽道的挑戰是僅使用一個模(mo)型來可(ke)以完成(cheng)不同語種任(ren)務,能(neng)夠快速(su)識(shi)別復雜、專(zhuan)有詞匯,提高(gao)準確(que)率。
拒絕紙上談兵,技術應用要落地
當前,人(ren)類已進入“人(ren)、機、物”智(zhi)能互聯時(shi)代(dai),智(zhi)能語音(yin)是這個時(shi)代(dai)最為(wei)關鍵的入口之一,有(you)助于實現語言大(da)互通,建設(she)人(ren)類命運共(gong)同體。科(ke)大(da)訊飛始終保持初心、堅持源頭核心技術創新(xin),在語音(yin)、語義等國(guo)際賽事中為(wei)國(guo)爭(zheng)光。
在2021年(nian)11月舉辦的國際低(di)資源多(duo)種(zhong)(zhong)語(yu)(yu)音識(shi)別(bie)競賽OpenASR中(zhong),科大(da)訊飛參加(jia)了所有(you)15個語(yu)(yu)種(zhong)(zhong)受限賽道(dao)和7個語(yu)(yu)種(zhong)(zhong)非受限賽道(dao),并全部取得了第一名,而在SemEval2022多(duo)語(yu)(yu)種(zhong)(zhong)NLP領域中(zhong)取得佳(jia)績也標志著科大(da)訊飛在多(duo)語(yu)(yu)言理解與跨語(yu)(yu)言遷移能力再上新臺階,從多(duo)語(yu)(yu)種(zhong)(zhong)語(yu)(yu)音到多(duo)語(yu)(yu)種(zhong)(zhong)語(yu)(yu)言都有(you)著頂尖(jian)技術實(shi)力。
而在2022年的(de)(de)北(bei)京冬(dong)奧(ao)會(hui)和冬(dong)殘奧(ao)會(hui)上(shang),科(ke)大(da)訊飛(fei)作為“官方自(zi)動語音(yin)轉換與翻譯獨家供應商”,為所有觀眾展現了一場“無障礙溝(gou)通”的(de)(de)體育盛(sheng)會(hui)。
基于(yu)強大(da)的(de)(de)多語種語音(yin)語言技術,我們可以(yi)做到語種足夠(gou)全(quan)、翻(fan)譯足夠(gou)準(zhun)、反應足夠(gou)快(kuai),支持(chi)包括冬(dong)奧(ao)體育在(zai)內的(de)(de)16大(da)行(xing)業領域翻(fan)譯,在(zai)冬(dong)奧(ao)應用(yong)場景(jing)下,中文(wen)與英(ying)/俄(e)/法/西/日等重點語種的(de)(de)翻(fan)譯準(zhun)確率超過90%,平均每句語音(yin)翻(fan)譯響應時間不超過1.5秒(miao),一(yi)方(fang)面(mian)幫(bang)助各國觀眾、游客快(kuai)速掌握(wo)賽事信(xin)息,另(ling)一(yi)方(fang)面(mian)我們特(te)別希望幫(bang)助聽障(zhang)人士(shi)運用(yong)科技的(de)(de)手段聽得(de)(de)見奧(ao)運文(wen)字,看得(de)(de)見奧(ao)運聲音(yin)。
值(zhi)得一提的(de)(de)是(shi),科(ke)大訊(xun)飛AI虛擬(ni)(ni)人“愛加(i+)”也成(cheng)為(wei)了冬(dong)奧會(hui)(hui)的(de)(de)一名“虛擬(ni)(ni)志愿者”。在(zai)北(bei)京冬(dong)奧小(xiao)屋中(zhong),愛加可以(yi)用多種(zhong)語(yu)言(yan)與各國運動員進行面(mian)(mian)對面(mian)(mian)的(de)(de)交(jiao)流(liu),助力冬(dong)奧的(de)(de)無障礙溝通(tong)。科(ke)大訊(xun)飛運用語(yu)音識別、語(yu)音合成(cheng)、口唇驅(qu)動、面(mian)(mian)部驅(qu)動、肢體(ti)動作(zuo)驅(qu)動等多項核(he)心技術(shu),打造出虛擬(ni)(ni)形象自動化(hua)內容生產(chan)方(fang)案,讓(rang)虛擬(ni)(ni)人不僅會(hui)(hui)說(shuo)普通(tong)話(hua),同時支持31種(zhong)語(yu)言(yan)及(ji)方(fang)言(yan),是(shi)不折不扣的(de)(de)“語(yu)言(yan)通(tong)”,不僅能(neng)進行面(mian)(mian)對面(mian)(mian)的(de)(de)冬(dong)奧賽事、賽程(cheng)實(shi)時互動交(jiao)流(liu),還能(neng)陪你玩(wan)一把冬(dong)奧知識游戲大PK,周邊交(jiao)通(tong)、文化(hua)、旅游等咨(zi)詢問答也不在(zai)話(hua)下。
除此之(zhi)外(wai)(wai),在教育、醫療、司法等場景中的各類行業人工智能應用(yong)中,多語(yu)種語(yu)音(yin)交互系統都將(jiang)發(fa)揮重要作用(yong)。經過(guo)多年的技(ji)術積(ji)累,除了中英以外(wai)(wai),當前科(ke)大訊飛已經具備其他(ta)69種語(yu)言的語(yu)音(yin)識(shi)(shi)別(bie)能力,其中已經有35個語(yu)種準確率已經超過(guo)90%,并已在新加坡、俄羅(luo)斯(si)、印度、日(ri)本等國(guo)家部署了海(hai)外(wai)(wai)站點(dian),將(jiang)持續(xu)為海(hai)內外(wai)(wai)開發(fa)者提供語(yu)音(yin)識(shi)(shi)別(bie)、語(yu)音(yin)合成、機器翻(fan)譯、圖文(wen)識(shi)(shi)別(bie)等語(yu)音(yin)語(yu)言服務。
如何(he)更好地(di)(di)研(yan)發包括中文在內的(de)多語(yu)(yu)種語(yu)(yu)音及語(yu)(yu)言技術的(de)AI能力并實現(xian)大規模(mo)應用落地(di)(di),如何(he)更好地(di)(di)用人工智能技術服(fu)務(wu)社會、建設美(mei)好世(shi)界,是(shi)我(wo)們(men)不(bu)斷(duan)奮斗(dou)努力的(de)方向。
未(wei)來,科(ke)大訊飛將不斷開展(zhan)人工(gong)智能(neng)源頭技術創(chuang)新,助(zhu)力中國人工(gong)智能(neng)在(zai)全球贏得話語權,實現(xian)更多(duo)人工(gong)智能(neng)創(chuang)新應(ying)用真正(zheng)解決社會剛(gang)需,蓬勃向上,生(sheng)生(sheng)不息。