聲紋識別原理
聲紋是(shi)用(yong)電聲學儀器顯示的(de)(de)(de)攜帶言(yan)語(yu)信(xin)息的(de)(de)(de)聲波頻譜(pu)(pu)。人(ren)(ren)類語(yu)言(yan)的(de)(de)(de)產生是(shi)人(ren)(ren)體語(yu)言(yan)中(zhong)樞與(yu)發音器官之間一個復(fu)雜(za)的(de)(de)(de)生理物理過程,人(ren)(ren)在講話(hua)時使用(yong)的(de)(de)(de)發聲器官--舌、牙齒、喉頭(tou)、肺(fei)、鼻腔在尺寸(cun)和形態方面每個人(ren)(ren)的(de)(de)(de)差(cha)異很大,所(suo)以任何兩個人(ren)(ren)的(de)(de)(de)聲紋圖譜(pu)(pu)都有差(cha)異。這也(ye)使得聲紋識別也(ye)可(ke)以稱為身(shen)份認證(zheng)的(de)(de)(de)一種方式。
聲紋識別優缺點
1、聲(sheng)紋(wen)識別的優勢在于(yu):
(1)聲紋提取方便,可在不知不覺中完(wan)成,因此(ci)使用者(zhe)的接受程度也(ye)高;
(2)獲取語音的識別成本(ben)低廉,使用簡單,一個麥克風即可,在使用通(tong)訊設備(bei)時更(geng)無需額外的錄音設備(bei);
(3)適合遠程身份確認,只需要一個麥克風或電話、手機就可以通過網(wang)路(通訊網(wang)絡或(huo)互聯網(wang)絡)實現遠程登錄;
(4)聲(sheng)紋辨認和確認的算法復雜(za)度(du)低;
(5)配(pei)合一些(xie)其他(ta)措(cuo)施(shi),如通(tong)過語音識別(bie)進行內(nei)容鑒別(bie)等,可(ke)以提高準(zhun)確率。這(zhe)些(xie)優勢使得(de)聲紋識別(bie)的應(ying)用越(yue)來越(yue)受到系統開發者和用戶青睞。
2、聲紋識別的缺點:
當然,聲紋(wen)識別的(de)(de)應(ying)用有一(yi)些缺點,比(bi)如同一(yi)個人(ren)(ren)的(de)(de)聲音具有易變性,易受身體(ti)狀況、年齡、情緒等(deng)的(de)(de)影(ying)響;比(bi)如不同的(de)(de)麥克(ke)風(feng)和信道對(dui)識別性能(neng)有影(ying)響;比(bi)如環境噪(zao)音對(dui)識別有干擾;又(you)比(bi)如混合說話人(ren)(ren)的(de)(de)情形下人(ren)(ren)的(de)(de)聲紋(wen)特征不易提取等(deng)等(deng)。
聲紋識別的過程
聲(sheng)紋(wen)識別(bie)的過程包括(kuo):語(yu)音信號處理、聲(sheng)紋(wen)特征(zheng)提(ti)取、聲(sheng)紋(wen)建模、聲(sheng)紋(wen)比對、判別(bie)決策等。
聲紋識別匹配模式
聲紋識別技術的關鍵在(zai)于對各種聲學特(te)征參數進行處理,并確定(ding)模(mo)式(shi)匹(pi)配(pei)方法(fa),主要的模(mo)式(shi)匹(pi)配(pei)方法(fa)包括(kuo):
1、模板匹配方法(fa):利用動態(tai)時間彎折(DTW)以對準訓練和測試特征序列,主要用于(yu)固定詞組的應用(通常(chang)為(wei)文本相關(guan)任務);
2、最近(jin)鄰(lin)方法:訓練時保留(liu)所有特征矢量(liang)(liang)(liang),識(shi)(shi)別時對每(mei)個矢量(liang)(liang)(liang)都(dou)找到(dao)訓練矢量(liang)(liang)(liang)中最近(jin)的K個,據此進行識(shi)(shi)別,通常模型存儲和相似計算的量(liang)(liang)(liang)都(dou)很大(da);
3、神經網絡方法(fa):有(you)很(hen)多種形式,如多層感知、徑向基(ji)函(han)數(RBF)等,可(ke)以顯(xian)式訓(xun)練(lian)以區分說話人和其(qi)背景說話人,其(qi)訓(xun)練(lian)量很(hen)大,且模型的可(ke)推廣性不好;
5、VQ聚(ju)類方(fang)法(fa)(如LBG):效(xiao)果比較好(hao),算法(fa)復雜度也(ye)不高,和HMM方(fang)法(fa)配合(he)起(qi)來更可以(yi)收(shou)到更好(hao)的效(xiao)果;
6、多項式分類器(qi)方法:有較(jiao)高的精(jing)度(du),但(dan)模型存儲和計算量(liang)都(dou)比較(jiao)大;
此(ci)外還有概率統(tong)計方(fang)法、動態時間規(gui)整方(fang)法、矢量(liang)量(liang)化(hua)方(fang)法等等。
聲紋識別技術的難點
目前,聲紋識別技(ji)術的市場(chang)應(ying)用(yong)并(bing)不(bu)廣泛,,但并(bing)非這項(xiang)技(ji)術本(ben)身不(bu)成熟,而(er)是由于實(shi)際商業應(ying)用(yong)場(chang)景的復雜性,很可能導致(zhi)身份識別產(chan)生較大(da)誤差。
首(shou)先,說話(hua)人的(de)語(yu)音聲(sheng)學特征不可(ke)避(bi)免地具有發展性和(he)變(bian)異性,既(ji)便是(shi)(shi)同一個人,即便采集到(dao)的(de)兩段語(yu)音內容都(dou)是(shi)(shi)相同的(de),但(dan)是(shi)(shi)在不同的(de)時期或特殊的(de)情境下,由于情緒(xu)、語(yu)速、疲勞程度(du)等原因(yin),聲(sheng)紋特征也不盡一致;
其次,聲(sheng)紋特征提取是在(zai)現實環(huan)境中進行的(de)(de),如何降(jiang)噪以及去(qu)混響依然是聲(sheng)紋識(shi)別的(de)(de)一(yi)(yi)大難題。在(zai)外部環(huan)境中,各種噪音(yin)都會(hui)通過(guo)錄(lu)音(yin)設(she)備(bei)采集進來,這些噪音(yin)會(hui)在(zai)一(yi)(yi)定程度上混淆或者淹沒說話(hua)(hua)人(ren)信息,使得(de)聲(sheng)紋系統無法(fa)獲取準確的(de)(de)說話(hua)(hua)人(ren)聲(sheng)紋特征。因(yin)此,應用聲(sheng)紋識(shi)別技術(shu)的(de)(de)產(chan)品大多適(shi)合在(zai)相(xiang)對安(an)靜的(de)(de)場(chang)合使用。