不久前,阿里正式發(fā)布了語(yǔ)音音箱“天貓精靈X1”,它的喚醒詞,就是“天貓精靈”。 天貓精靈的價(jià)格,只需要499元人民幣。這個(gè)價(jià)錢,相比起市場(chǎng)上的其他 智能音箱,確實(shí)非常便宜,此前蘋果Home Pod售價(jià)349美元,Google Home129美元,觸屏版的亞馬遜Echo是230美元。
20170717104154_1500259314131747001.jpg (19.61 KB, 下載次數(shù): 12)
下載附件
保存到相冊(cè)
2017-7-17 14:25 上傳
而直到本月初,阿里才正式發(fā)布智能音箱天貓精靈X1,既出乎意料又在情理之中,使得語(yǔ)音入口的爭(zhēng)奪戰(zhàn)因?yàn)榘⒗锏娜刖肿兊酶佑腥ぁ?/div>
那么,阿里的智能音箱到底帶來(lái)了哪些有別于其他同類產(chǎn)品的驚喜?
眼前一亮的“驚喜”
此前有媒體稱,為了這款智能音箱,阿里巴巴甚至將馬云投入上億美元的Pepper機(jī)器人項(xiàng)目中止,把人員隊(duì)伍拆分劃進(jìn)人工智能實(shí)驗(yàn)室。而花了這么大代價(jià)出來(lái)的產(chǎn)品好像似乎與Echo等音箱并無(wú)本質(zhì)上的差異,所含功能大致包括播音樂(lè)、叫外賣、查天氣、設(shè)鬧鐘、操控等。
根據(jù)天貓精靈對(duì)外宣傳的賣點(diǎn),其中非常重要一點(diǎn)就是連Echo都不具備的聲紋識(shí)別功能。
阿里稱,通過(guò)聲紋識(shí)別技術(shù),音箱可以分辨家里的每一個(gè)人,并且根據(jù)每個(gè)人的喜好而設(shè)定推送不同的內(nèi)容,目前最多可以識(shí)別6個(gè)人的身份;另外,用戶還可通過(guò)自己的聲音完成購(gòu)物支付驗(yàn)證環(huán)節(jié)。而Echo在分辨人的身份上,還需要通過(guò)進(jìn)一步操作來(lái)獲取用戶的個(gè)人信息。
讓記者好奇的是,如此酷炫的功能為何亞馬遜至今都還沒(méi)用在Echo上。
據(jù)悉,亞馬遜很早就想應(yīng)用這項(xiàng)技術(shù),但據(jù)亞馬遜員工介紹,從聲紋識(shí)別領(lǐng)域的硬件和 軟件公司中得到的反饋看來(lái),讓這些語(yǔ)音控制設(shè)備去識(shí)別不同用戶的聲音比想象中要艱難很多。
“由于設(shè)備需要去除噪音,回聲,混響,使得它難以對(duì)聽到的發(fā)聲者的身份進(jìn)行識(shí)別?!盋onexant語(yǔ)音部門副總裁Vineet Ganju說(shuō)道。
那么擁有聲紋識(shí)別的天貓精靈真的能撐起它所重點(diǎn)訴求的這個(gè)賣點(diǎn)嗎?
我看懸。 聲紋識(shí)別功能為什么懸?
20170717104154_1500259314131128739.jpg (9.15 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
2017-7-17 14:25 上傳
先從聲紋識(shí)別算法層面講,聲智科技創(chuàng)始人陳孝良博士此前在接受雷鋒網(wǎng)專訪時(shí)表示,聲紋識(shí)別還是一個(gè)比較窄的學(xué)科,應(yīng)用也相對(duì)較少。現(xiàn)在大部分研究都是有關(guān)動(dòng)態(tài)實(shí)時(shí)檢測(cè),動(dòng)態(tài)檢測(cè)的方法自然要利用靜態(tài)檢測(cè)的各種原理方法,同時(shí)也需要增加其他很多算法, 比如VAD、降噪、去混響等。VAD的目的是檢測(cè)是不是人的聲音,降噪和去混響是排除環(huán)境干擾。
VAD常用兩個(gè)方法,基于能量檢測(cè)和LTSD(Long-Term Spectral Divergence),當(dāng)前用的較多是LTSD,另外特征提取方面還需要:動(dòng)態(tài)時(shí)間規(guī)整(DTW)、矢量量化 (VQ)、支持向量機(jī) (SVM),模型方面則需要隱馬爾可夫模型(HMM)和高斯混合模型 (GMM)。
從上面模型不難看出,聲紋識(shí)別還是一種基于數(shù)據(jù)驅(qū)動(dòng)的模式識(shí)別問(wèn)題,因?yàn)樗心J阶R(shí)別存在的問(wèn)題聲紋都存在,而且聲紋識(shí)別還有一些不太好解決的物理和計(jì)算問(wèn)題。
聲紋識(shí)別的唯一性很好,但實(shí)際上現(xiàn)有的設(shè)備和技術(shù)仍然很難做出準(zhǔn)確分辨,特別是人的聲音還具有易變性,易受身體狀況、年齡、情緒等的影響。若在環(huán)境噪音較大和混合說(shuō)話人的環(huán)境下,聲紋特征也是很難提取和建模的。 現(xiàn)階段,遠(yuǎn)場(chǎng)聲紋識(shí)別理論并不成熟,研究進(jìn)展也不大。 |