亞馬遜最近給它的Echo音箱帶來了功能升級,最多已經(jīng)能識別10個人的聲音。這個新特性得以實現(xiàn)的背后技術(shù),叫作聲紋識別。
跟指紋、虹膜等生物識別手段類似,聲紋是從一個人的語音片段中提取出獨特且有規(guī)律的特征數(shù)據(jù),將來再聽到這個人說話時能快速識別出來。聲紋識別最常見的應(yīng)用是個人隱私防護,比如微信就內(nèi)置了“聲音鎖”功能,用來保護用戶賬戶不被竊取。而在智能音箱這種多人使用的家庭產(chǎn)品上,聲紋識別的用途更多。
如果一款智能音箱能分辨出家庭成員所下達(dá)的語音指令,就能提供更有針對性的回應(yīng)和服務(wù)。最直接的潛在使用場景是推薦音樂。亞馬遜Alexa支持聲紋識別之后,Echo音箱應(yīng)該很快就能基于“用戶是誰”推薦符合其偏好的歌曲。
這樣一來,也避免了多個人共用一個收藏夾,或者手動建多個收藏夾的麻煩。除了推薦音樂,基于聲紋識別的個人日程管理、在線購物/支付等功能也可以進一步提升使用體驗。而在國內(nèi),最早號稱做出了聲紋識別功能的是阿里的天貓精靈。通過語音購物或者充話費時,天貓精靈會對說話者進行身份驗證。驗證方式是讓使用者說出“天貓精靈”+四個隨機數(shù)字。這種方案在技術(shù)實現(xiàn)上比較簡單。因為在同一語種下,0-9十個數(shù)字的聲學(xué)特征很容易找到規(guī)律。
再加上固定的喚醒詞,天貓精靈的聲紋識別理論上可以做到比較理想的識別準(zhǔn)確率。然而,這種方案也嚴(yán)重影響了使用體驗。最高明的聲紋識別,是不需要專門設(shè)置環(huán)節(jié)來驗證身份的。國內(nèi)的其它智能音箱產(chǎn)品,比如叮咚音箱、若琪Rokid、問問音箱等也都在攻克聲紋識別的技術(shù)難關(guān)。但從整體來看,想讓智能音箱被更多人接受,缺少的可能不只是聲紋識別這一個功能特性。
|