在虛擬會議中,通過靜音鍵可以很容易阻止人們互相交談。但在熙熙攘攘的咖啡館里,沒有按鈕可以讓你旁邊的桌子安靜下來。
定位和控制聲音的能力——例如,在擁擠的房間里,將一個人的說話與特定位置隔離開來——對研究人員來說是一個挑戰(zhàn),尤其是在沒有攝像頭視覺線索的情況下。
由華盛頓大學(xué)的研究人員領(lǐng)導(dǎo)的一個團隊開發(fā)了一種可變形的智能揚聲器,它使用自動部署的麥克風(fēng)將房間劃分為語音區(qū)域,并跟蹤單個揚聲器的位置。在該團隊的深度學(xué)習(xí)算法的幫助下,即使兩個相鄰的人的聲音相似,該系統(tǒng)也可以讓用戶將某些區(qū)域或單獨的同時對話靜音。每個直徑約一英寸,麥克風(fēng)自動從充電站部署,然后返回到充電站。這允許系統(tǒng)在環(huán)境之間移動并自動設(shè)置。例如,在會議室會議中,可以部署這樣一個系統(tǒng),而不是中央麥克風(fēng),以便更好地控制室內(nèi)音頻。
該團隊于9月21日在《自然通訊》(Nature Communications)上發(fā)表了他們的研究結(jié)果。
“如果我閉上眼睛,房間里有10個人在說話,我不知道誰在說什么,也不知道他們在房間里的確切位置。這對人類大腦來說是很難處理的。到目前為止,這對技術(shù)來說也很困難,”共同主要作者Malek Itani說,“這是第一次,使用我們稱之為‘聲學(xué)群’(acoustic swarm)的機器人,我們能夠跟蹤一個房間里說話的多人的位置,并將他們的講話分開!
以前對機器群的研究需要使用頭頂或設(shè)備上的攝像頭、投影儀或特殊表面。華盛頓大學(xué)團隊的系統(tǒng)是第一個僅使用聲音精確分配機器群的系統(tǒng)。
該團隊的原型由七個小型機器人組成,它們分布在不同大小的桌子上。當(dāng)它們從充電器中移動時,每個機器人都會發(fā)出高頻聲音,就像蝙蝠導(dǎo)航一樣,利用這個頻率和其他傳感器來避開障礙物,四處移動而不會從桌子上掉下來。自動部署使機器人能夠以最大的精度放置自己,比人工設(shè)置它們更能精準(zhǔn)控制聲音。這些機器人分散在盡可能遠(yuǎn)的地方,因為距離越遠(yuǎn),區(qū)分和定位說話的人就越容易。現(xiàn)在的消費級智能揚聲器有多個麥克風(fēng),但聚集在同一個設(shè)備上,相距太近了,無法允許這個系統(tǒng)的靜音和活動區(qū)域。
“如果我有一個麥克風(fēng)離我一英尺遠(yuǎn),另一個麥克風(fēng)離我兩英尺遠(yuǎn),我的聲音會先傳到一英尺遠(yuǎn)的麥克風(fēng)。如果其他人離麥克風(fēng)更近,他們的聲音會先傳到那里!毖芯咳藛T表示,“我們開發(fā)了神經(jīng)網(wǎng)絡(luò),利用這些延時信號來區(qū)分每個人在說什么,并跟蹤他們在空間中的位置。因此,你可以讓四個人進行兩次對話,并分離出四種聲音中的任何一種,并在房間中定位每種聲音。”
該團隊在辦公室、客廳和廚房測試了機器人,每組三到五人說話。在所有這些環(huán)境中,該系統(tǒng)可以在90%的情況下識別彼此相距1.6英尺(50厘米)以內(nèi)的不同聲音,而無需事先了解說話者的數(shù)量。該系統(tǒng)平均能夠在1.82秒內(nèi)處理3秒的音頻。
研究人員表示,隨著技術(shù)的進步,聲群可能會被部署在智能家居中,以更好地區(qū)分與智能揚聲器交談的人。例如,這可能只允許坐在沙發(fā)上的人,在一個“活動區(qū)”,對電視進行語音控制。
研究人員計劃最終制造出可以在房間里移動的麥克風(fēng)機器人,而不是局限在桌子上。該團隊還在研究揚聲器是否能發(fā)出聲音,允許真實世界內(nèi)實現(xiàn)靜音和活動區(qū)域,讓房間不同位置的人就能聽到不同的聲音。
當(dāng)然,這項技術(shù)也會讓人聯(lián)想到隱私問題。研究人員承認(rèn)麥克風(fēng)可能會被誤用,所以他們設(shè)置了防范措施:麥克風(fēng)是用聲音導(dǎo)航的,而不是像其他類似系統(tǒng)那樣用車載攝像頭導(dǎo)航。而且這些機器人很容易被看到,當(dāng)它們活動時,它們的提示燈會閃爍。聲學(xué)群不像大多數(shù)智能揚聲器那樣在云端處理音頻,而是在本地處理所有音頻,作為隱私限制。盡管有些人最初的想法可能是關(guān)于監(jiān)視,但該系統(tǒng)可以用于相反的情況,該團隊說。
“它有可能真正有益于隱私,超出了目前的智能揚聲器所允許的范圍,”Itani說!拔铱梢哉f,'不要在我的辦公桌周圍記錄任何東西',我們的系統(tǒng)會在我周圍3英尺處產(chǎn)生一個區(qū)域。這個區(qū)域中的任何內(nèi)容都不會被記錄下來;蛘,如果兩組在旁邊說話,一組正在進行私人對話,而另一組正在錄音,則一個對話可以處于靜音區(qū),并且它將保持私密!
|