智能音箱需要生態(tài)鏈打磨,功夫決定體驗,不能忽視任何細節(jié)。很多時候我們給予大數(shù)據(jù)和深度學習過高的贊譽,反而讓眾多的研究人員犯了懶,這個世界從來不是搞搞數(shù)據(jù)就能明白的,對物理世界的探索,對人類哲理的思考,才是推動社會進步的力量。
隨著Google Home的發(fā)布,智能音箱鼻祖Amazon Echo再次成為關注焦點,這款產(chǎn)品儼然成為了新時代智能硬件的代表。當然,Amazon Echo確實也不負眾望,不僅銷量攀升到千萬級別,而且研發(fā)力量也超過了千人,前幾日又開放了400人規(guī)模的職位招聘。
一般來說,國外成功的模式或者產(chǎn)品,最多一年左右時間,國內(nèi)就會成功復制甚至快速趕超。但是 Amazon Echo卻是個例外,自從2014年發(fā)布以來,國外只有谷歌花了近兩年的時間才推出Home這樣的競品,由于剛剛發(fā)售,具體銷售情況我們還要拭目以待。但是國內(nèi)情況怎樣呢?國內(nèi)花了兩年多時間也仿制出了幾款產(chǎn)品,然而都沒有復制出Amazon Echo這種能被大眾普遍接受的產(chǎn)品。
這也是國內(nèi)很多廠商百思不得其解的問題,為何同樣花了很多功夫,但做出來的產(chǎn)品就是得不到用戶的認同呢?國內(nèi)同類產(chǎn)品慘淡的銷量,也讓很多國內(nèi)互聯(lián)網(wǎng)巨頭始終無法下定決心投入研發(fā)類似Amazon Echo的這樣的智能音箱產(chǎn)品。這到底是為什么呢?
智能音箱需要生態(tài)鏈打磨,功夫決定體驗,不能忽視任何細節(jié)
智能音箱,作為語音智能助手的家庭入口,遠遠超出了音箱定義的范疇,這是硬件?軟件?還是平臺?很難界定,智能音箱涉及了語音交互的完整生態(tài)鏈。如果不把這款產(chǎn)品作為戰(zhàn)略產(chǎn)品來投入研發(fā),估計做出的產(chǎn)品難免差強人意。雖然國內(nèi)很多廠商都自認為投入巨大,但是相比Amazon Echo來說,這就有點小巫見大巫了。Amazon不僅投入上千人研發(fā),還可以把Echo廣告做進超級碗。這和手機之間的競爭非常類似,國產(chǎn)有些品牌手機也自認為不錯,但是用戶拿到手中,心中自然就會有個衡量區(qū)分。事實上,公司之間競爭,不在于投入20%實現(xiàn)的80%,而在于投入80%才換來的20%。大多時候,往往就是這20%決定了公司競爭的成敗。但是國內(nèi)愿意投入這80%的畢竟還是少數(shù),特別是面向新興市場的產(chǎn)品,若不能做到精致的用戶體驗,傾注足夠的心血,得不到用戶認同也就在情理之中。
事實上,Amazon Echo的誕生也不是一帆風順的。
承擔Amazon Echo研發(fā)任務的是Amazon 126,這個公司成立于2004年,主要擔負Amazon硬件產(chǎn)品的研發(fā)任務。Amazon 126曾經(jīng)同時研發(fā)了四款產(chǎn)品, Echo是處于Kindle、Fire Phone和AR之后的D類研發(fā)任務, 甚至其研發(fā)成員主要也是AR項目組分出來的,2010年末啟動的時候想必沒人會看好這個音箱。Amazon Echo也不是最初的名字,而是Amazon Flash,甚至2014年發(fā)貨前夕還是這個名字。Echo也是幸運的,由于Fire Phone的失敗,AR項目被停止,這讓Echo直接受益,短暫的內(nèi)部調(diào)整后大大增強了研發(fā)力量,但是即便這樣,內(nèi)部還是存在不少爭議,這讓剛剛面世的Echo不敢公開銷售,轉而 采取邀請購買的方式試水市場。
Amazon Echo雖然研發(fā)多年,對于技術的追求也是一種極致,但這并沒有挽回Echo在2014年發(fā)布時候的尷尬,當時的用戶體驗也就是一個演示模型而已,從算法到內(nèi)容,都存在不少問題。當然,隨著用戶規(guī)模的不斷擴大,以及研發(fā)力量的持續(xù)增加,Echo也有了長足的改善,其內(nèi)容聚合也因為其開放策略而迅速發(fā)展,這也為后來Echo屢次拿到100美元以上產(chǎn)品銷量冠軍打下了基礎。
Amazon Echo的本質屬性仍然是個音箱,雖然Echo的音質差強人意,但是在當前HiFi音箱衰落,藍牙音箱當?shù)赖臅r代,音質對于大部分消費者來說已經(jīng)不是第一要素。使用簡單、外觀漂亮才是用戶購買無線音箱的主要動力。雖然Echo的造型設計中規(guī)中矩,但是Echo卻是聲學和智能相配的結合,智能僅是Echo的擴展屬性,而刻意去掉的顯示屏更凸顯了Amazon對于語音交互的信心與執(zhí)著。這種戰(zhàn)略意識國內(nèi)還是普遍缺乏的, 過分聚焦于Echo的功能差異確實很難復制Echo的成功,更何況國內(nèi)產(chǎn)品設計和策劃方面確實還不如Echo精致。
這里說的精致,真的是需要用心體驗的。
舉一個例子,語音喚醒,國內(nèi)總喜歡標榜超過了Alexa,然而,如果真拿指標這件事情說事,國內(nèi)的產(chǎn)品虛警率飄高,莫名其妙的就誤喚醒,這蠻討厭,突然間一個音箱說話回應你一個莫須有的問題,這種事情偶爾發(fā)生也是受不了的。至于工藝設計方面,每個人都有一個審美標準,很難評判Echo和Home為何看著舒服,但是至少要比垃圾桶的音箱造型好看一些。
精心打磨一個生態(tài)鏈產(chǎn)品,除了需要考慮多方面的細節(jié),還需要集中自家的優(yōu)勢資源。比如說語音交互, 國外巨頭不斷收購相關公司壯大實力,而國內(nèi)公司總是喜歡自家組建小團隊搞定一切,試問精力如此分散如何才能超過國外的巨頭?何況語音交互壓根也不是搞搞深度學習就能解決的,這本身就需要對聲學和智能都有深刻的理解和長期的積累才能做好。
語音交互的現(xiàn)場感和即時性是關鍵因素,但是目前還是欠點火候
語音交互毋庸置疑是繼鍵盤、鼠標和觸摸屏之后的主流交互方式,但是距離真正走入千家萬戶還總是差那么一點。
這里面有很多因素,比如說廠商總覺得語音交互根本沒有智能,事實確實也是如此。世界上還沒有任何一家公司能讓語音交互做到不傻,語音智能的水平仍舊停留在關鍵詞的內(nèi)容識別和上下文分析,所謂的語法和語感學術界都還沒有清晰的思路。這需要長久的研究突破,不僅限于當前火熱的機器學習和大數(shù)據(jù),更需要考慮物理世界的概念和模型,最起碼也要明白嬰兒學習語言的過程。從這個思路來看,現(xiàn)在的人工智能距離實現(xiàn)真正的智能語音交互還差著十萬八千里。
很多時候我們給予大數(shù)據(jù)和深度學習過高的贊譽,反而讓眾多的研究人員犯了懶,這個世界從來不是搞搞數(shù)據(jù)就能明白的,對物理世界的探索,對人類哲理的思考,才是推動社會進步的力量。
上述或許只是個共性,Amazon Echo其實也面臨同樣的困境,甚至還有很多人批評Echo的語音合成也不夠好,因為人類總希望自己的話語能得到類似的回應。不能說Amazon不重視這個問題,事實上Amazon強化了另一層面,不是語音合成的自然程度,而是語音回答的反應速度。語音合成當前確實很難做到如同人類一樣自然,但是距離這個目標也不太遙遠。上個月Google發(fā)布WaveNet引起語音合成領域的震動,這是一個新的思路。在此之前,語音合成已經(jīng)很長時間沒有任何實質性的進步,無非就是參數(shù)化和拼接式兩種方法。這幾種方法筆者在《如何評價谷歌的語音合成WaveNet和微軟的語音識別“里程碑”?》做了對比分析,不過,事實上這不是現(xiàn)階段用戶關心的重點。
事實證明,Amazon Echo的押注選擇是正確的,用戶更為關心的是人機對話的現(xiàn)場感,從指標上來分析,其中一個重要參數(shù)就是 機器的響應速度,Echo剛開始是5秒,后來壓到1.5秒,再后來就是1秒以內(nèi),注意這是平均響應時間,而不是國內(nèi)的峰值指標。
人機對話的現(xiàn)場感挺有意思,有時候也會說成沉浸感,這從人類語言對話的發(fā)展歷程可以窺得一斑。我們知道,語言交流是人類交互最主要的方式,是人類交換信息、學習知識最主要的途徑,但是由于語言太過時效性,記載功能太差,與之伴隨逐漸就形成了文字。由于語言的時效性,所以語言交流往往是面對面即時完成的 。當然,現(xiàn)在人類擁有了電話,但是即便有了電話之后,語言交流仍然保持著即時性。也就是說, 電話其實就是人類語言交流的距離拓展,但是沒有改變語言交流的即時屬性,所以電信和互聯(lián)網(wǎng)的發(fā)達本質上來說仍然是在享有這種紅利。
當然了,電信和互聯(lián)網(wǎng)的技術還很難做到人類語言交流的水平,很多時候破壞了這種即時性。技術上常常稱為單工或者雙工模式,單工的時候對話者的語言是“互斥”的,不會出現(xiàn)聲音的重疊和打斷。顯然,以Siri和Echo為主的人機語音交互,就是這種 單工模式。單工模式無法提供面對面交流時的暢快感和現(xiàn)場感,也就缺少一部分“對話”的體驗。雙工模式實際上是希望改變這一點,但是目前來看與人類還是有不少差距的,這些都是需要技術去克服的難點。
既然語音交互的現(xiàn)場感當前還無法做到人類水平,自然就希望先把機器回答的時間縮短,再次提醒這個指標要用平均時間,而且必須穩(wěn)定可靠。這是至關重要的,試問你會和一個半天時間才冒出一句的機器對話嗎?應該不會,這會讓你崩潰,即便對方是人類也不行,或許還會涉及到尊嚴問題。顯然, 當前階段人工智能還不能追求模仿人類智慧,這有太多的物理和哲學難題沒有解決,也不要杞人憂天爭論什么“奇點理論”,機器威脅人類還是漫長的過程,考慮這些之前,不如先想想如何解決產(chǎn)品中的每個關鍵問題。
東西方的文化差異也制約了國內(nèi)語音智能交互技術的發(fā)展
國內(nèi)外對于智能音箱的理解或許還有更多差異,但是當東方人嘗試使用智能音箱的核心——語音智能助手的時候,這里還有個文化阻礙的問題,這或許是東西方文化差異的結果。理解這點之前,我們先把語音和語言區(qū)分一下,語音(Speech)是語言(Language)的信號載體,語音是人的發(fā)音器官發(fā)出的,承載一定的語言意義,而語言才承載人類的智慧。通俗的講,語音是天生就存在的,嬰兒的咿呀咿呀也算是語音,甚至其哭聲也代表一定的意義,而語言則是需要學習不斷進化的。 人機語音交互實際上就是語言的交互,即便語音識別做到100%,對于理解語言來說也沒有具體意義,何況語言總是個性的、場景的和情緒的。
語言是社會文化的產(chǎn)物,離開了文化就沒什么語言可言了。語言又是社會文化的寫照,不僅反映社會文化的形態(tài),而且語言結構也反映了人們的價值觀念。顯然,不同國家的語言習慣是千差萬別的,由于各民族生活的環(huán)境不同,由此而形成的文化內(nèi)涵和語言習慣自然不同。毫無疑問, 東西方由于文化的巨大差異,其語言表達方面也存在巨大的差異。而這種差異也決定了類似Echo這類語音智能助手的普及速度。
東方文化總是含蓄的,和西方直接表述不同,我們總喜歡拐彎抹角的表達意思。“是”時不說“是”,卻說“不是”!安皇恰睍r不說“不是”,卻總說“是”,這讓熱戀中的東方男生時不時的就會崩潰。事實上,東方人的處事哲學中最重要的一點就是“ 話到嘴邊留半句”。這可苦了語音智能助手,很多時候當東方人面對Echo這類智能音箱的時候,據(jù)我們大量實驗觀察,真的是還需要仔細思考一下才會出口。
這已經(jīng)超越了任何技術的范疇,相比西方人來說, 東方人使用語音智能產(chǎn)品面臨著更大的心理障礙。與西方人覺得機器不夠聰明不同,而東方人面對這類產(chǎn)品的表現(xiàn)更為含蓄和尷尬。再加上當前語音交互的現(xiàn)場感和即時性確實還不夠好,更是加劇東方人這種心理上的障礙。這種障礙導致東方人使用Echo這類語音智能產(chǎn)品的時候,很難連續(xù)說出超過十句不同的表述!
事實上, 東西方的二次元文化差異也折射了語音智能助手在東西方的不同地位。西方的動漫,比如說變形金剛,實際上就是典型的人機語音交互,而諸如鋼鐵俠、星球大戰(zhàn)等等都有人和機器人的自然語音交互。反觀東方的二次元文化,比如圣斗士星矢和最終幻想,更多的還是強調(diào)人人之間的交互和表達。從這個層面來看,東方相比西方,整體來說,人機對話和人工智能方面的普及教育要差很多,自然,東方大眾對于語音智能助手的認同就不如西方。
國內(nèi)的智能音箱或者說語音智能助手還在早期市場教育階段,前面還有一段滿是荊棘的小路去趟,即便明知有坑,或許也會跌落不少先驅,但是腳步必須邁出去,前景必然是美好的。趟路的過程,或許需要很大的犧牲,才能培養(yǎng)出一大波的技術人員、營銷人員,積累出一大批鐵桿用戶。這個戰(zhàn)略布局國外已經(jīng)提前走了一步,國內(nèi)也不要總幻想著彎道超車,哪有那么多彎道,別人也不傻,踏踏實實地邁出堅實的步伐即可。
國內(nèi)互聯(lián)網(wǎng)發(fā)展其實也這樣走過,BAT也并非各個領域最早的開拓者,而是踏著先驅再不斷發(fā)展壯大。不好預計這個趟路過程需要持續(xù)多久,畢竟不是預測國足的比賽結果,但是相信會比互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的過程都會更快。
|