色接九九精品国产免费_久久精品视频国产片十八_亚洲日韩国产麻豆_亚洲日本一区二区三区在线观看

服務熱線:400-6787-160
音響網(Audio160.com) > 行業(yè)資訊 > 音響信息(耳機) > 獨家|“實時翻譯耳機”橫空出世,深度剖析三大核心技術
獨家|“實時翻譯耳機”橫空出世,深度剖析三大核心技術
更新時間:2017-12-18 10:14:23 編輯:雪韻 文章來源:DeepTech深科技 調整文字大小:【
[導讀] 實際上,耳機是一個非常成熟的產業(yè),全球一年市場銷售量超過 3.3 億對,每年維持穩(wěn)定的成長。根據調研機構 Statista 預估,2016 年全球耳機銷量約 3.34 億對,預估 2017 年會成長到 3.68 億對。其成長可以解釋的成因除了真正無線(True Wireless)之外,再有的就是智能功能了。

實際上,耳機是一個非常成熟的產業(yè),全球一年市場銷售量超過 3.3 億對,每年維持穩(wěn)定的成長。根據調研機構 Statista 預估,2016 年全球耳機銷量約 3.34 億對,預估 2017 年會成長到 3.68 億對。其成長可以解釋的成因除了真正無線(True Wireless)之外,再有的就是智能功能了。

同時,耳機產品也是一個相當分眾的市場,追求音質的用戶或是電競玩家往往愿意付大錢購買具有高音質、立體聲、高舒適度的產品,運動族群更在乎的則是防水、減少汗水或運動造成耳機掉落、或是具有生理量測的產品,另外也一群人是追求時尚、品牌而購買昂貴的耳機,例如 Apple 收購的 BEATS 。

不可否認的是,消費者可能每天會戴耳機聽音樂,但不會每天都有跟外國人對話的需求,這讓實時翻譯成為一種有也不錯而非必須性的附加性功能,因此耳機業(yè)者多會將其與更多功能結合,包括無線、智能語音助理等,因此實時翻譯耳機雖后端整合了許多深度學習的技術,目前看來仍是話題性遠高于實用性。

今年 Google 發(fā)表了一系列的硬件產品,其中 Pixel Buds 藍牙耳機除了可以呼叫 Google Assistant 外,最吸睛的就是結合自家 Google 翻譯可支持 40 種語言實時翻譯的功能。

不久之前,韓國最大搜索引擎 NAVER 旗下的通訊軟件 LINE 也推出 MARS 翻譯耳機,對話的兩個人各自使用一個耳塞,就能立即從耳機中聽到翻譯的語音,背后同樣是仰仗自家的 AI 平臺 Clova 及 Papago 即時翻譯服務,目前可支持 10 種語言。

圖|LINE 的 MARS 翻譯耳機獲得 CES 2018 最佳創(chuàng)新獎。(圖片來源:LINE)

圖|LINE 的 MARS 翻譯耳機是一人使用一個耳塞,讓說不同語言的兩個人也能溝通。(圖片來源:LINE)

總部位于深圳的耳機公司萬魔(1more)聲學海外事業(yè)部總經理陳穎達接受 DT 君采訪時分析,耳機的新趨勢就是真正無線(True Wireless Earbuds)藍牙耳機+智能功能。在蘋果推出 AirPods 之后,True Wireless 的趨勢就確立下來了,音源與耳機或是左右耳的相通,完全不需要線路連接,跟過去藍牙耳機的左右耳還是有線相連不同。
在智能功能方面有三大塊,首先是支持生物識別運動追蹤(biometric sports tracking)的運動耳機,例如可監(jiān)測用戶心率、計算運動過程中燃燒的卡路里等,市場需求看好;第二則是整合語音助理如 Apple Siri、Google Assistant ;第三就是實時翻譯。

耳機的優(yōu)勢在于普及性及方便性,是啟動個人化智能服務、翻譯對話最直觀的第一個入口,除了大企業(yè),不少初創(chuàng)或音響公司都看好這塊市場,例如德國品牌 Bragi 繼推出防水(可于游泳使用)、測量心跳的產品,又進一步推出結合 AI 技術及 iTranslate 應用,可實時翻譯的 The Dash Pro 耳機,另外英國的 Mymanu Clik 耳機也可支持 37 種語言即時翻譯。

雖然說在市場層面還存在疑問,實時翻譯耳機在技術上確實已經取得較大的進展。那么,這些強調利用 AI 技術的實時翻譯耳機背后究竟是如何運作的呢?“三大核心:語音識別+機器翻譯+語音合成,”臺灣的中研院資訊科技創(chuàng)新研究中心副研究員曹昱清楚點出關鍵。

整個流程就是,耳機聽到對方講話的內容,識別出這是什么語言如英文、西班牙文等,并且把語音變成文字,第二步驟以翻譯引擎進行文字對文字的翻譯,最后就是把翻譯結果做語音合成,播放出來?梢韵氤蛇@是集合了聽寫員、翻譯員、朗讀員三個角色于一身。只不過,實際上每一個核心涉及的技術多且復雜。

圖|實時翻譯耳機三核心:語音識別、語言翻譯、語音合成(圖片來源:微軟研究院)

一、語音識別

首先使用的技術就是語音識別,Speech Recognition、自動語音識別(ASR,Automatic Speech Recognition)等都是常見的技術詞匯,目的就是把說話者的語音內容轉變?yōu)槲淖,目前多是以使用深度神經網絡(DNN,Deep Neural Network)、遞歸神經網絡(RNN,Recurrent Neural Network)為主。

圖|語音識別的主要流程。(數據來源:Amazon)

語音識別的應用場景相當廣泛,像是車內互動控制、智能助理、智能音箱、居家機器人等,主要的研究方向包括降噪、長距離識別等,目的都是為了提升識別度,例如居家機器人的問題就必須突破長距離語音識別的問題。

無線耳機有四個關鍵零組件:喇吧單體、麥克風、藍牙晶片以及電池。一家外商聲學公司對 DT 君表示,要支持實時翻譯,麥克風就很關鍵,收音要夠清楚,語音識別度才會高,在硬件上多會使用指向性麥克風,并且搭配語音識別算法,判斷聲音是來自講話者或環(huán)境,進而強化人聲,降低環(huán)境噪音的干擾。

過去語音識別主要是采用高斯混合模型(GMM,Gaussian Mixture Model)+隱馬爾科夫模型(HMM,Hidden Markov Model)、支持向量機(SVM,Support Vector Machine)算法等,一直到神經網絡之父 Geoffrey Hinton 提出深度信念網絡(DBN,Deep Belief Network),促使了深度神經網路研究的復蘇,并且將 DNN 應用于語音的聲學建模,獲得更好的表現,之后微軟研究院也對外展示出利用 DNN 在大規(guī)模語音識別取得顯著的效果提升,大量的研究陸續(xù)轉向了 DNN,近來又有不少基于遞歸神經網絡開發(fā)的語音識別系統(tǒng),例如 Amazon Echo 就使用了 RNN 架構。

二、機器翻譯從規(guī)則、SMT 走向 NMT

第二個階段就是翻譯,在人工智能中,機器翻譯一直是許多人想突破的領域,概念就是通過分析原始語言(Source Language)找出其結構,并將此結構轉換成目標語言(Target Language)的結構,再產生出目標語言。

初期多是采取把語言規(guī)則寫進系統(tǒng)的方式,但這種以規(guī)則為主的機器翻譯(RBMT,Rule-based Machine Translation)是將人類譯者或是語言學家建構的詞匯、文法、語意等規(guī)則寫成計算機程序,但語言規(guī)則難以窮盡,而且例外、俚語也不少,除了耗費人力,翻譯結果的準確性也遭人詬病,使得機器翻譯的發(fā)展一度被打入冷宮。

到了 80 年代晚期,IBM 率先展開并提出統(tǒng)計式機器翻譯(SMT,Statistical Machine Translation)理論,主要的研究人員 Peter Brown 、 Robert Mercer 等陸續(xù)發(fā)表《A Statistical Approach to Machine Translation》、《The Mathematics of Machine Translation: Parameter Estimation》論文,不僅被視為是該領域的開山之作,也再次引爆了機器翻譯的熱潮。

SMT 主要是通過搜集大量的原文與譯文,通過統(tǒng)計模型讓電腦學習字詞的產生、轉換、排列,形成合宜的句子,簡單來說,例如 1000 句中文就有 1000 句英文進行對照,像是聯合國有 6 種官方語言文件,加拿大政府的官方文件也有英文及法文,以及辭典,都是常被使用的素材。

不過,就在 SMT 火紅了,并且成為機器翻譯領域的主流技術之后,這兩位專家卻加入知名的量化基金公司 Renaissance Technologies,跑去華爾街用數學及統(tǒng)計模型分析股票、管理基金,變成了 10 億美元級別的富豪。

“以機器翻譯而言,20 年前 IBM 播種,20 年后 Google 收獲”,臺灣清華大學自然語言處理研究室教授張俊盛曾如此形容。

Google 翻譯是目前全球擁有最多用戶的翻譯平臺,2000 年初 Google 就開始投入機器翻譯的研究,并且延攬了多位重量級人物協助開發(fā),包括語音公司 Nuance 創(chuàng)始人 Michael Cohen 、知名機器翻譯專家 Franz Och 等人。

最初負責領導整個 Google 翻譯架構及服務開發(fā)的 Franz Och 曾表示,Google 翻譯計劃在 2001 年啟動時只支持 8 種語言,速度很慢、品質不佳,到了 2006 年他們開始采用統(tǒng)計式機器翻譯,并且同時利用大量的語料庫作為訓練。身為搜索引擎龍頭,優(yōu)勢就是可通過網絡搜集龐大的語料庫、雙語平行數據,提升機器翻譯的水平。

圖|統(tǒng)計式翻譯的概念。(圖片來源:National Research Council of Canada)

那時 Google 采用 SMT 中最普及的一個算法——片語為本的機器翻譯(PBMT,Phrase-based Machine Translation),把一個句子切成多個單字(words)或短語(phrases)之后個別翻譯。不過,這位 Google 翻譯之父在 2014 年離開 Google 加入生醫(yī)初創(chuàng)公司 Human Longevity,現則任職于癌癥篩檢初創(chuàng)公司 Grail。

但 Franz Och 的離開,并未對 Google 造成太大困擾,因為幾年前 Google 就開始使用 RNN 來學習原文與譯文之間的映射,到了 2016 年下旬 Google 正式發(fā)表翻譯服務上線 10 年以來最大的改版,宣布轉向采用類神經機器翻譯(NMT,Neural Machine Translation),也就是現在大家耳熟能詳的深度學習神經網絡模型,以多層次的神經網絡連結原文與譯文,輸出的字詞顧慮到全句文脈,同時,也使用了大量 Google 自家開發(fā)的 TPU 來處理復雜運算,一舉提升翻譯的水平。

其實,利用深度神經網絡進行機器翻譯的概念在 2012、2013 年就被提出,DeepMind 研究科學家 Nal Kalchbrenner 和 Phil Blunsom 提出了一種端到端的編碼器-解碼器結構,“不過,一直到 Google 出了論文,用 NMT 取代 SMT,讓大家完全相信神經網絡在翻譯是可行的,現在幾乎所有公司都轉向 NMT,我個人的想法是大概再三年機器翻譯就可以達到人類翻譯的水準”,專攻深度學習機器翻譯的初創(chuàng)公司真譯智能創(chuàng)辦人呂慶輝如是說。

此后,NMT 成為了新一代機器翻譯的主流,采用這種技術的服務在 2016 年下半年開始大量問世,Facebook 在今年 5 月也宣布將翻譯模型從 PBMT 轉向了 NMT。

Google 翻譯產品負責人 Barak Turovsky 不久前接受媒體采訪時表示:“SMT 是一種老派的機器學習(an old school machine learning)”,在網絡上查找人類已經翻譯過的內容,將其放進一個超大型的索引中,機器就開始看統(tǒng)計模式學習翻譯。PBMT 的局限就在于必須把句子切成好幾塊,執(zhí)行翻譯時只能同時考量少數幾個文字,而不是考慮上下文,所以如果要翻譯的語言是屬于不同語序結構,就會顯得相當困難。

NMT 最大的突破就是它的運作方式類似于大腦,將一整個文句視為是一個翻譯單元(unit),而非將文句切成好幾塊,這有兩個優(yōu)點,一是減少工程設計的選擇,二是可依據上下文判斷,提升翻譯的正確性及流暢性,聽起來會更自然。

在 NMT 技術中,除了遞歸神經網絡(RNN)、卷積神經網絡(CNN)、序列到序列(sequence-to-sequence)的長期短期記憶模型(LSTM,Long Short-term Memory)之外,近期的研究焦點包括了自注意力(Self-Attention)機制、以及利用生成式對抗網絡(GAN,Generative Adversarial Networks)來訓練翻譯模型。

三、語音合成追求人類般的自然

實時翻譯耳機的第三步驟就是語音合成(Speech Synthesis)或稱為文本轉語音(TTS,Text to Speech),也就是讓電腦把翻譯好的文字變成語音,并播放出來。重點在于如何生成更逼真的語音、更像人類說話的口氣跟語調。
讓電腦講人話的企圖心同樣在很早期就出現,1970 年代就有了第一代的 TTS 系統(tǒng),例如半導體公司德州儀器(TI)開發(fā)數字信號處理(DSP)芯片,還推出一個 Speak&Spell 玩具,會把打字的內容念出來,幫助小朋友學習。之后隨著科技的進步,合成技術也從單音、片段變?yōu)榭僧a生連續(xù)式的語音。

簡單來說,要讓電腦發(fā)出與人類相似的語音,通常會先錄下人類或配音員說話,建立錄音樣本,再把單字切成音素(phoneme),并對錄音進行分析,量測語調、速度等,建立語音模型,就可以制造出先前未錄下的單字或句子。接著當文字輸入,系統(tǒng)會選出適合的音素、音調、速度進行重組,再把這段文字轉成語音播放出來,就像人說話一樣。

圖|TI 開發(fā)的 Speak&Spell 成為美國知名的玩具。(圖片來源:Amazon)

“目前語音合成技術應該就是 DeepMind 開發(fā)的 WaveNet 最自然”,曹昱指出。

語音合成以拼接式 TTS(concatenative TTS)為基礎,需要大量的人類語音片段作為數據庫,但如果想要轉換為另一位說話者、或是加強語氣或情緒,就必須重建新的數據庫才能做到,使得修改語音的難度很高。

因此,出現了另一種參數式 TTS(parametric TTS),產生數據所需的所有信息都被存儲在模型的參數之中,只要通過模型的輸入值,就能控制語音的內容和特色,再把輸出值丟到語音編碼器(Vocoders)來產生聲音,是一種完全由機器生成的語音,優(yōu)點是成本較低,缺點則是機械味較重。

而 WaveNet 使用 CNN 架構,同樣是拿人類說話作為訓練素材,但不像拼接式 TTS 把聲音切成許多片段,而是使用原始波形,而且為了讓聲音更逼真,也必須告訴機器文本(text)內容是什么,所以也將把文本轉換為語言或語音特征喂給機器,“不僅要考慮以前的音頻樣本,還要靠慮文本內容”,所以還可以做出像人類講話時的口氣停頓或是呼吸的聲音。這些都讓 WaveNet 的語音合成更有“人味”,今年 10 月 Google 宣布把最新版本的 WaveNet 放到美式英文版以及日文版的 Google Assistant 中。

圖|DeepMind 開發(fā)的 WaveNet 提高了語音合成的逼真度。(圖片來源:DeepMind)

隨著深度學習技術的發(fā)展,不論是在語音識別、機器翻譯、還是語音合成,都可看到應用水平已有所提升,不過,實時翻譯耳機的實際應用仍無法滿足所有人,舉例來說,Google Pixel Buds 的翻譯功能只限于 Pixel 2 手機使用,而且要一句一句說,還無法提供連續(xù)性的翻譯,例如當你想要用它來看外國電影,這個方法就行不通。

另外,Pixel Buds 的麥克風收取使用者的聲音,然后通過手機大聲說出翻譯,對有些人還是會感到有一些尷尬。而 LINE 的 Mars 耳機是讓對話的兩人各戴一個耳塞,翻譯的內容只有自己聽得到,看似可以解決這個尷尬問題,但實際效果如何還得待 2019 年上市后才知道。

雖然實時翻譯耳機還不夠完美,是否能夠通過市場的檢驗還未可知,但要往零阻礙溝通的方向前進,AI 無疑將扮演重要的角色。

 網友評論
 編輯推薦
  • 2019視聽行業(yè)萬里行之走進企業(yè)武漢
  • 2019視聽行業(yè)萬里行之武漢
  • 北京InfoComm China 2019展會
  • 獨家策劃:北京IFC2019不落幕展精彩搶先看
  • dBTechnologies品牌故事:核心競爭力來自原創(chuàng)和性能
  • 精益求精,締造完美品質—George Krampera,一生追求完美聲音
  • Crest Audio(高峰)-站在創(chuàng)新的高度 俯瞰市場之所需
  • KV2 Audio:音頻行業(yè)的先行者
設為首頁 | 商務信息 | 音響資訊 | 本站動態(tài) | 付款方式 | 關于音響網 | 網站地圖 | 網站RSS | 友情鏈接
本站網絡實名:音響網 國際域名:ubl777.com 版權所有.1999-2019 深圳市中投傳媒有限公司 .
郵箱:web@audio160.com  電話:0755-26751199(十二線) 傳真:0755-86024577
在線客服:點擊這里給我發(fā)消息 點擊這里給我發(fā)消息  點擊這里給我發(fā)消息  點擊這里給我發(fā)消息   視聽學院-商家論壇群: 視聽學院-商家論壇