標籤貼紙,標籤機,條碼機,傳真機,條碼貼紙
    關於我們   標籤資訊   最新訊息   常見問題   條碼貼紙規格列印測試   聯絡我們
最新訊息 > 360度解剖智能音箱的“耳朵”,沒有它人工智能變人工智障!

智東西文|寓揚如果沒有“它” 所有的人工智能設備都是“聾子” 所有的智能音箱都是智障音箱;如果沒有它 背后的人工智能技術牛X到天都沒用!它是智能設備的“耳朵”——麥克風陣列。“Alexa” 當你對著亞馬遜Echo呼喚時 它用頂部的藍色光環應聲相應 “今天天氣怎么樣” 它就會“聽懂”你的意圖 用柔和的聲音告訴你天氣狀況。(從左到右依次為叮咚音箱A1、亞馬遜Echo、GoogleHome、天貓精靈A1)而“聽懂”或者“聽清”的第一步在于準確的獲取用戶的聲音(即拾音) 否則無論云端的虛擬助手多么智能 也是無頭蒼蠅。麥克風陣列是語音交互的第一步 在智能音箱落地中有關鍵作用 不僅傳統的芯片公司 語音技術巨頭和有深厚技術背景的初創公司紛紛加入這一領域。同時 隨著智能音箱的火熱以及語音交互的盛行 麥克風陣列技術開始走向前臺 “XX產品用的是誰家的麥克風陣列”也成為行業中熱議的話題;這時我們很有必要看清“麥克風陣列”產品技術的過去現在和產業鏈現狀 也是本文作為智東西智能音箱產業系列報道的主要目的。那么我們經常提及的麥克風陣列究竟是什麼?它有哪些類別及作用?哪些玩家參與其中?市場上各家智能音箱使用的麥克風陣列又有什麼不同?一、麥克風陣列:拾音簡單來講 麥克風陣列是由2個及以上麥克風按一定規則排列組成 在特定空間對聲音進行獲取和處理的錄音系統 它是遠講語音(超過1米以上)設備的一個關鍵部分。(注:本文所討論的為遠講語音設備中的消費級麥克風陣列)(圖為四款智能音箱的麥克風陣列)麥克風陣列的功能就是拾音。在遠講語音設備中 麥克風陣列通過聲源定位、波束形成、噪聲抑制、回聲消除等遠講算法。

有效拾取聲音 從而保證具體場景中語音的識別率。具體來講 以智能音箱為例 在家庭場景中會存在各種噪聲等 麥克風陣列的作用就是“眾里尋他千百度” 在眾多干擾噪聲中尋找到你 但只是找到還不夠 還需要抑制噪聲、消除自身發出聲音的影響 并增強你的聲音 從而確保在云端進行有效識別 并滿足你的任務指令。而拾音又分為遠場拾音(1米外)和近場拾音(20cm內)。比如 以Siri為代表的智能手機就是近場拾音 采用的是單麥克風 可在近距離、低噪聲的情況下拾取符合語音識別需求的聲音。但是一旦將智能手機放在有噪聲的較遠的距離 Siri的識別率就會直線下降 單麥克風的局限就凸顯了出來。而這正是遠場拾音和近場拾音的區別。

也凸顯了麥克風陣列的重要性。不僅如此 由于噪聲、混響等因素的存在 遠場拾音還要與遠講語音識別算法相匹配 才能真正做到“聽清”。二、麥克風陣列中的關鍵技術在遠場拾音中 麥克風陣列可以提供前端信號處理 拾取有效的語音信號輸送到云端進行識別。這其中就幾項關鍵的技術:聲源定位、波束形成、噪聲抑制、回聲消除、語音增強。1、聲源定位聲源定位的任務就是在具體場景中 甚至從噪音中找到發出聲音的“你” 以便后續的波束形成。它是基于麥克風陣列對目標信號(聲源)的位置探測 確定在特定空間中說話者的位置關系。尤其是在移動場景中 實時的聲源定位就顯得重要。2、波束形成波束形成是對麥克風陣列中各個麥克風輸出的聲音進行信號處理 從而形成空間指向性。這種方法會抑制目標聲音以外的聲音干擾 不僅抑制噪聲也包括其他方向的人聲。以叮咚音箱的AIUI模式為例 開啟了一定時間的多倫對話后 它會優先默認第一個說話者作為它拾音的主方向 從而抑制其他方向的聲音 來保證和一個對話者的交互。這也意味著 當前技術下 智能音箱不可能同時和多人進行交互。3、噪聲抑制你在臥室中開著電視 是很難喚醒在你床上睡覺的iPhone中的Siri的 這就是它不具備噪聲抑制的能力。但你可以喚醒理你較遠的智能音箱 這正是噪聲抑制的作用。簡單來講 噪聲抑制就是在目標信號和干擾噪聲中 保留目標聲音 削弱周圍的噪聲 從而保證獲取的目標聲音信號相對清晰 再結合云端相匹配的語音識別算法 實現有效識別理解。4、抗混響混響就是聲源發出后 在空間中經過多次物體(墻壁)的反射和吸收 若干聲波混合在一起所形成的現象 它會影響語音信號的處理 聲源定位的精度以及語音識別效果。通過遠講算法消除混響是遠講語音設備在拾音環節的關鍵一環。5、回聲抵消回聲抵消簡單來講 就是不讓語音設備自己發出的聲音干擾到拾音過程。比如在智能音箱播放音樂時 你喚醒設備并下達命令 這時麥克風陣列同時采集你發出的聲音和正在播放的音樂的聲音 而回聲抵消就是要去掉其中音樂的聲音并保留人的聲音 以供云端進行語音識別。6、語音增強在家居環境中 存在著背景噪音、回聲、混響等噪音干擾 這些噪音相互疊加嚴重影響語音識別效果。除了降低各種噪聲外 還可以從語音增強進行改善。遠距離拾音的另一個問題就是獲取的語音信號較弱 需要通過麥克風陣列進行噪聲分離 提取目標信號 并增強語音信號的能量 從而提升語音識別效果。三、消費級麥克風陣列的里程碑事件早在20世紀七八十年代 麥克風陣列已經被應用到語音信號處理中 進入90年代以來 基于麥克風陣列的語音信號處理算法逐漸成為一個新的研究熱點。近年來隨著語音交互成為趨勢 麥克風陣列逐漸進入消費市場領域 日趨火熱。在麥克風陣列領域擁有豐富經驗的先聲互聯創始人付強曾談到 麥克風陣列在消費級領域出現有幾個里程碑事件:第一個里程碑事件是微軟在2010年6月份正式推出的Kinect 它是Xbox360游戲主機的體感周邊設備 內置了紅外線攝像頭、傳感器、麥克風陣列 可通過對用戶身體動作的變化和發出指令來操作游戲。Kinect曾累計銷量2900萬部 但近幾年逐漸推出了人們的視野。(圖為微軟的Kinect)第二個是三星在2012年推出的全球首款具有遠講語音能力的智能電視 該電視使用麥克風陣列 科勝訊的語音芯片 支持語音操控 并帶動了國內的智能電視潮。第三個里程碑事件就是亞馬遜Echo智能音箱在2014年底的推出 其采用6+1麥克風陣列 支持5米遠講語音操控。Echo不但是第一款真正意義上的智能音箱設備 還是消費級麥克風陣列應用的里程碑事件 并帶火了當下國內這波智能音箱浪潮。(圖為亞馬遜智能音箱Echo)其中 三星的第一款智能電視和亞馬遜的Echo智能音箱都用了4年時間去打磨 才有了今天的技術成熟。而反觀國內的智能音箱浪潮 我們還缺少這種對技術的長線投入和對產品的耐心打磨。四、麥克風陣列的代表性玩家隨著國內智能音箱以及語音交互的火熱 在麥克風陣列以及遠講算法領域誕生了一波方案提供商 其中能夠提供麥克風陣列的硬件方案 又能夠提供前端算法的廠商并不太多 智東西選出了具有代表性的幾家方案廠商。1、科大訊飛——國內語音龍頭科大訊飛是國內一家老牌智能語音公司 其有一個專門的團隊在研究麥克風陣列技術。目前在訊飛開放平臺上 提供二麥線性陣列、四麥線性陣列和六麥環形陣列。中興、海康威視、美的、高德、優必選、狗尾草等都是其客戶。叮咚音箱就是由京東和科大訊飛聯合成立的靈隆科技推出的 其中科大訊飛提供語音語義等技術支持。叮咚音箱A1是國內第一款真正意義上的智能音箱 于2015年8月正式推出 它采用7+1麥克風陣列 豪恩聲學提供的ECM麥克風 并采用科勝訊CX20810-11Z音頻芯片。在結構上不同于其他智能音箱置于頂部 而是位于主控電路板下面 并采用中空結構 麥克風向外側傾斜拾音 頗具創意。(叮咚音箱A1的7+1環形麥克風陣列 黑色為麥克風)2、科勝訊——國際語音方案巨頭科勝訊成立于1999年 曾是全球最大的獨立通訊芯片提供商 后來幾經波折被新思科技收購。在語音交互領域 它主要提供語音芯片和麥克風陣列技術 其方案最大優勢在于降噪和語音增強算法 技術打磨也更加成熟。難怪科勝訊總裁SaleelAwsare會說 其雙麥克風就可以實現友商5-8麥克風的解決方案的效果。亞馬遜、百度、阿里巴巴、騰訊、哈曼、科大訊飛、出門問問、云知聲等都是其客戶或合作伙伴。據了解科勝訊為AlexaVoiceService(AVS)量身定做了AudioSmart語音處理開發套件出貨量已超過3000萬套 涵蓋智能音箱、智能家居、智能電視、機器人等多個品類。出門問問剛剛發布的智能音箱也采用科勝訊的方案 此外 蘋果HomePod也可能采用了科勝訊AudioSmart開發套件。3、先聲互聯——陣列研究先行者先聲互聯是一家成立于2016年的創業公司 主要提供麥克風陣列以及前端信號處理技術。其創始人付強曾在中科院聲學所有10余年的聲學研究 在語音信號處理領域有20余年的積淀。先聲互聯目前主要提供兩麥、四麥、六麥等解決方案 在抗混響、回聲消除、語音增強等方面表現不俗。先聲互聯是百度的合作伙伴 其多麥克風硬件開發套件也應用在百度DuerOS平臺中。目前 物靈的luka閱讀養成機器人、極米科技的LightankW100、數字家圓的親見H2等產品都采用了先聲互聯的遠講算法以及麥克風拾音模組。此外 先聲互聯也正在和騰訊、聯想、小米等公司就某些智能硬件產品展開合作。4、思必馳——成熟方案輸出商思必馳成立于2007年 是一家面向B端客戶的語音語義技術提供商。其副總裁雷國雄告訴智東西 思必馳從2012年就開始研究麥克風陣列技術 并配備一個專門的團隊研究語音信號處理 結合思必馳的語音進行優化。目前思必馳提供單麥、兩麥、四麥、六麥等解決方案 經過5、6年時間的積累 在性能和穩定性上均表現不錯。近期阿里推出的天貓精靈X1就是采用思必馳的環形6麥克風陣列 模擬麥克風則來自敏芯微電子 天貓精靈在降噪、回聲消除等拾音方面均有不錯表現。此外 聯想、小米、美的、360、DOSS等都是其客戶。5、聲智科技——新起之秀聲智科技也成立于2016年 提供麥克風陣列以及遠講算法 目前其推出了單麥、兩麥、四麥、六麥、八麥的陣列解決方案 也有不錯的表現。有趣的是其創始人陳孝良也來自中科院聲學所。近期剛剛發布的小米AI音箱 就采用了聲智科技的環形6麥克風陣列和喚醒技術方案。聲智科技也是百度的合作伙伴 推出了基于DuerOS的語音解決方案。此外 騰訊、阿里巴巴、奇虎360、華為、海爾等都是其客戶。五、麥克風陣列:兩路分化目前智能音箱中的麥克風陣列呈現兩路分化 主要包括環形和線性。亞馬遜Echo、叮咚音箱、天貓精靈、小米AI音箱等技術路線相似Product Series 都使用6(+1)、7(+1)個麥克風的環形陣列more product information 而GoogleHome、出門問問的問問音箱則采用了2麥克風的線性陣列。(亞馬遜Echo的6+1環形麥克風陣列 金色為麥克風)為何各家使用的麥克風數目不一 真的是數目越多越好嗎?先聲互聯付強曾從技術的角度談到 事實并非如此。目前麥克風陣列語音增強大致可分為兩種技術路線:一種是以亞馬遜Echo為代表的經典波束形成路線 它對麥克風的數目以及陣列拓撲結構(排列位置)依賴較大 通過使用較多的麥克風以及特定結構 從而使得波束的空間區分性更強 保證聲源定位和拾音效果。另外一種就是以科勝訊為代表的路線 該路線更加依賴語音增強算法 而對麥克風陣列數量和陣列拓撲結構依賴較小 通過通過自適應降噪、降低混響、語音分離等技術 從而靠少量麥克風獲得良好的拾音效果。有趣的是 剛剛在8月24日發布的出門問問的智能音箱采用的就是科勝訊的2麥克風陣列 從其測試結果來看 遠場拾音喚醒能力并不輸于競品。(黃色方框為GoogleHome2麥線性陣列)關于陣列麥克風數目的選擇 思必馳副總裁雷雄國則從產品層面談到:首先從性能上考慮 思必馳從單麥、6麥、8麥、12麥都有嘗試 思必馳最終選擇6麥作為主要的陣列方案More Products of speakers 是成本和性能的一個綜合考慮。6麥以上盡管性能也會提升 但提升的效果和成本不成正比 但6麥一下數目的減少 成本會降低 性能也會相對降低。其次 產品形態會影響陣列的選擇 比如電視上的Soundbar等設備是長條形 就適合線性陣列;而Echo、叮咚是橢圓 它就可以選擇環形陣列。此外 麥克風數目的選擇還和產品定位有關。定位高端產品 對體驗有更高要求 則可以選擇6麥陣列 而中低端的產品可選擇2麥或4麥。六、麥克風陣列在遠場交互中存在的問題盡管智能音箱經過一段時間的打磨 在拾音、喚醒、識別方面都能夠歐達到一個不錯的效果。

但在遠場交互中麥克風陣列仍存在一些亟待解決的問題。第一 誤喚醒是一個問題。雷雄國也談到 表面看這個是喚醒的問題 但實際跟陣列有較強的關系 喚醒拿到的是陣列拾音的信號 陣列對信號噪聲處理效果的好壞直接影響到誤喚醒。這個問題也可以從產品的思路進行解決 如喚醒之后只是亮燈而不“說話” 這樣會好很多。第二 聲源定位需要提升。在聲學環境中 尤其是在反射較強、回聲較強、噪音環境下 聲源定位需要較大的提升空間。第三 動態環境中對用戶位置的跟蹤也需要提升。在家庭場景中 人會處于一種移動的狀態 喚醒和指令可能不在同一個方位 在下一次人機交互中會重點處理剛剛那個方向的信號 如果房間存在多個音源 就可能無法執行指令。第四 麥克風陣列無法同時進行多人聲的識別和處理 當下的波束形成和噪聲抑制 會使陣列在同一時間處理同一個方向的聲源 從而抑制其他聲源 這就意味著當下的技術路線下 機器無法同時與多人進行交互。結語:麥克風陣列賦予智能硬件“耳朵”提起未來 我們會幻想無處不在的智能 虛擬助手幫助我們做任何想做的事情。而機器具備智能的第一步應該是聽懂人類的心聲 那么它首先應該具備的就是一雙“耳朵”。而在人工智能的當下 麥克風陣列的作用就是賦予智能硬件以“耳朵” 讓它更好的聽到人類的聲音 然后將聲音傳輸到云端的智能“大腦”去理解 去調動自身的“技能” 滿足人類的需求。但這雙“耳朵”在各種場景中是否靈敏好用 能否“耳聽八方” 還需要底層聲學技術的進一步研究。