幹貨 | 語音識別類產品細分及其應用場景--星空人工智能91视频免费观看網

讓機器能聽會說、能理解會思考還遠嗎？首先要實現的，就是“聽”的功能。

芝麻開門！

你的童年是否也曾這樣對著大門發出命令？

當然，大門用靜止表示對你的“忽視”。樂此不疲的孩子還是會時不時對著門喊上幾句，91视频免费播放的潛意識是希望得到門有所回應，比如：門開了。

命令失效的原因是什麽？因為大門本身不具備聽到聲音的能力，如果91视频免费播放能讓大門可以聽到你說的話、發出的命令，進一步才可以啟動語義和執行係統控製它的開關。

這就引申到本次重點介紹的91视频免费观看——語音識別。本次幹貨分享由語音識別產品經理：@ 焦糖瑪奇朵進行提供。希望能為大家打開語音識別的大門。

語音識別是一項將人類的聲音信號轉化為文字的過程。本文將從產品的角度對業界的語音識別產品進行歸類和說明。不同的產品類型具有不同的算法或者接口特性，對應不同的需求場景。

根據識別內容的範圍，語音識別的大類分列如下

1、封閉域識別：

識別範圍為預先指定的字/詞集合，即算法隻在開發者預先設定的封閉域識別詞的集合內進行語音識別，對範圍之外的語音會進行拒識。因此，可以將其聲學模型和語言模型進行裁剪，使得識別引擎的運算量也較小。並且可將引擎封到嵌入式芯片或者本地化的SDK中，從而使識別過程完全脫離雲端，擺脫對網絡的依賴，並且不會影響識別率。業界廠商提供的引擎部署方式包括雲端和本地化（如：芯片，模塊和純軟件SDK）。

產品類型：命令字/詞識別，語音喚醒，語法識別

產品形態：流式傳輸-同步獲取

典型的應用場景：不涉及到多輪交互和多種語義說法的場景，如簡單指令交互的智能家居和電視盒子，語音控製指令一般隻有：“打開窗簾”，“打開中央台”等，但是一旦涉及到程序猿大大們在後台配置識別詞集合之外的命令，如“給小編這篇文章來個打賞”，識別係統將拒識這段語音，不會返回相應的文字結果，更不會做相應的回複或者指令動作。

2、開放域識別：

無需預先指定識別詞集合，算法將在整個語言大集合範圍中進行識別。為適應此類場景，聲學模型和語音模型一般都比較大，引擎運算量也較大。將其封裝到嵌入式芯片或者本地化的SDK中，耗能較高並且影響識別效果。業界廠商基本上都以雲端形式提供，雲端包括公有雲形式和私有雲形式。本地化形式隻有帶服務器級別計算能力的嵌入式係統，如會議字幕係統。

產品類型按照說話風格的特點，分為：

（1）語音聽寫：語音時長較短（<1min），一般情況下均為一句話。訓練語料為朗讀風格，語速較為平均。一般為人機對話場景，錄音質量較好。

按照音頻錄入和結果獲取方式定義產品形態：

(a)流式上傳-同步獲取，應用/軟件會對說話人的語音進行自動錄製並將其連續上傳至雲端，說話人在說完話的同時能實時地看到返回的文字。語音雲服務廠商的產品接口中會提供音頻錄製接口和格式編碼算法，供客戶端進行邊錄製邊上傳，並與雲端建立長連接，同步監聽並獲取識別結果。

(b)已錄製音頻文件上傳-同步獲取，用戶需自行預先錄製好規定格式的音頻，並使用語音雲服務廠商提供的接口進行音頻上傳，客戶端與雲端的連接和結果獲取方式與上述音頻流類似。

典型應用場景：應用發展已經比較成熟：主要在輸入場景，如輸入法；與麥克風陣列和語義結合的人機交互場景，如具備更自然交互形態的智能音響，如“叮咚叮咚，轉發小編這篇文章。”，在無配置的情況下，識別係統也能夠識別這段語音，返回相應的文字結果。

（2）語音轉寫：語音時長一般較長（五小時內），句子較多。訓練語料為交談風格，即說話人說話無組織性比較強，因此語速較不平均，吞字&連字現象較多。錄音大多為遠場或帶噪的。

除了模型不同之外，按照音頻錄入和結果獲取方式定義產品形態：

(a)音頻流轉寫：流式上傳-同步獲取，與上述語音聽寫類似，唯一不同的是，識別的時長不會有一句話的限製。

(b)非實時已錄製音頻轉寫：已錄製音頻文件上傳-異步獲取，用戶需自行調用軟件接口或者是硬件平台預先錄製好規定格式的音頻，並使用語音雲服務廠商提供的接口進行音頻上傳，上傳完成之後便可以斷掉連接。用戶通過輪詢語音雲服務器或者使用回調接口進行結果獲取。

由於長語音的計算量較大，計算時間較長，因此采取異步獲取的方式可以避免由於網絡問題帶來的結果丟失。也因為語音轉寫係統通常是非實時處理的，這種工程形態也給了識別算法更多的時間進行多遍解碼。而長時的語料，也給了算法使用更長時的信息進行長短期記憶網絡建模。在同樣的輸入音頻下，此類型產品形態犧牲了一部分實時率，花費了更高的資源消耗，但是卻可以得到最高的識別率。在時間允許的使用場景下，非實時已錄製音頻轉寫無疑是最推薦的產品形態！

典型應用場景：如字幕配置，客服語音質檢，UGC語音內容審查

概念厘清

1、離線VS在線

在訊飛開放平台的產品定義和較多的客戶認知中，離/在線的區別在於識別過程是否需要通過雲端請求，即識別引擎是在雲端還是本地。而雲計算中的離/在線產品的引擎都處在雲端，區別在於在計算過程中，客戶端是否需要與雲端進行實時數據交互，即上述所述的音頻流和非實時已錄製音頻轉寫。兩者的定義有衝突，因此並不建議使用離/在線概念進行相關產品定義。

2、8K VS 16Khz采樣率語音模型

在眾多語音雲服務廠商中，會根據音頻采樣率進行分類，從而訓練出更適合各類采樣率的語音模型，最典型的為8K和16K模型。原始音頻信息保留越多越有利於識別率的提升，因此，16K音頻采用16K語音模型，其識別率會普遍高於8K音頻采用8K模型。

3、語音識別VS語義識別

語音識別是語義識別的前提基礎。語音識別將聲音轉化成文字，語義識別提取文字中的相關信息和相應意圖，通過執行模塊進行相應的問題回複或者反饋動作。

結語（栗子結合了一小丟丟語義）：

最後舉一個栗子作為收尾：“叮咚叮咚，給小編這篇文章點個讚唄。”，在無後台配置的情況下，封閉域的語音識別係統會拒識這段語音，開放域的識別係統卻能夠識別這段語音，返回相應的文字結果。而現階段的開放域語義係統在大概率情況下，還是會回複得比較生硬，並且也不會自動識別出相應的意圖並做出指令。按照現有的比較通用的方法，這個功能需要使用封閉域的語義識別在後台預先配置相關答案，並且根據預先配置的信息抽取意圖，再根據意圖類別和槽位信息執行相應的動作——即調用微信的點讚接口（假設可以）進行相應的點讚操作。

聽起來好繞呀，是不是覺得還是自己手動點個讚簡單粗暴省事得多了呢？然而，一切現代人類做起來自然而然&毫不費力的動作，卻都是建構在經過了億萬年的學習進化，兆億次閉環重複練習的智人基因！而任何的星空人工智能91视频免费观看也是需要一個巨量的數據訓練和一定的演變周期。並且在所有的科技發展進程中，率先取得突破並且在應用領域產品成熟化往往都是在封閉域，亦如現在正處封閉域產品化的語義識別（如：AIUI，echo等），而語音識別的產品成熟化已經走過了封閉域到達了開放域，正在向各行各業輸送星空人工智能的力量！

writer by 焦糖瑪奇朵

editor by 1024君

附圖：語音識別產品類別圖

掃一掃獲取最新精彩內容與學習資料

繼續閱讀：

星空人工智能91视频免费观看網倡導尊重與保護知識產權。如發現本站文章存在版權等問題，煩請30天內提供版權疑問、身份證明、版權證明、聯係方式等發郵件至1851688011@qq.com91视频免费播放將及時溝通與處理。！：首頁 > 大數據 » 幹貨 | 語音識別類產品細分及其應用場景

相關推薦