• <track id="6sua3"></track>

  • <menuitem id="6sua3"></menuitem>
  • <menuitem id="6sua3"></menuitem>

    <progress id="6sua3"><bdo id="6sua3"></bdo></progress>
    <samp id="6sua3"></samp>

        1. <samp id="6sua3"></samp>

            【走進未來公司】實時轉寫文字、最高定價5999 “能理解會思考”的科大訊飛要做錄音筆界的“寶馬”?

            2021-07-27 10:10:50     來源:中國科技新聞網

            中國科技新聞網7月27日訊(趙芙瑤)1877年,美國發明家托馬斯·愛迪生發明了人類歷史上第一臺留聲機。這臺“會說話的機器”震驚世界,正式開啟了人類錄音的歷史。之后的數百年來,聲音存儲的介質從留聲機、唱片、磁帶、CD、錄音筆一路演變,在智能手機迭代加速的今天,許多用戶將手機、iPad等終端作為便攜錄音設備的首選,錄音筆似乎在漸漸淡出人們的視野。

            華經產業研究院發布的《2020-2025年中國錄音筆行業市場調查研究及投資前景預測報告》顯示,2015-2018年我國錄音筆行業市場規模增速緩慢,2018年我國錄音筆行業市場規模為21.04億元,同比增長0.02%,隨著智能錄音筆的推廣,2019年我國錄音筆行業市場規模增長至23.17億元,同比增長10.1%。

            彼時人工智能企業科大訊飛洞察到了高端智能錄音筆市場的空白:“我們委托市場調研機構調研后發現,市面上幾乎沒有1000元以上的高端錄音筆,市場需求也較少,但我們仍然推出了AI智能錄音筆,通過數據來看,我們根本不是搶占了原有的錄音筆的市場份額,而是成為了整個錄音筆市場當中的增量。”在中國科技新聞網聯合百度百家號攜手打造的“走進未來公司”系列之走進科大訊飛的交流環節中,科大訊飛副總裁兼消費者事業群副總裁李傳剛這樣說道。

            號稱一站式解決錄音、輸出、轉寫、儲存等多種需求,支持多語種識別、翻譯,并能做到深度降噪的科大訊飛AI智能錄音筆究竟有多神乎其神?錄音筆能做到區分說話人角色、將語音轉寫成文字時準確率高達98%并去掉語氣詞,背后是何種技術在支撐?

            由中國科技新聞網與百度百家號攜手打造的“走進未來公司”系列報道,本著“挖掘科技故事,傳播創新精神”的理念,本期走進了中國最大的智能語音技術提供商科大訊飛,探秘其如何利用前沿人工智能技術推動智能錄音筆產品迭代,顛覆用戶對錄音筆的傳統認知。

            中國科技新聞網/攝

            定價399—5999元 高端AI智能錄音筆是否“無可取代”?

            提起錄音筆,實際上早已不是簡單的錄音功能,隨著技術的發展,錄音筆已經迭代成為擁有語音轉寫、圖文識別、自然語言理解等多種功能為一體的智能設備。

            而要追溯錄音筆的前世,不得不提及大名鼎鼎的貝爾實驗室,上世紀50年代,一群科學狂人搗鼓出一套系統,雖然當時這套系統只能識別不超過10個的英文數字,但這項創舉被后世公認為開啟了語音識別技術的大門。

            此后,IBM、Nuance、微軟、谷歌等國際巨頭開始在語音識別技術方面“大展拳腳”。在中國,科大訊飛也不甘落后,通過多年的努力與技術沉淀,科大訊飛在巨頭林立的競技場拼殺出一片屬于自己的天地。

            7月20日,在科大訊飛展廳,各式錄音筆訴說著科大訊飛語音識別技術的發展歷程。據了解,AI智能錄音筆針對不同的人群提供了多種機型,包括腕式錄音筆R1、帶屏智能錄音筆SR101和SR302,旗艦款大屏智能錄音筆SR502和SR702、再到尊享版SR901等全線機型可供選擇,定價從399元至5999元不等。

            中國科技新聞網/攝

            這些看似冰冷的機器,實際上已經融入了科大訊飛國際先進的智能語音技術、專業的收音降噪算法等,具有錄音實時轉文字、中英文邊錄邊譯、專業級降噪等核心亮點,用戶還可以將所錄內容上傳至云端,并實現多終端的編輯與分享。

            正是上述功能的附身,讓錄音筆有了更廣泛的應用場景,轉寫準確率高達98%,為媒體訪談、會議溝通、學習培訓等場景的記錄帶來顛覆式體驗。

            目前,眾多用戶將智能手機作為錄音的首選,對AI智能錄音筆了解甚少。不少用戶會發出質疑的聲音:一款錄音筆定價為何比智能手機還高?產品配置是否“配得上”定價?有些手機APP也可以將語音轉寫成文字,消費者花高價購買AI智能錄音筆的理由是什么?

            帶著諸多疑問,中國科技新聞網與科大訊飛訊飛極智軟件研發部總監楊猛、訊飛極智產品經理任曉寧以及副總裁李傳剛進行了深度交流,由內而外的剖析了AI智能錄音筆的技術架構、市場定位以及未來發展趨勢。

            談及為何要“死磕”錄音筆產品,李傳剛分享了一段鮮為人知的心路歷程。他說,在2008年,他曾遠赴德國寶馬總部進行交流學習,自己購買的寶馬三系也已經矜矜業業地工作了九年,寶馬精益求精的品質與服務深深打動著自己。“我當時就下定決心,有生之年我一定要做出一款產品,這款產品要成為品類界的寶馬。之后我選擇做科大訊飛錄音筆,希望他成為錄音筆界的寶馬。”李傳剛抬起手臂,語氣堅定地說道。

            在李傳剛看來,技術革新和消費升級的雙重驅動下會產生新的機遇,以科大訊飛的AI技術為依托,對傳統的錄音筆行業進行賦能,將會產生全新的顛覆式體驗,為消費者帶來巨大價值。

            中國科技新聞網/攝

            在給錄音筆命名時,李傳剛也參考了寶馬的命名方式,以7、5、3作為錄音筆型號的開頭。“之后我還推出了9系錄音筆,在命名方式上超越了寶馬。假如未來業務發展更加壯大,我希望能證明我是一個有情懷的小企業家。”李傳剛笑稱。

            李傳剛從兩個維度說明了AI智能錄音筆的不可替代性。從硬件終端來看,正如目前的智能手機可以代替從前幾百萬像素的數碼相機,但無法撼動高清攝像機、單反的地位一樣,科大訊飛AI智能錄音筆的硬件采用哈曼的兩個定向麥克風與六個陣列麥克風,可以實現360度環繞無死角的聲音采集、15米拾聲,加上主要集中在降噪技術上的精密算法,這都是手機無法實現的。

               從語音解決方案來看,購買科大訊飛錄音筆終端后,將終身免費使用智能語音轉寫服務,

            目前AI智能錄音筆支持10大語種的轉寫,未來可能支持更多語種,而后續的升級服務用戶均可以免費享受。

            在定價策略方面,定價5999元的9系錄音筆主要面向商務人群,選擇7系的更多為教授、教師,5系用戶中白領占比較高,3系和便攜式則面向學生群體。購買錄音筆終端并不是僅僅針對配置硬件的一次性消費,而是硬件加服務的雙重消費,因為對于服務器的維護、軟件功能的升級迭代都需要長期投入。

            “能聽會說,能理解會思考”? AI智能錄音筆背后的科技底色

            縱觀科大訊飛AI智能錄音筆的發展歷程,訊飛極智軟件研發部總監楊猛從技術角度解讀了其升級迭代的方向。最初的錄音筆僅支持將語音轉寫成文字,此后基于用戶對于方言、多語種以及翻譯的需求,對錄音筆進行了新的創新。針對于脫網狀態,新增了OCR識別功能,用戶無需網絡即可利用該功能輕松提取PPT、EXCEL、圖片內的文字信息,以便快速編輯分享。

            中國科技新聞網/攝

            此后經過不斷的調研與實踐,轉寫后文本已經可以做到角色分離和角色標注,能夠幫助用戶區分不同講話人,從而更好地進行會議記錄和后期編輯,語氣詞的過濾也讓文本更加流暢與書面化。“后期將對轉寫后的文本進行智能摘要,這是我們從技術角度要拓展的方向。”楊猛透露了AI智能錄音筆的未來發展趨勢。

            那么這一切是如何實現的?這得益于科大訊飛曾提出的一種全新語音識別框架——深度全序列卷積神經網絡(DFCNN,Deep Fully Convolutional NeuralNetwork),DFCNN使用大量的卷積層直接對整句語音信號進行建模。基于該框架,2016年科大訊飛又推出了深度學習全序列神經網絡,將聲音的全語段送至模型中,將聲音的波形也就是語譜圖進行頻率的分解,這樣既有時域信號,又有頻域信號,輸入端會更加豐富、模型更加精準。

            “角色分離的實現則是根據語音的特性進行區分,語氣詞過濾方面,我們在語義的層面會根據文本的特性通過AI算法進行計算,它是一個端到端的算法模型,中間會有一些加強層、過濾層,還能利用DFCNN的框架,根據語言的結構,將語序顛倒的句子重新排列,讓文本更加流暢。”楊猛表示。

            “這個模型通過AI的智能匹配把語音、語速提取出來,專項對語音進行加強,將環境中的白噪、彩噪等壓制下去,最終輸出一個相對純凈的音頻,送到后端的轉寫引擎,從而達到非常高的轉寫準確率,而且整個過程都是在錄音不間斷的情況下實現的,它還會根據錄音的歷史數據來進行動態優化,使我們的引擎模型更加智能。”楊猛用通俗易懂的語言道出了錄音筆降噪背后的技術架構,即一方面對干凈的語音進行加噪,并與干凈語音一起進行混合訓練,從而提高模型對于帶噪語音的清晰度。

            楊猛續稱,DFCNN還可以讓錄音根據歷史數據,對下文進行調整,精準區別于以傳統的僅以語音作為序列的輸入模式,大幅提高轉寫準確率。準確率的提升與數據采集也密不可分,科大訊飛積累了22年的數據,并且每年都會對數據進行清洗、過濾以及補充,讓數據更完整有效。

            在語句專業領域的識別方面,科大訊飛通過在醫療、教育、科技等各個領域數據的不斷積累,以此來增加專業詞匯量,并通過場景建模訓練,進而提升識別率;在語義的識別方面,類似于“登機”(登基)等語義上的歧義非常之多,所以根據上下文進行計算和判斷,幫助提升文本準確率至關重要。

            隨著錄音筆應用場景的不斷豐富,技術的迭代與升級,科大訊飛曾提出的讓機器“能聽會說,能理解會思考”的愿景正在實現。從AI智能錄音筆終端的表現來看,支持多語言轉寫、專業級降噪說明其“能聽”;轉寫準確率高達98%、能根據上下文對文本進行動態優化說明其“能理解”;能夠區分說話人角色、根據語言的結構,將語序顛倒的句子重新排列說明其“會思考”。目前,科大訊飛已推出便攜式智能腕式錄音筆,更輕、更薄、更聰明、更智慧將是其不斷探索的目標。

            科技新聞傳播、科技知識普及 - 中國科技新聞網
            關注微信公眾號(kjxw001)及微博(中國科技新聞網)
            微信公眾號
            微博

            免責聲明

            中國科技新聞網登載此文出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其描述。文章內容僅供參考,不構成投資建議。投資者據此操作,風險自擔。


            推薦閱讀
            已加載全部內容
            點擊加載更多
            www.97sese.com.