聽寫服務升級為錄音筆OS,搜狗AI如何行業改造?

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

摘要:搜狗 AI 交互技術中心總經理王硯峰對「聽寫服務」的角色進行了定位——錄音筆 OS,它不同於市場上眾多同類服務的原因,主要是它既提供轉寫、雲端、智能編輯等強大的中台服務,還憑借搜狗輸入法提供快速接入和硬件匹配的便利。通過 AI 錄音筆創新、開放搜狗語音轉寫服務、建立 AI 創新聯盟,搜狗打通了錄音筆的產品、技術與產業三個層面的鏈條,有望推動錄音筆行業進入 AI 時代。

機器之心原創

作者:吳昕

聽寫服務升級為錄音筆OS,搜狗AI如何行業改造? 科技 第1張

老瓶換新酒,搜狗如何推動錄音筆市場升級?

存在於 20 多年的錄音筆市場,幾乎和 MP3 同歲,但後者已經銷聲匿跡。僅限於擴容、續航、外觀改造的傳統錄音筆,在智慧型手機日益普及後逐漸進入了增長瓶頸期,產品同質化也越發嚴重。

據新思界產業研究中心發布的《2019-2023 年錄音筆行業深度市場調研及投資策略建議報告》顯示,從 2015 年到 2017 年,全國錄音筆銷量以龜速從 425 萬台增至 432 萬台。

錄音筆如何避免步入 MP3 後塵,在市場中博得生機,成了眼下急需解決的問題。

作為一家語音技術服務商,搜狗試圖充當攪動市場的鯰魚。繼今年春天搜狗推出 AI 錄音筆 C1,半年後,搜狗用具體行動進一步深挖錄音筆市場潛力。最近,搜狗宣布開放其核心技術能力「搜狗聽寫」服務,並牽頭愛國者、萬城集團、SONY錄音筆、紐曼四家錄音筆行業頭部企業成立 AI 創新聯盟。

搜狗 AI 交互技術中心總經理王硯峰對「聽寫服務」的角色進行了定位——錄音筆 OS,它不同於市場上眾多同類服務的原因,主要是它既提供轉寫、雲端、智能編輯等強大的中台服務,還憑借搜狗輸入法提供快速接入和硬件匹配的便利。正如 Google 的安卓系統對於手機,微軟 Windows 對於電腦,搜狗希望將開放的聽寫服務打造成錄音筆的「操作系統」,這是 AI 技術做到更大商業化的生態打法。

系統服務如何賦能?

AI 加持可能將會為行業迎來新的轉折點,這是近幾年來錄音筆行業內的普遍共識。但傳統數位錄音筆廠商在 AI 技術的研發上較為欠缺,且語音識別和轉寫技術壁壘較高。

基於搜狗轉寫技術的搜狗 AI 錄音筆 CI 已經得到了市場的檢驗和認可,其具備實時互譯、雲端分享、中英同傳等多種 AI 功能,以及高達 95% 以上的轉寫準確率都備受用戶青睞,上市後極短時間內就在多個電商平台取得了單品銷量第一的成績等。

搜狗決定將聽寫服務體系開放出來,進而推動整個錄音筆行業的 AI 化變革,這也是搜狗踐行其 AI 戰略的一次有效嘗試,可能將讓傳統錄音筆行業從單純依靠硬件銷售的模式轉向硬件+軟件雙服務的商業模式。

在開放「聽寫服務」的策略上,搜狗避開了做開放性平台向廠商提供 API 接口的傳統模式,而是瞄準「錄音筆的 OS」——通過藍牙開放協議,讓合作廠商零成本接入,讓用戶通過 PC 和移動端享用搜狗聽寫增值服務。

目前搜狗輸入法語音請求峰值已超 7 億次,穩居全球最大的中文語音應用,依托於此,搜狗聽寫服務背後的轉寫技術已處於行業領先地位,此外開放的轉寫技術方案包括:

1、完善和高準確度的轉寫技術。實時語音轉寫運用了搜狗自研的延遲可控的 Adaptive Attention-based 端到端建模技術,非實時語音轉寫功能使用業界領先的深層 Transformer-based 端到端語音識別技術,語音轉寫準確率可達 95% 以上。

2、接入搜狗輸入法。由於用戶一般會使用同一個輸入法帳號,基於用戶長期使用的數據積累,系統可以為用戶會建立起個人的輸入詞庫,使用戶常用的專業詞匯、人名地名會被輕鬆識別。

3、多端同步編輯。無論在 PC、安卓還是 iOS 上,用戶都可以同步對錄音轉寫的文字,進行編輯。未來輸入法可以提供錄音文件的導入,導入完了以後進行閉環的管理和編輯等一系列功能,即使用戶沒有帶錄音筆,換一個電腦登錄自己的輸入法,也可以把錄音文件同步過來,進行跨電腦的編輯。同時由於配備了聲紋識別能力,轉寫的文字可自動區分出說話人的角色,進行分段整理文字。

4、智能編輯。搜狗轉寫服務可以通過雲端智能糾錯編輯技術,基於詞圖搜尋和輸入糾錯模型,針對置信度低的轉寫結果提供多個候選詞,幫助用戶對轉寫結果進行糾正,同時還具備了良好的自動區分說話人、智能文本順滑和標點預測等能力,可以為用戶提供更多便捷功能。

5、雲存儲服務。用戶的錄音和文字都能作為一種資產,長期保存在雲端。

此外,在語音增強方面,搜狗自研的 Smart Voice 麥克風陣列算法能夠對噪聲和混響進行多重深度優化,確保人聲的高保真還原。

值得一提的是,本次搜狗聽寫服務做到了與搜狗輸入法的打通,這不僅為聽寫服務帶來了流量和數據上的巨大優勢,同時更是搜狗輸入法「表達信息更簡單」使命的延伸,也是搜狗聽寫服務相比其他語音轉寫平台的優勢所在。

目前,搜狗輸入法在 PC 端占有 99% 的市場份額,在手機端用戶日活超 4.5 億,搜狗聽寫服務基於搜狗輸入法的用戶使用習慣,能夠自動構建個性化識別網路,使用戶常用語錯誤率下降 40%。

搜狗開放聽寫服務後,可以為市場上 90% 以上的錄音筆產品提供接入服務,讓所有有需求的用戶享受「錄音 1 小時,出稿 5 分鐘」的極致體驗。

搜狗公司 AI 交互技術中心總經理王硯峰坦言,未來 AI 賦能一定會越來越重,搜狗開放服務是做了一件很重的事兒。

一直以來,傳統錄音行業的研發重點都在於人聲保真和場景降噪,錄音音頻的後續生產力轉化一直被行業所忽略。

基於搜狗聽寫服務,搜狗創新性地開拓出一個專業化的錄音文件後期智能處理平台,幫助用戶輕鬆做到錄音音頻向文字的轉化,有效節省人力和時間成本,使音頻不僅「可聽」而且「可看」,也推動著多年來進度滯緩的錄音筆行業做到創新躍遷式發展。

聯盟意味著什麼?

發布會現場,搜狗聯合愛國者、紐曼、SONY錄音筆、萬城集團成立了 AI 創新聯盟。現在購買合作廠商錄音筆的用戶可以通過兩條路徑享用搜狗聽寫服務:對於市面上的現有產品,用戶將錄音筆 USB 接口插入電腦,搜狗輸入法就能探測到錄音筆的插入,開始按需執行語音轉寫服務;對於 AI 創新聯盟內企業未來研發的新品,在移動端開放藍牙協議後,用戶通過藍牙與搜狗錄音助手相連,就可以實時完成語音轉寫服務。

可以預見的是,這四大錄音筆生產廠商的加盟將為 AI 錄音筆市場帶來一股軟硬融合的推動力量。從以硬件為主的單一收益模式向硬件+服務的多種收益模式轉變,促進錄音筆行業做到全面智能升級,與 AI 創新深度融合。

而在軟件端,通過聽寫服務接入的輸入法,還將為錄音筆市場帶來龐大的流量池。目前搜狗輸入法 APP 端擁有超過 4.5 億的日活用戶,PC 端更是占據 99% 的市場份額。目前該流量池已經與搜狗的智能轉寫服務打通,未來應用這一服務的用戶將會越來越多。

由於打開輸入法時使用具體的帳號,像特定領域和行業以及個性化詞匯都存儲在自己的帳號里,因此轉錄的時候,轉錄結果也會貼近你的詞庫。

這也意味著搜狗開放給錄音筆在語音識別、智能糾錯等等方面的能力會在反復應用中不斷錘煉提升,層出不斷的新俚語、新術語也能通過雲端同步其中,錄音筆產品技術能力的成長體系得到了保障,長遠來看其工具價值呈現出了一種穩步上升的狀態。

會上,搜狗 CEO 王小川重申了公司的 AI 戰略。他表示,搜狗很少自稱 AI 公司,但作為一家底色是技術型公司的互聯網公司,AI 是我們的技術之一。搜狗的使命是讓表達和獲取信息更簡單,輸入法是幫用戶表達信息,搜尋是幫用戶獲取信息。

堅持「自然交互」與「知識計算」雙驅動是搜狗的 AI 發展路徑。落實到具體產品上,主要為語音交互系統知音 OS 和知識計算平台深智引擎。換句話說,落實在信息表達和信息獲取兩個層面。

目前,搜狗輸入法語音請求峰值超過 7 億次。在從文字走向語音的道路上,搜狗一揮手獲得了巨大的市場份額。同時,搜狗的 AI 語音合成功能、搜狗分身都在今年成為 AI 界的重要新聞。

通過 AI 錄音筆創新、開放搜狗語音轉寫服務、建立 AI 創新聯盟,搜狗打通了錄音筆的產品、技術與產業三個層面的鏈條,有望推動錄音筆行業進入 AI 時代。

隨著 AI 落地進入深水期,互聯網公司不再滿足於通過單點技術來做到應用功能,而是融合數據、技術和流量池優勢,通過聯合產業、平台開放來打造持續成長的生態以創造更大的價值。

作為錄音筆行業的新勢力與破壁者,搜狗憑借自己的 AI 技術優勢與硬件能力,率先打破僵局的勇氣可嘉。進一步,通過開放聽寫服務並與多家企業達成聯盟,不僅能給錄音筆市場注入新的增長動力,更能夠通過 AI 賦能更多合作夥伴為產品注入 AI 靈魂,同時也使得錄音筆行業的商業模式從硬件收費模式向硬件+服務模式轉變,推動整個行業的 AI 化轉型。

>聽寫服務升級為錄音筆OS,搜狗AI如何行業改造?

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!