當語音技術從前沿變為基石,未來還有多少想像的可能?

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

摘要

當語音交互從前沿技術轉變為技術基石,出門問問要開辟出新的方向。

對於馳騁消費電子領域多年的出門問問來說,2018年是具有里程碑意義的一年。

在五月份舉辦的發布會上,出門問問發布了國內首款可量產,並可立即採購的AI語音晶片模組「問芯」,這對國內智能製造產業來說,是具有重要影響的事件,也讓一直以C端用戶為主導的出門問問,進一步走向了B端。

從2013年的出門問問app,到2014年的智能手表操作系統TicWear,到2015年軟硬結合的中國智能手表TicWatch,隨後是2016年的智能後視鏡TicMirror,2017年的TicKasa智能音箱,到2018年年初的智能無線耳機TicPodsFree,出門問問嘗試通過智能可穿戴、智能車載和智能家居三大場景布局消費領域,並取得一定成功,這無疑讓這家公司有了更多展示智能語音技術未來生活的可能,但更進一步,也讓出門問問對於C端消費者有了非常深入的了解。

對於消費者需求的把控,對於智能語音行業的觀察,給了出門問問極好的切入B端的機會。那麼對於出門問問來說,當語音交互從C端走向B端,將會產生怎樣的行業創新,智能語音交互如何深刻影響我們的未來?在7月21日的極客公園Rebuild2018科技商業峰會現場,出門問問創始人&CEO李志飛就帶來了他的思考與分享。

以下是李志飛在極客公園Rebuild2018科技商業峰會上的演講實錄(經過極客公園編輯,略有刪減):

出門問問在2012年就開始做語音交互相關的東西,那時大家對人工智能還不是很了解,出門問問就做了很多這方面的前沿技術探索。從語音識別技術本身的研發,把聲音轉成文字到怎麼理解這個文字,到後面怎麼跟服務對接,整套系統都是在2012年就做了很多研發。在那時候技術非常不成熟,而且大家對這個技術能幹什麼也不是很清楚,所以是屬於非常前沿的技術探索。

為了把語音交互落地到非常有用的場景里,我們做了很多探索。早期主要是把語音交互放到消費電子場景下面,比如過去幾年基本每年出一個新的品類,智能手表、智能車載設備、智能音箱、智能耳機,每一個設備都是作為普通消費者能感受到的未來語音交互的需要。由於今天很多技術的限制,體驗不一定是最優的,但我們認為在未來的消費場景里面,可穿戴、車載和家里的場景基本上會覆蓋語音交互。

今天在過去四五年的探索後,我們覺得整個語音交互技術,包括其他行業AI的技術,都從前沿的技術變成了一個基石的技術。前沿技術的特色就是大家的認知很不清晰,技術很不成熟,不知道用在什麼地方。但是經過過去幾年的教育也好,嘗試也好,變成了一個基石技術,需求更加清晰了,我相信在座的絕大部分人都用過一些語音交互的設備,或者是場景。整個技術也稍微成熟一點,這個時候變成基石技術,整個市場會有什麼樣的變化?

當語音交互成為基石技術

首先大家可以看到這是一些咨詢機構的數據,無論是用戶的使用規模,比如語音搜尋,可能從20%,未來變成50%,你每搜十次搜尋引擎,有5次是語音的交互方式。這不一定是在手機上,可能是在音箱上,可能在車里面,都是用語音交互做。但是做的事情主要是為了搜尋內容。包括大家非常清楚的智能音箱這個市場從無到有,現在全球是幾千萬的市場。

從設備場景的角度去看,語音交互可能有那麼幾大類,一個是toC,一個是toB,另外還有一個toG。ToC前面講了很多,各種各樣的交互設備,更多的是來變更人與機器的交互方式。比如車里面和家里面,當你在路上的時候,今天可能更多是鍵盤和觸摸屏,但是未來語音交互也會成為非常重要的交互方式。

ToB更多是幫助企業去提供更好的工具,提高他們的效率。因為工具更加個性化和人性化,就可以幫他們的用戶提供更好的用戶體驗。ToG跟ToB比較類似,只是行業不太一樣,比如司法、醫療、教育可以有很多應用場景,比如高考的打分,這都是偏政府的行業,是通過語音提供一個更有效率,用機器可以自動完成的事情,或者提供更好的用戶交互的方式。

當語音交互的技術從非常前沿的技術變成基石技術。作為語音交互的創業公司,出門問問在過去一年多時間里做了一些探索,主要總結來說有兩個方向,上遊是跟晶片深度集成,下遊是垂直行業深度綁定。

出門問問是全世界全中國少有的面向消費者toC的AI公司,但現在我們從純toC在嘗試一些toB的落地,主要的優勢有這麼幾點。第一是toC時我們需要提供完整的體驗,這導致我們開發了很多完整的技術鏈。當我再去給一些企業提供服務的時候,比如做一個智能的客服系統,無論是語音識別還是知識題庫,出門問問都有自己的技術,不需要整合第三方。這樣的好處就是可以做很快的定制,同時我們因為有軟硬結合的產品,這些是一站式的,不需要找多家合作夥伴。

還有一個特別重要的優點,出門問問在過去做toC的,用戶體驗是非常重要的。ToB很多服務用戶體驗不是很好,因為ToB的項目是一單一單的,沒有足夠的人力為單一的項目做出很好的體驗。出門問問過去在toC層面做了很多積累,所以即使到toB的場景,還是可以提供非常好的用戶體驗。

這里舉一個例子,我們因為有自己的軟硬結合和算法基礎,可以很快定制。所以最近跟台灣遠傳電信聯合發布了智能音箱,基本上用三個月的時間就打造了台灣本地的系統,從硬件到軟件到語音助手。對方之前花了六個月跟三四家合作夥伴,有的做語音,有的做內容整合,有的做硬件一直沒有解決,我們只是三個月就可以快速的達到非常好的體驗,這就前面說的toC結合toB的優勢。

接下來講一下我們的產品和優勢。首先是我們發布的問芯,這是AI語音晶片模組。解決的問題就是現在的智能電視不能遠處喚醒。這是和杭州國芯一起合作。但我們把麥克風的技術,信號處理的技術,包括低功耗的喚醒技術做到晶片里面去。只要用一個usb線跟我們這個晶片連接,智能電視一下子就成為一個可以遠程語音交互的電視。這樣的合作大概三四個星期就可以把體驗做出來。在以前,如果一個語音軟件方案直接跟智能電視去整合,可能三四個月都整合不出來,而且效果都非常差。

另外,我們也會發布一個專門面對IoT的設備控制晶片,比如室內空調、燈泡等等就不需要通過智能音箱作為控制台。我們希望未來晶片模組可以直接放在燈泡里面,回家直接說開燈關燈就可以打開,而不是現在先要把音箱喚醒才能交互。當然這是還在研發的產品,在未來我覺得非常具有前景。這種設備可以用非常人性化的,不需要前面的喚醒詞就可以直接喚醒,會帶來非常好的用戶體驗的改進。

智能語音的深度想像

前面是智能電視晶片,是在上遊提供更好的體驗。接下來是下遊場景能做什麼。這里有一個系統叫問真,是AI金融的反欺詐系統,當你找金融機構貸款的時候,很重要一點就是金融機構判斷你是不是你,你說的是不是真話。比如你說你住在地段很貴的地區,比如在北京的國貿,系統要判斷你說的是不是真話。

我們有一個系統根據你說話,它會自動問你一些問題,這個問題不是提前設好的,是根據你說的話來問,系統也知道答案。根據你回答的答案和系統答案是不是一致,就可以判斷是不是真話。這里面用到很多,還有人臉識別,識別是不是你,還有基於數據庫的對話系統,判斷你是不是真實的,是真實的才會進行貸款的動作。

這就是根據你提供的一些信息,然後後台會自動的根據你的信息提出一些問題,然後它也知道答案,考核你說的是不是真的。以前的系統是你填了信息以後,有一個人專門給你打電話,然後去念一些一樣的問題,然後你答。很大的問題就是因為這個工作非常枯燥,很多時候打給你電話的人問題就是統一的,基本上你一個人問了一遍,另外一個人再去考試,基本上就能夠作弊。

但是像我們這個是完全個性化的系統,根據你的答案不一樣,可能會有不一樣的問題,所以基本上很難作弊。第二由於背後是自動化的系統,具有實時性,也不需要花費人力。在我們看來把語音交互放在這個系統里面是非常好的創新。

再給大家講的是在保險行業的語音交互例子,保險行業也是toC的,我們所做的事情就是利用toC的經驗,跟保險後台數據系統結合起來,最後去提供一個更好的用戶體現,使他們的用戶對他們的服務更加滿意。這個其實大家可以看到是toC的,和我們買的智能音箱的交互是一模一樣的,但可以帶來的就是跟具體的保險業務結合起來,讓你的交互做得非常的像toC一樣的體驗。

還有一個例子是我們在智能家居或者房地產行業跟合作夥伴做的解決方案,也是下遊場景的深度應用。那麼回到現在的問題,當語音交互從前沿技術變成基石技術以後,我們到底怎麼進一步落地?我們的答案是往上遊集成到晶片里面,往下遊跟場景深度的綁定,這就是我想和大家分享的。