這項科技會引領矽谷的下一次革命嗎?

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

這項科技會引領矽谷的下一次革命嗎?

圖片來源:Photograph by Sam Kaplan for Fortune, Styling by Megumi Emoto―Anderson Hopkins

亞馬遜、蘋果、Google等公司正在爭先後恐地投入數十億美元,以使語音識別技術成為人類與互聯網交互的主要途徑。這也將是喬布斯發布iPhone以來最重要的技術革命。

原文原載於:2018年11月1日刊的《財富》雜誌

短短四年前,亞馬遜還只是一家很成功的在線零售商,也是美國商用在線主機服務的主要供應商。此外它有也自己的消費電子產品,即人們熟知的Kindle電子書。Kindle雖然是一款大膽的作品,但考慮到亞馬遜本身就是賣書起家,這一嘗試自然是可以理解的。現在,亞馬遜的Echo智能音箱和它的Alexa語音識別引擎又走進了很多家庭,可以說亞馬遜在個人計算與通訊領域,已經掀起了自喬布斯發布iPhone以來的最重要的技術革命。

一開始,它只不過是個看似新奇的小玩意兒。2014年11月,亞馬遜發布了Echo智能音箱,它使用了人工智能技術來傾聽人類的提問。Echo會掃描聯網數據庫中的數百萬個單詞,不論你提出的問題是深邃還是淺顯,它都能給出答案。目前,Echo智能音箱的銷量已達到4700多萬台,其用戶來自從阿爾巴尼亞到讚比亞的80多個國家,其服務器每天要回答用戶的1.3億多個問題。

亞馬遜的語音識別引擎Alexa得名於亞歷山大港的古埃及圖書館,它可以按照用戶的要求播放音樂,提供天氣預報信息或體育比賽的得分,甚至可以遠程調節用戶家里的室溫。它還會講笑話,回答一些瑣碎的問題,抖個機靈,或者開些無傷大雅的玩笑。(比如你可以讓它放個屁來聽聽)。

亞馬遜並沒有「發明」語音識別技術,實際上語音識別技術已經發明出來幾十年了。亞馬遜甚至並不是第一家提供主流語音識別應用的科技巨頭。蘋果的Siri和Google語音助手的上市時間要比它早得多。微軟Cortana的發布基本上與Alexa在同一時期。但是隨著Echo的廣泛成功,語音識別領域的競爭驟然激烈了起來,各大科技廠商紛紛投下重註,試圖將這些「智能」家居設備變得跟PC甚至和智慧型手機一樣重要。

正如Google的搜尋引擎算法徹底改變了人們的信息消費模式,進而顛覆了整個廣告行業一樣,由人工智能技術驅動的語音識別技術也會推動類似的革命。亞馬遜Alexa部門的首席科學家羅希特・普拉薩德表示:「我們想抹平用戶使用互聯網時的不順暢,而最自然的方法就是聲音。Alexa不是那種一下子給你展示很多搜尋結果,然後說‘選一個吧’那種搜尋引擎,而是會直接告訴你答案。」

各大科技廠商紛紛將人工智能與語音識別技術相結合,其目的遠遠不只是為了推出一款聖誕購物季最熱賣的小家電這麼簡單。目前,Google、蘋果、臉書和微軟等公司紛紛砸下重金研發競品。據投資公司Loup Ventures的分析師吉恩・蒙斯特估算,上述幾家科技巨頭每年在語音識別技術上的研發支出合計超過了50億美元,約占年度研發預算總額的10%。他認為,語音識別技術的出現是計算領域的一個「具有重大意義的變化」。他認為,語音指令很快將取代鍵盤和觸屏,成為「我們與互聯網交互的最常見的方式」,。

隨著各大廠商紛紛投入重註,語音識別助手領域的競爭也變得愈發激烈。從研究公司Canalys提供的數據看,目前亞馬遜在這一領域暫時領先,它在全球聯網音箱市場上的份額達到了42%。Google的Home智能家居設備以34%的份額暫居亞軍,它搭載了Google自研Google助手,據說近期的銷量已經反超了亞馬遜。蘋果的HomePod價格最貴,加入戰局也是最晚,雖然市場占有率排名第三,但份額仍遠遠不如前面兩家。去年10月,臉書也推出了自己的Portal系列影音設備,它們也具備部分語音識別功能。尤其值得注意的是,它搭載的也是亞馬遜的Alexa語音識別引擎。

這項科技會引領矽谷的下一次革命嗎?

這項科技會引領矽谷的下一次革命嗎?

當前,聯網智能音箱以及類似設備的市場規模已然不小,而且還在繼續增長。不過對於這些科技巨頭來說,語音識別技術的價值遠遠超過這些設備本身。據市場研究機構全球市場觀察公司(Global Market Insights)的研究,2017年,全球智能音箱市場的銷售額是45億元,預計到2024年將增長至300億美元。不過這幾家科技巨頭顯然並不在乎賣硬件的這點小錢,比如亞馬遜基本是在將Echo保本甚至虧本銷售。

在去年歐美地區的假日購物季期間,亞馬遜推出了迷你版的Echo Dot音箱,售價只有29美元,ABI研究公司認為這個價格甚至還要低於它的零部件成本。各大廠商之所以肯做賠本生意,就是為了把用戶鎖定在他們的其它產品和服務上。比如亞馬遜就是要通過Echo產品提高亞馬遜Prime訂閱服務的價值。Google則寄希望於語音搜尋功能能夠引來更多的廣告收入。蘋果則希望以語音識別技術為工具,將手機、電腦、電視遙控器甚至是車載軟件整合在一塊,打造一體化的體驗。

由於語音識別領域已經吸引了這麼多的投資,而且還在快速創新,因此現在預測誰是贏家還為時過早。但有一點大家已經形成了共識,那就是有了人工智能加成的語音識別技術,必然將向今天的智慧型手機一樣,成為我們訪問互聯網的新用戶界面。另外,語音識別技術也將降低人們使用科技的門檻,促進科技的普及。Google公司負責Google助手與搜尋業務的產品與設計的副總裁尼克・福克斯表示:「它讓那些不太識字的人也能使用這個系統。另外,人們在開車的時候也可以使用它,做飯的時候也可以用它來聽菜譜。每過一段時間,科技就會發生一次結構性的轉變。我們認為,語音識別就是這樣一種轉變。」

雖然如此,但今天的語音識別技術仍然處於比較早期的階段。它的應用還比較初級,而且它也有一些比較大的風險因素。比如科技公司會不會利用它對用戶進行竊聽,以及科技公司通過收集公民的語音數據又攫取了多少權力,人們對這些問題都存在著合理的擔憂。華盛頓大學電氣工程學教授、世界頂級的語音和語言技術科學家瑪麗・奧斯坦多夫表示:「有了人工智能語音識別技術,我們就好比從螺旋槳飛機進入了噴氣式飛機時代。」她指出,現在的語音識別技術已經能夠很好地回答那些直截了當的問題,但在真實語境的對話中,表現得仍然令人失望。「在能識別多少個單詞、聽懂多少個指令上,人工智能語音識別技術表現得非常出色。但我們畢竟還沒進入火箭時代。」

幾十年來,科技行業一直堅信,語音識別技術必將成為下一個「殺手級應用」。早在上世紀50年代,貝爾實驗室就開發了一個名為奧黛麗(Audrey)的系統,它可以識別從1到9的語音數字。20世紀90年代時已經有了一款名叫Dragon NaturallySpeaking的PC軟件,它可以做到簡單的語音識別功能,而不需要說話者每說完一個單詞就尷尬地停頓一會兒。但直到蘋果公司2010年在iPhone上發布了Siri語音助手,消費者才意識到一個擁有強大計算能力的語音識別引擎能做哪些事。

大約就在同一時間段,亞馬遜這樣一個充滿了《星際迷航》式幻想的公司(它的老板貝索斯也是一個正牌《星際》迷)開始暢想,能不能將企業號星際飛船上的那種會說話的電腦變成現實。亞馬遜公司的普拉薩德曾發表過上百篇關於語音識別人工智能及相關話題的科學文章,他表示:「在我們的暢想中,未來你可以通過語音與任何服務交互。」而Alexa就是為此而生的。它是一台多才多藝的設備,可以讓消費者更容易地與亞馬遜進行交互。

隨著語音識別技術的進步――也就是計算速度越來越快,價格越來越便宜,越來越普及,因此日益主流化――亞馬遜、Google、蘋果等科技廠商也得以更容易地建立一個無縫的網路,利用語音識別技術,將智能家居設備與他們旗下的其他系統連接起來。比如蘋果CarPlay的用戶下班路上可以告訴Siri,別忘了在蘋果電視上下載最新一集的《權力的遊戲》,然後讓HomePod等我一回家就開始播放。兩年前,Google也發布了基於語音識別技術的智能家居產品Home,它將Google的音樂服務(YouTube)和最新款的Pixel系列手機和平板產品結合在了一起。換言之,每個科技巨頭都將語音識別技術當作了連接其多個數位產品的紐帶。

上述幾個科技巨頭個個都有超強的盈利能力,因此他們都有充足的資金來搞研究和行銷,最終拿出的產品也各不相同。蘋果和Google都有自己的移動操作系統,也就是說,iPhone和所有的安卓手機在出廠時就已預裝了Siri或Google助手。相比之下,亞馬遜就得說服用戶將Alexa應用下載到他們的iPhone或安卓手機上了。前華爾街分析師蒙斯特認為:「要打開Alexa語音識別應用,就要比Siri和Google助手多花一步,這對亞馬遜是一個明顯的劣勢。」 而相比之下,Siri和Google助手只需用戶喊一聲它們的名字就能激活。

不過,iOS和Android是面向所有第三方開發者的,而Alexa應用同時兼容這兩個平台,也就是說,兩個平台上的開發者都可以寫Alexa的程序。亞馬遜CEO傑夫・貝索斯今年早些時候曾在一次財報發布會上稱:「有來自150多個國家的數萬名開發者」都在構建Alexa的應用程序,並將它們集成到非亞馬遜的設備里。而合作夥伴也是各大語音識別應用競爭的一個競爭戰場。

現在,Sonos公司的「電聲棒」、Jabra公司的耳機,以及BMW、福特、豐田等公司的汽車都已用上了Alexa。Google的語音識別程序則被集成到了SONY、鉑傲的音響、August公司的智能門鎖和飛利浦的LED照明系統上。蘋果的HomPod則與First Alert公司的安全防衛系統和Honeywell公司的智能恒溫器進行了合作。Google副總裁尼克斯表示:「這些合作的好處是將語音識別功能整合到了整個智能家居生態系統,我不用打開手機也能使用應用程序了,我只要說一聲:‘讓我看看誰在門口’,門前的監控視頻就會自動顯示出來。總之,它通過統一做到了簡化。」

人工智能一直是反烏托邦文化里的常客,特別是在《終結者》和《黑客帝國》(Matrix)系列里,智能機器人甚至造了人類的反,將人類逼到了「亡球滅種」的邊緣。不過慶幸的是,現在的我們離被機器人奴役還有很遠。不過人工智能技術的進步,以及廉價計算設備的普及,已經讓很多具有科幻感的構思成為了現實。早期的語音識別程序雖然也不錯,但也沒有超過編寫它們的工程師的最高水平。但現在這些應用卻變得越來越好了,這是因為它們通過互聯網與數據中心連接,而且科技公司花了好幾年時間,用大量數據對這些算法進行「訓練」,使其學會了識別不同的語言模式。

現在,這些人工智能語音識別應用不僅能識別單詞、方言和俗語,甚至還能根據上下文分析語義(比如通過分析呼叫中心的客服代表與客戶的電話錄音,或者分析用戶與數字助手的互動)。

這項科技會引領矽谷的下一次革命嗎?

圖片來源:Pope: Heinz-Dieter Falkenstein―Getty images; Edison: Bettmann/Getty Images; Audrey: Courtesy of Nokia Bell Labs: Telephone: Sheila Terry―Science Source; Shoebox: Courtesy of IBM Corporate Archives, ? 1961 IBM Corporation; HAL: Kevin Bray―MGM/Photofest; Harpy: Raj Reddy―Youtube; Devices: Courtesy of Amazon, Apple, and Google

語音識別系統既依賴於計算機科學,也依賴於物理學。語音會產生空氣振動,語音引擎則會接受模擬聲波,然後將其轉換成數字格式,計算機就會分析這些數據的意義,而人工智能則能夠加快這一過程。人工智能首先要搞清楚它收到的語音是不是指向它的系統的,因此它首先要檢測客戶選定的「喚醒詞」,比如「Alexa」。然後,系統會使用機器學習模型,對所接受的數據進行猜測。由於這個模型已經用幾百萬個用戶貢獻的語料庫訓練過,因此猜測的準確度是很高的。

Google助手的工程副總裁約翰・斯考威克解釋道:「語音識別系統首先會識別聲音,然後會把這句話放到語境中去理解。比如說,如果我說了一句:‘天氣怎麼樣?’系統就知道,我所指的是一個國家或一個城市的天氣。我們的數據庫中有500萬個單詞的英文詞匯,如果不結合語境,從500萬個單詞中識別出一個詞是極其困難的。但如果人工智能知道你問的是一個城市的情況,那麼這就把範圍縮小到了三萬分之一,這樣猜中就簡單多了。」

有了強大的計算能力,系統就有了很多學習的機會。舉個真實的例子,為了讓Alexa打開家里的微波爐,語音識別引擎首先要理解這個指令。也就是說,它得能夠聽懂各州各省的方言,小孩子的高調門兒,或者是老外的怪腔怪調。與此同時,它還要過濾廣播、音樂等無關的背景音。然後,人們使用微波爐時的指令也是不一樣的。有人可能會說:「把我的飯重新熱一下」;有人則可能說:「打開微波爐」或「用微波爐把飯熱兩分鐘。」Alexa這種語音識別應用會將用戶的問題與數據庫中的類似指令進行對比,從而明白「把我的飯重新熱一下」也是用戶有可能下的指令。

語音識別技術之所以近來大受歡迎,也是由於它在將人類指令轉化為行動方面表現得相當出色。Google公司的斯考威克表示,Google的語音識別引擎已經能達到95%的準確率,比2013年的80%有了明顯提高,幾乎與人類的理解能力不相上下了。近來該領域的一個重大成績是語音識別引擎已經學會了如何過濾背景噪音。不過只有當用戶的指令或問題比較簡單時,系統才能達到這樣高的識別率――比如問它:「最新的《諜中諜6》什麼時候上映?」如果你就某件事征求Alexa或Google助手的意見,或是試圖跟它進行一場拉鋸式的談話,系統就要麼會給出一個預先編程好的幽默答案,要麼直接提出抗議:「我不知道怎麼回答。」

在消費者看來,語音識別設備不僅實用,有時也能給人帶來快樂。而在製造它們的科技巨頭看來,語音識別設備雖小,但是極為高效的收集數據者。大約60%的亞馬遜Echo和GoogleHome的用戶至少將語音助手與一種智能家居設備相連(比如恒溫器、安全系統等),而這些智能家居設備可以透露關於用戶生活的無數細節。對於亞馬遜、Google和蘋果這些公司,他們收集的數據越多,就能更好地服務消費者――不管是通過附加服務、訂閱服務,還是代表其他商家打廣告。

這個領域的商機也是顯而易見的。一個消費者只要將Echo與恒溫器相連,那麼如果他看到了智能照明系統的廣告,就也會傾向於購買。如果你對隱私特別在意,你或許會覺得被「竊聽」的感覺很不舒服。但借助這項技術,科技巨頭們已經坐擁了海量個人數據,反過來這些數據也使他們能更有效地向消費者進行行銷。

這幾家科技巨頭的總體戰略各不相同,對收集來的數據的使用方式也略有差異。亞馬遜表示,Alexa收集來的數據主要用於該軟件的後續研發,以使它變得更加智能,對用戶更加實用。亞馬遜稱,Alexa進化得越好,用戶就會越能看到亞馬遜的產品和服務的價值――包括它的Prime會員計劃。盡管亞馬遜也在大力推動廣告業務(市場研究機構eMarketer認為,2018年亞馬遜的數字廣告業務收入將達到46.1億美元),但亞馬遜的一位發言人表示,公司目前不會利用Alexa的數據賣廣告。

Google雖然擁有龐大的廣告業務,卻也一反常態地表示,不會使用語音識別技術收集的數據賣廣告。蘋果向來號稱不願利用顧客數據換取商業利益,此次自然也不例外,蘋果表示,該公司從語音識別技術中獲取的用戶數據將僅僅用於改善用戶體驗――以及銷售更多昂貴的HomePod設備。

雖然亞馬遜是做購物起家的,但大多數用戶並未使用語音識別設備幫助他們購物。亞馬遜不願透露有多少Echo的用戶用它購物,不過咨詢機構Codex集團最近對網購圖書者的一項調查顯示,只有8%的用戶通過Echo買過書,有13%的用戶通過它聽過電子書。研究機構Canalys的分析師文森特・蒂爾克表示:「人是習慣性動物,如果你想買一個咖啡杯,你很難對智能音箱描述出你喜歡的杯子的樣式。」

亞馬遜表示,公司並未過分關注Echo作為購物助手的作用,不過它仍然希望亞馬遜的智能家居設備能反哺公司的零售業務。亞馬遜的自然語言處理科學家普拉薩德表示:「人總是根據以前的購物習慣去購物。如果你想買幾節電池,這種東西,你既不需要親眼去挑,也不需要記住買一種。如果以前你從沒買過電池,我們當然會建議你買亞馬遜品牌的。」

語音助手在購物上的作用遠遠不止買幾節電池。目前,很多商家都想跟這些科技巨頭合作,並利用這些平台。據OC&C戰略咨詢公司預測,到2022年,語音識別購物的銷售額將從現在的20億美元增長至400億美元。現在,有幾款智能家居設備的迭代產品已經展現了這個潛力。比如亞馬遜和Google都推出了帶螢幕的智能家居設備,它們看起來有點像小型電腦和電視機的跨界產品,因此更適合用來網購。

2017年春天,亞馬遜推出了230美元的Echo Show。跟其他Echo設備一樣,Echo Show也內置了Alexa應用,但用戶也能通過它看到圖像。這樣一來,消費者就可以看見自己想買的商品和購物清單了。同時,用戶也可以用它來看電視、聽音樂、看監控視頻、旅行照片等等。而在做這些的時候,用戶無需近任何一個按鍵,也完全不需要操縱滑鼠。

Google已經與四家消費電子廠商展開了合作,有些廠商最近已經開售安裝了Google助手的智能屏產品。比如聯想的Smart Display智能顯示器看起來很像臉書的Portal產品,零售價為250美元,與JBL的Link View設備相同。LG也計劃推出搭載Google助手的ThinQ View設備。今年10月,Google也開始銷售自己Home Hub設備了,該設備搭載了一塊7寸螢幕,售價為149美元。

從長遠來看,Google認為,擁有螢幕將使語音購物變得更容易。Google並不像亞馬遜那樣直接銷售產品,但它的「Google購物」網站卻將零售商與Google搜尋引擎直接相連。目前,Google已經將Home設備打造成一個購物工具了。比如Google與星巴克有合作,用戶只需要告訴Google助手點一杯「老樣子」,飲品就會自動送上門。去年,Google還鞏固了與全球最大零售商沃爾瑪的合作關係。用戶可將沃爾瑪帳戶與Google購物網站相連,這樣通過Google的Home設備,用戶即可檢查附近的沃爾瑪門店里有沒有自己喜歡的運動鞋,或是預訂一台平板電視當日提取。如果你不知道離你最近的沃爾瑪在哪兒,它也能幫你找到。

而視覺識別技術(它可以看作是人工智能語音識別技術的小弟,這種技術早就被用來在人群中對比罪犯了)的興起,將使人們在這些設備上購物變得更加便利。今年9月,亞馬遜宣布,它正在用Snapchat相機測試一款新應用。消費只要用Snapchat的相機拍下某個產品或者條形碼的照片,就能在螢幕上看到亞馬遜的產品頁面。不難想像,要不了多久,用戶就能在他們Echo Show上做到類似功能,到時候用戶不光能看見產品的價格和評價,可能還能看見該產品是否支持Prime的兩天免費快遞上門服務。

雖然這項技術的前景令人興奮,可是對那些對高科技不敏感的人來說,他們可能得花一些時間,才能習慣跟機器對話。現在很多科技公司的社會公信力不高,他們必須得讓消費者相信,這些設備並不是在出於邪惡的原因在竊聽他們。實際上,智能揚聲器只有檢測到「喚醒詞」才會切換到對話模式,比如「Alexa」或者「Hey Google」。今年5月,亞馬遜不小心將一位波特蘭市的高管與他妻子關於地板的一段對話發送給了他的一名員工。亞馬遜對此次事故公開道歉,並表示它「曲解」了這段對話。

口頭指令的出錯可能要遠遠超過打字輸入的命令。有些時候,你甚至可能為此付出代價。比如去年,達拉斯的一個6歲的小女孩在跟Alexa討論餅乾和玩偶等話題。幾天後,快遞員就給她家送來了4磅餅乾和一個價值170美元的玩偶。亞馬遜表示,Alexa是有家長控制功有的,如果啟用了該功能,這次事故本不會發生。

不管怎樣,人工智能語音識別的大規模採用很可能會是自然而然的事,畢竟它給我們帶來了更多的便利。目前,全球的人工智能語音識別設備已經超過1億台,語音成為人與機器的主要交互媒介只不過是個時間問題――哪怕有時這種對話只是毫無營養的惡搞和尬笑。

作者:Brian Dumain

每天花1分鐘看世界

視界

Facebook重要人員紛紛離職。馬克・佐伯格和一些重要執行官員之間的關係日益緊張。

2018年萬聖節經濟學 | 回復 WS 獲取

2018年全球最適宜工作公司Top5盤點 | 回復 SY 獲取

這家電子煙公司7個月就成為十角獸公司了 | 回復 DZ 獲取

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!