你以為小鵬只是換了語音包?我們來聊聊它的新技術

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

你以為小鵬只是換了語音包?我們來聊聊它的新技術 科技 第1張

不知道你們看過《Her》這部電影沒有,其中的Samantha是一款先進的AI智能操作系統,它能和人類自由無阻的溝通,但這是以2025年為背景的科幻故事。

電影中的它雖然沒有真實載體,但有著擬人的聲音、情感和靈魂。

以上,是小鵬汽車語音團隊內部對於未來車載語音的一個”小共識”。他們要做的事兒,是讓未來車載語音識別系統,更接近電影中的Samantha。

這一次小鵬的語音團隊帶來了更新後的聲音,那具體怎麼讓這種聲音貫穿人與車的整個交互過程?不能把所有算法都集中在雲端、也不能把所有算法都堆在離線存儲上。所以,小鵬這次怎麼玩兒?

好聲音不難,難在端與雲切換

你以為小鵬只是換了語音包?我們來聊聊它的新技術 科技 第2張

之前小鵬對車載語音系統更新的多輪對話、語義打斷、雙音區鎖定和可見即可說的四個功能,不是本文重點。

這次體驗的小鵬語音系統,如果你是已經更新公測版的用戶,最能直接的感受到的應該是一個更擬人的聲音。使用感受或許是:語音助手的聲音聽起來更溫柔,語氣也沒那麼死板、冷漠了。

以上,是小鵬語音系統這一次最大的變化。弱化了原來語音交互的機械感,而且讓聲音聽著更舒服。但你想過一個問題沒有,小鵬怎麼實現讓你在無論任何時候任何地點,聽到的都是這種聲音?

表面你能很好理解的邏輯是用24k采樣技術的聲音+高保真的音響=好聽的語音交互聲音。這樣一來你可能就會認為:小鵬換了個語音包,然後用了好的品牌音響?就這?

其實不然,在這背後藏著的是語音合成引擎。24k采樣技術只是保證了語音交互的聲音質感,背後的深層邏輯,是”在線神經網路引擎+離線拼接引擎”支撐的連貫性。

“端”與”雲”的切換策略

你以為小鵬只是換了語音包?我們來聊聊它的新技術 科技 第3張

首先,汽車的語音交互用的還是語音合成(TTS)這個方向,然後語音合成裡還包括了原聲拼接法、參數法、聲道模擬法。好,小鵬用的是拼接法,拿在線數據拼離線數據,實現動態在線轉離線的切換策略。

在線雲數據接通的是大量的、且經過訓練的語音庫,其中的思路應該是這樣:我們要做語音庫,然後用模型學習每個音的頻率之後再根據學習的特征進行復原。那麼,離線的拼接引擎裡,存入的是會被高頻次使用的數據和預加載數據。

這種深度神經網路引擎的算法非常龐雜,車載算力做不到實時的響應就必須依賴在線雲端數據。但現在智能汽車基本都已經接通網路信號,但還有難點。比如,網路不穩定的情況下,汽車需要應對龐雜多變的使用場景,還需要穩定的發揮。而且,車輛還需要在使用過程中做出及時響應。

總之,不能在AI智能聲音和機械感強的聲音之間來回切換對應有網和沒網的使用場景。所以,小鵬P7用上在線神經網路語音合成功能,應該不是算法的突破(語音系統算法應該是供應商提供),可能是更好的解決了在沒有網路信號的場景下語音合成一致性的問題。

端雲融合多級緩存,這是官方給出的名詞。裡麵包含的網路環境預測,比方導航情況下,要進入長隧道然後就會面臨沒有網的情況,這樣一來導航數據上傳雲端、雲端處理數據做出回應、存入離線數據做出提前判斷出要播報的臺詞,然後在網路環境良好的時候提前合成、儲存的數據就能解決網路信號不好的場景下語音的一致性。

還有一個智能預加載算法,理解成個性化訓練就行。這是一個神經網路根據用戶使用習慣的訓練過程,舉個例子,你上車發出的第一個指令是查詢天氣,好,在多次使用之後神經網路模型的占比會提高,從而在網路條件不好的情況下對這類的資訊預加載,然後,在沒有網路信號的情況下也能做出正常的資訊回饋。

你以為小鵬只是換了語音包?我們來聊聊它的新技術 科技 第4張

最後,是算法的端雲分割策略。這方面的難點,無非是算法和存儲,小鵬P7用的820A晶片算力尚可,用的是128G的記憶體。接著就是在端與雲之間進行分割,分時調用不同的數據,在有網的時候調用雲數據、沒網的時候調用端數據。

總結

小鵬給小P的新聲音用了新的技術組合”在線神經網路+小型離線拼接引擎”,這其中的重點放在了在線神經網路的學習功能和端與雲的流暢分割,來保證小P語音交互體驗感。

之後,小鵬還會給小P做出什麼新花樣?一開始講的AI人工智慧Samantha還記得吧,我想他們應該是把Samantha當成最終的發展目標;所以,未來按照小鵬汽車的規劃小P會有更多的情緒,會歡喜、羨慕、憂愁與熱愛,能和人類產生更多的感情共識。

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!