深度學習在手,看視頻卡頓不愁

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

將視頻壓縮成更小的文件一直不太容易。有了機器學習技術,難度可以降低一些。

視頻填滿了現今的互聯網。所有流量中大概有 75%是視頻內容,預計到 2021 年這一數量將增長三倍。

如果我們不想讓那些無休無止的寵物視頻和流媒體服務一直阻塞著互聯網通道的話,那麼我們就需要依靠視頻壓縮。這就是對原視頻文件再次編碼,使其更小的一個工序。但以現代技術的標準來看,目前的壓縮技術太過落後。

WaveOne 的奧倫·里普爾(Oren Rippel)和他的同事說道,「現有的視頻壓縮算法的基本原理在過去的 20 年里沒有太大的變化。」WaveOne 是一家致力於將視頻壓縮技術帶入 21 世紀的深度學習公司。

他們利用深度學習開發了一種新的壓縮算法,這個算法的性能顯著優於現有的視頻編解碼器。他們表示:「據我們所知,這是第一種基於機器學習的壓縮算法。」

深度學習在手,看視頻卡頓不愁

視頻壓縮的基本原理是從代碼中刪除冗餘數據,並將其替換為更短的描述,且該描述仍然允許稍後對視頻進行復制。大多數視頻壓縮分兩步進行。

第一步是運動壓縮,它尋找運動的物體,並試圖預測它們在下一幀的位置。然後,該算法就不再記錄每一幀中與該運動物體相關的像素,而是只對物體的形狀和運動方向進行編碼。事實上,盡管著眼於壓縮後的幀的技術不能用於直播,但還是有一些算法採用這一技術來更準確地判斷運動。結果就是,這種壓縮視頻只是在螢幕上簡單地轉換了對象。

第二步是刪除幀與幀之間的其他冗餘。因此,壓縮算法可能不會記錄藍天中每個像素的顏色,而是識別這種顏色的區域,並指定它在接下來的幾幀中不會改變。所以這些像素保持相同的顏色,直到被告知需要改變。這叫做殘餘壓縮。

里普爾(Rippel)和他的同事率先使用機器學習來改進這兩種壓縮技術。以運動壓縮為例,該團隊的機器學習技術發現了傳統編解碼器從未壓縮的基於運動的冗餘。

就如同一個人的頭從正面轉向側面時一樣。里普爾(Rippel)和他的同事表示:「傳統的編解碼器無法從正面預測一個側面的臉。」相比之下,新的編解碼器學習這些時空模式,並使用它們來預測壓縮後的幀。

另一個問題是在運動和殘餘壓縮之間分配可用帶寬。在某些場景中,運動壓縮更為重要;在其他情況下,殘餘壓縮則更為有利。它們之間的最優權衡因幀而異。

傳統的壓縮算法很難做到這一點,因為它們的壓縮進程是分開的。這意味著想要權衡兩者並不容易。

里普爾(Rippel)和他的同事通過同時壓縮這兩個部分來解決這個問題,並利用幀的複雜度來決定如何以最有效的方式在它們之間分配帶寬。

他們的改進和其他人的改進使得研究人員能夠創建一種新的壓縮算法,其性能顯著優於傳統的編解碼器。壓縮高清 (1080p) 視頻時,H.265 和 VP9 等普通壓縮算法產生的文件比新算法產生的壓縮文件要大 20%。

深度學習在手,看視頻卡頓不愁

對於標準定義的視頻,比如 HEVC/H.265,壓縮效果甚至更明顯。利用新的壓縮方法壓縮的視頻體積要比傳統方式的小 60%。

此次突破意義非凡,大大縮小了在線視頻的大小,縮短了下載時間。

然而,這種新的壓縮方法並非沒有缺點。最大的弊端就是其計算效率——編碼和解碼視頻所花費的時間。在配備了英偉達 Tesla V100 計算卡和 VGA 模式下的視頻中,新解碼器的平均速度約為每秒 10 幀,編碼器的運行速度約為每秒 2 幀。這種速率限制了這一技術在直播領域上的應用。

當然,研究人員希望在原理驗證階段之後能取得重大進展。

他們表示:「目前的壓縮速度不足以做到實時部署,但在未來的研究中會對此進行大幅改善。」

這意味著,由於這種機器學習方法,未來的網民們應該能夠以前所未有的時間下載《權力的遊戲》(Game of Thrones) 或萌寵視頻,還能比以往更高效地觀看高清足球比賽。

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!