揭秘網易雲音樂之評論區熱門大戰 | 精品案例

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

背景介紹

今年年初,網易雲音樂發布的「2018年度聽歌報告」又一次刷屏朋友圈。在發布前幾天,苦苦等待的網友甚至把「等網易雲年度總結」的話題送上了微博熱搜,讓人不得不感慨網易雲音樂用戶黏性之強。

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

網易雲音樂2018年度聽歌報告

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

學霸們的年度歌手

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

#等網易雲年度總結#微博熱搜

而令人印象最深刻的,還屬沙雕網友們在歌曲下面精彩的評論。2017年3月,網易雲音樂甚至把這些樂評搬進了地鐵,引起了一小波轟動。

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

杭州地鐵開通網易雲「樂評專列」

正如網易創始人丁磊所說「網易雲音樂不是一個簡單的音樂播放器」,網易雲音樂自上線以來一直以「音樂社區」而並非「音樂播放器」定位自身,憑借獨特的情懷標籤、豐富的評論內容以及個性化推薦等一系列特色功能,擁有了非常高的用戶黏性與活躍度。

因此,相比其他音樂播放軟件,基於網易雲音樂平台對歌曲評論、用戶行為的分析結果更有說服力。本小組爬取了網易雲音樂平台部分歌曲的評論數據,通過數據分析,嘗試探究隱藏在網易雲音樂中的兩個秘密——「如何在高手如林的評論區搶熱門?」以及「歌曲的評論與歌曲的個性化推薦之間有什麼聯繫?」

數據介紹

本項目使用的數據爬取自網易雲音樂歌單「網易評論最多的300首歌」,由網友「Hardwell-EDM」整理。

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

雖然部分灰色的歌曲沒有版權(比如我們周董的歌曲),不過其信息和評論仍可正常爬取。對於每一首歌,我們爬取了歌曲信息以及點讚數最多的15條熱門評論和最新的10000條普通評論。

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

如何搶熱門?

作為網易雲音樂的忠實用戶,你是否羨慕那些總能搶到熱門的網友,是否也想寫出一條點讚數過萬的熱門評論?

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

接下來我們將利用爬取的數據進行分析,教你如何又準又狠地搶熱門。

首先我們來看看熱門評論和普通評論詞頻的區別。通過使用Python的jieba工具對評論進行分詞(設置了1893個停用詞)並計算詞頻,我們繪制了熱門評論與普通評論各自的詞雲。

我們發現,無論是熱門評論還是普通評論,「喜歡」和「愛」都是網友們最常提及的,果然,是人類永恒的主題。而除去一些共同的高頻詞後,我們發現,普通評論真的比較普通,主要是發發表情,談談感受,給自己加加油。而熱門評論就豐富了,不僅談理想,還有對象,甚至補充時間細節,故事更豐滿的。

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

比如歌曲《說散就散》里面的熱門評論,又有兄弟,又有愛人,又是跪下,又是尊嚴,故事極其豐滿,就連出現了錯別字都影響不了其上熱門。

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

《說散就散》熱門評論

然後再來看看評論字數。通過繪制評論字數分布直方圖,我們發現,相比起分布嚴重右偏的普通評論,熱門評論字數普遍多於20,甚至還有很多熱門評論是卡著140的字數上限發的,最終呈現雙峰分布。

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

說到網易雲音樂的神評論,由於部分評論的同質化,網友們甚至還整理過「評論區的六大未解之謎」:為什麼網易雲音樂的網友們都是有故事的人?那些天天說評論頂上去就要表白的人,到底有沒有成功?

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

其實這也側面體現了人類的本質是復讀機存在一些能引起情感共鳴的關鍵詞,使得網友們樂此不疲地在此基礎上進行評論的再創作。

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

於是我們選取了幾組高頻詞進行詞頻的對比。首先,分手這個詞出現次數比其他幾個詞加起來還多,說明分手造成的情緒波動是最大的;人生階段中高中和大學出現次數最多,可能是因為這兩個階段承載了更多的情感與回憶;而高考則是大部分人一生中最重要的一場考試,因此詞頻最高。

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

綜合上述分析,如果你想在高手如林的網易雲評論區上熱門,至少要做到以下幾點:

1、字數不能少。如果能寫滿140字,那在氣勢上就先勝一籌了。

2、情感要能引起共鳴。比如「分手」、「大學」、「高考」這些關鍵詞就是大家最常提及的,涉及這些詞的評論將會擁有更深厚的群眾基礎。(所以說,如果寫一個「高考前說好一起走,上大學卻慘遭分手」,說不定很多人點讚?)

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

3、要有豐富的故事細節。熱門評論往往會交代時間地點人物,情節不是有共通性就是有戲劇性,最後還會升華到情懷理想。

4、當然,有一類人能夠打破以上所有的規則,那就是——段子手。比如著名的段子:「你都如何回蟻窩(回憶我)?」「帶…帶著笑或是很沉默?」。

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

《後來》熱門評論

基於評論的歌曲推薦

接下來我們將分別建立兩個模型,說明無論是基於評論文本還是基於用戶的評論行為,都能做到歌曲的個性化推薦,從而側面印證網易雲音樂構建的「音樂社區」有助於其推薦系統的做到。

1

基於評論文本對歌曲進行聚類

我們發現,對於表達相似情感的歌曲,其評論區的總體畫風也比較相像。比如悲傷情歌的評論區中,大家更傾向於討論自己在愛情中吃的苦頭,而甜蜜情歌的評論區則被各式各樣的表白宣言占領。因此我們希望從評論文本出發,看看其能否反推出歌曲的特點,並對這300首歌曲進行聚類。

建模步驟如下:

(1)對於每首歌的評論詞頻,先去除總詞頻普遍較高的五個詞(「喜歡」、「愛」、「大哭」、「加油」、「希望」),在剩餘的詞中挑選詞頻最高的五個詞作為每首歌的表征;

(2)為了獲得語義空間表示,我們採用在微博數據上預訓練的word2vec詞典,該詞典共含有195202個詞;

(3)每個詞對應300維的特徵向量,從而每首歌的特徵為連接而成的1500維向量

(4)使用K-means算法對擁有1500維特徵的歌曲進行聚類,一共聚成20類;

(5)將聚類後的結果通過tSNE模型降至二維,並進行可視化

(6)挑選了5類歌曲(其中3類靠的較近,歸為新的一類),組合成3類歌曲進行情感分析,繪制情感雷達圖

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

我們挑選的部分聚類結果中,有一類比較明顯是勵志歌曲(《追夢赤子心》、《Hall of Fame》等),評論中大量出現高考黨、考研黨為自己加油鼓勁的評論,對應的情感雷達圖中「喜好」的指數較高;還有一類是華語悲傷情歌(《七友》、《後來》等),情感分析結果最為豐富,雷達圖面積最大,「憂愁」占主導地位。

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

但有一類的結果(《離人愁》、《JULY》、《紅昭願》、《China-X》和《沙漠駱駝》)比較特殊。首先,這五首歌的音樂風格包含了古風、流行、電音、搖滾,情感也沒有太多共同之處,為什麼會被歸為一類?其次,該類歌曲的雷達圖中,「厭惡」指數最高,確實有點反常。為此,我們翻閱了部分歌曲的評論,發現《離人愁》、《紅昭願》等歌曲都有抄襲的嫌疑,而《JULY》的歌手吳亦凡因為《中國新說唱》的表現而備受爭議。因此,這五首歌的評論中也充斥著「盜用」、「抄襲」等關鍵詞或具有辱罵意味的詞匯,所以雷達圖中厭惡與消極情緒占據主導地位。

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

可以看出,基於評論文本對歌曲進行聚類時,歌曲在向量空間中的距離很大程度上能反映歌曲本身在情感與內容上的相似度,甚至還能探測出受爭議的歌曲。因此,評論文本確實能夠反推出歌曲的特點,基於此進行歌曲推薦也具有一定的合理性和準確性。

2

基於評論行為構建歌曲關係網路

我們都知道,不同的用戶有其獨特的聽歌傾向。比如我們小組成員有周董的狂熱粉,有喜愛民謠的文藝青年,也有每周關注billboard榜的歐美流行音樂愛好者。因此,我們嘗試從網易雲音樂用戶的歌曲傾向性出發,構建基於用戶評論行為的歌曲關係網路,並利用網路的社區劃分方法對歌曲進行分類,從而進一步做到歌曲推薦。

建模步驟如下:

(1)構建歌曲關係網路:每首歌曲作為無向圖的一個節點,如果同一用戶評論了兩首不同的歌曲,則此兩首歌的節點之間有邊連接,且邊權重加一;

(2)歌曲關係網路的優化:由於評論用戶眾多,初步構建的歌曲關係網路近於完全圖,為抽取歌曲間的強弱關係,我們設定閾值,忽略邊權重小於80的邊,即至少80個用戶同時評論了某兩首歌才算歌曲之間有連接;

(3)社區發現:使用k-clique算法發現了7個明顯的歌曲社區;

(4)可視化:利用力導向布局對網路結構及社區結果進行可視化。

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

結果中有三個聚類系數較高的社區(分別為1.00,0.97,0.93),分別對應上榜歌曲數前三名的歌手周杰倫、許嵩、薛之謙的上榜歌曲。有趣的是,這三位歌手的所有上榜歌曲全部被精準地劃分到社區中,甚至薛之謙歌曲社區還多出一首其粉絲改編翻唱的歌曲。說明熱門歌手擁有堅實的粉絲基礎,用戶對歌曲的喜愛也很容易上升為對歌手的喜愛。

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

此外,華語歌曲與外文歌曲在網路中分處不同的區域;部分民謠歌曲(趙雷和李志的所有上榜歌曲)成為一個獨立社區,而在該民謠社區的附近,其鄰居節點也大多為耳熟能詳的民謠歌曲(如宋冬野的《斑馬,斑馬》、謝春花的《借我》以及陳粒的《小半》等)。這說明歌曲的語種和曲風也是影響用戶聽歌傾向的因素。

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

綜上,我們可以看出,相同歌手、語種以及曲風的歌曲,在網路中更容易被劃分到同一社區,這與大眾的聽歌習慣相吻合。因此,基於用戶的評論行為構建歌曲關係網路,並對歌曲進行社區劃分及推薦,也具有其合理性和準確性。

總結

經過以上分析,網易雲音樂的兩個秘密也就無所遁形了。

「如何在高手如林的評論區搶熱門?」

首先,需要有一定的字數(寫滿140字更佳);其次,從情感的角度來說,評論所表達的情感最好能引起其他用戶的共鳴;而要想脫穎而出,評論的故事細節還需要更加豐富;此外,段子手也很受歡迎。

「歌曲的評論與歌曲的個性化推薦之間有什麼聯繫?」

通過以上基於評論文本對歌曲進行聚類和基於評論行為構建歌曲關係網路的嘗試,我們不難看出,用戶評論及用戶行為數據都能反映歌曲的特點和內在的聯繫,進一步印證了網易雲音樂構建的「音樂社區」有助於其推薦系統的做到。

首先,音樂社區能夠提升用戶體驗,並能產生一個良性循環,最終使得用戶的活躍度和用戶黏性得到提升。而通過我們剛才兩個模型的嘗試,我們相信網易雲音樂的這種「音樂社區」可以讓同一個歌手的粉絲、同一類歌曲的愛好者因為音樂而「拉近距離」。此外,音樂社區的構建還有助於平台充分利用海量的用戶數據、行為記錄對用戶以及音樂進行劃分,從而基於相似歌曲或相似用戶等信息做到精準的「個性化推薦」。

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

揭秘網易雲音樂之評論區熱門大戰 | 精品案例

END

愛樂之數小組

小組成員:周之爍 歐陽爾立 徐輝 徐程明 朱方瑞 崔立

指導:布丁、水媽

視頻only!

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!