尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
文章目錄[ 隱藏 ]
- 算法vs杠精
- 算法的價值觀與邊界
- 更好的分發與連接
文|孫然
編輯|石海威
孫達雲幾乎從不罵人。他長得白瘦斯文,架著副黑框眼鏡,一臉的書生氣。哪怕跟人爭執到臉紅脖子粗,嘴里也蹦不出半個臟字兒。
但技術層面上,他可能是研究網路謾罵造詣最深的人。作為知乎第一個社區管理員,孫達雲就是那個戴著「認真、專業、友善」的紅袖箍,每天瀏覽著各種嬉笑怒罵的人。幾年前他根據知乎站內帖整理出一張表:罵人的方式有上千種,光「SB」一個詞就有幾百個變體。都是字音字形的變化,再加上方言、小語種,不勝枚舉。
從2011年灌水文化的「認真你就輸了」,到「喪」,再到如今的「佛系」和「扛精」,孫達雲一路看著網路主流文化的演變。
與之對應的,答非所問、評論區水化、回復者陰陽怪氣、找到志同道合的人越來越難的情況像病毒一樣蔓延開,使一批知乎大V逐漸變成潛水獸,甚至淡出社區。這些負面情緒正在威脅著內容社區賴以為生的根本——那些優秀答主們生產內容的熱情。
知乎心理學話題優秀答主曾旻,最近兩年已經不太看評論了。
「早期粉絲在1萬以下的時候,還常回復,現在14萬了,回復不過來了。」另一層原因,評論質量不如當初高了。最近他發了條熱帖,評論被折疊了十幾條。被機器自動折疊的,通常是非理性又缺乏營養的發泄情緒帖,這不是對知乎社區有價值的內容,同時這種處理也是對曾旻的保護。
2018年,知乎的用戶量大幅攀升,從去年底的1.2億,到今年11月底變成了2.2億。大量新增用戶來自知乎開拓中的三四線城市。跟「小而美」的果殼不同,知乎並不想做烏托邦。更大的用戶量,也是它尋求更多廣告變現的基礎。
新居民和舊居民、專業答主和不專業的調侃者、不同興趣和表達方式的人,在這座虛擬城市中交匯。多元化豐富了知乎,但也帶來了更多潛在的衝突。
社區氛圍管理的難度提高了,它要滿足的差異化口味也更多了。知乎決定用機器算法解決這個問題:基於算法,志趣相投的人之間被「架起橋梁」,可能爆發惡性衝突的人則會像永不交織的平行線。
習得你興趣後的機器將決定你會收到什麼推送、看到多大的世界,機器也將作為輿論警察,消除城市中的負面情緒和暴力。當每個人都能從獲取信息中收獲滿足感,這座城市才是穩定和繁榮的。
至於算法要如何拯救你於「呵呵」或者「撕逼微笑臉」?又如何做到這座城市的用戶和內容分層?以下要呈現的就是這麼個故事。
算法vs杠精
跟其他網路社區相比,如果說知乎上的負面情緒帖有什麼特點,那就是罵人不吐臟字兒,以及愛抬杠。
「春江水暖鴨先知,」一位知乎用戶發了條文藝帖。不久後,他收到一條評論:「為什麼是鴨先知?驢就不知嗎?鵝就不知嗎?蝦呢?蟹呢?跟你說了嗎?」
知乎正為此憂慮。杠精引發的憋屈和憤怒,無形中在社區里蔓延。
36氪獲得了知乎上被投訴最多的「陰陽怪氣」們:
-
1). 呵呵,就你厲害。
-
2). 你高興就好。
-
3). 你站在道德的高地上就不冷麼?
-
4). 就你懂,可真把你牛逼壞了。
-
5). 腦子是個好東西,不建議智商太低、聽風就是雨的人擁有。
-
6). 你的答案很有水平!你博士快畢業了吧?
-
7). 替我向你的體育老師問好,你的語文是他啟蒙的吧?
「一個人突然罵你,你頂多呵呵,封鎖就好了,但他一直嘲諷你,你又很不爽。」
孫達雲是最早感知到變化的人。過去7年,罵人文化在知乎已經消弭,但今年管理員團隊的信箱里躺著大量投訴陰陽怪氣的郵件,這讓他們很頭疼。「我們把底線問題解決的差不多了,不過大家對互聯網生態的要求也變高了。」
梁源是知乎書法話題優秀回答者,自稱專業杠精,但有趣的是,他也是「陰陽怪氣」展的核心策展人之一。
這是個頗為「以暴制暴」的藝術展,展示著各種書法字體寫出來的知乎站內的「陰陽怪氣」們。
逛到展區末端,一個糖果色的小房間,四角放著音箱,滾動播放著幾百種方言錄制陰陽怪氣。大部分人幾分鐘就坐不住了,被「杠」了出來。
「梁源們」是知乎一直以來感到自豪的原因——這是一群對社區氛圍敏感的人,且參與度很高。
無論看到不好的,還是讓他們不爽的,或是不希望出現在知乎的內容,都會點舉報。可以說這群用戶很不好「伺候」,但他們更樂於生產內容,更重要的是,他們的行為相當於人工標註,為後期知乎算法去學習場景提供了訓練樣本。
早期的知乎,就是靠用戶舉報和人工經營,去逐條處理帖子里的情緒毒瘤。
但隨著知乎社區的擴大,一二十個管理員運轉的人工作業模式很快遇到了瓶頸。如今,平均每天知乎上會產生10萬條回答,它們會衍生出50萬至60萬條評論,這些內容中又有成千上萬條會被用戶標註為舉報。
這意味著,無論處理量,還是處理的時效性,都已經超出人工干預能承受的負荷。
2016年,知乎上線了機器人瓦力。瓦力的任務,是識別並處理那些不友善、辱罵、陰陽怪氣、答非所問、色情內容以及知乎不鼓勵的用戶爆照。
起初,教瓦力識別「不友善」的方式並不複雜。負責瓦力的算法工程師,會根據不同場景,人工構建包含一些嘲諷特徵的關鍵詞匯包,輸入算法作為一種衡量維度。當檢測到不友善關鍵詞,瓦力就會自動折疊答案。
但隨著瓦力試圖識別反諷評論,也就是所謂罵人不吐臟字的陰陽怪氣,關鍵詞法則失效了。諷刺對負面情緒的表達,隱蔽又多變。如果不看上下文語境,人類也未必聽得出來。
「比如上文說你數學考了100分,我說你太牛了,那就是讚揚。但如果上文是你數學考了20分,那這就是諷刺。」瓦力的算法負責人劉兆來告訴36氪。
另一個問題是,數學考20分是高是低?對於人類,生活常識會積累起感性的判斷。但對於機器,這種價值判斷卻無從著手。當算法試圖識別諷刺,擺在它面前的就是各式各樣的場景,和各式各樣的價值判斷。
知乎現階段的解決方式,是以超過70%的人都點踩的語句,作為不友善的訓練樣本。相對於大部分論壇,知乎用戶的特徵是參與度高,無論內容生產還是評論。類似訓練樣本需要的人工標註的舉報,知乎平均每天會收到上萬條。
知乎識別反諷的算法模型
除此之外,機器也有自己的觀察維度,數據會揭示一些隱性的秘密。比如相對於好好說話,人們在出言諷刺時總會下意識地更多斷句,以及更愛使用問號、嘆號。反諷的句子普遍比前者短50%,平均49.642 字構成一句。
又譬如,在正常評論中,平均每個句子包含0.398個問號,但在反諷的評論中,平均每個句子含有 0.773 個問號。
根據知乎提供的數據,6月份瓦力的「陰陽怪氣」識別能力上線後,在召回率 25% 的情況下,準確率達到了95%,有效折疊陰陽怪氣評論數量25995條。
算法的價值觀與邊界
知乎給了算法一個尺子,去選擇折疊什麼評論。
這把尺子,最早源於周源等創始人在2011年立下的規矩:認真、專業、友善——好的討論需要有討論意願,認真的態度,要求交流者有一定知識水平和專業能力,而不是泛泛的消遣,且交流過程要友善。
在宣泄和高效獲取知識上,知乎選擇了後者。這意味著一個職場新人去講職場成長可能並沒有老牌HR專業,沒有足夠知識儲備的音樂人去跨界強答科技話題,可能會被科技圈的人Diss:「不懂可以看,不要亂說」。
相對應的,算法基於這個原則折疊評論,但折疊也意味著未被平台認可的表達與宣泄被堵住了,伴隨著治理的可能是情緒和質疑。
孫達雲的艱難時刻在2011年至2013年。百度貼吧如日中天,網路主流文化是灌水和屌絲,知乎天天被嘲諷,(你們管理員)做這些東西沒用。
「大家都覺得我們太較真了。說生活已經很艱難了,上網就是為了來噴人和發泄的。在知乎禁止的謾罵,然後用戶就去其他平台噴我們。直到最近兩年大家都不認為發泄是天然正確的,各家的底線都抬高了。」
在言論自由和社區價值觀中尋找平衡點,是社區的挑戰,但更難的問題是,如何平衡言論自由與社會倫理的價值判斷,人們喜歡在知乎上討論熱點,因此這種選擇幾乎每天都隨著熱榜出現在管理員的討論中。
在人工給出原則前,這是算法解決不了的超綱題。
知乎內部曾爆發過一次激烈的爭論。一名用戶在社區提問:娶媳婦是不是該娶處女?最熱的答帖稱,談戀愛一定要跟非處女,結婚找處女。這成了當時爭議最大的帖子。
究竟該不該封帖,知乎的全部核心成員擠在三層的會議室里,誰也說服不了誰。正在外地的周源,通過一通電話把決定權給了給孫達雲。後者站在知乎的陽台上轉悠了很久,轉頭回辦公室寫了篇公告,因為涉嫌對非處女人群的歧視,用戶被封禁了。
到今天,人工會去定義具體的特徵:比如性別、種族、身體特徵、膚色可能涉及的歧視,以及定義封建迷信的邊界,然後算法依據這套標準來甄別執行,提高社區的經營效率。
更好的分發與連接
2017年,李大任被挖來知乎擔任技術副總裁,負責搜尋、內容推薦和AI模型。彼時知乎的用戶量還沒過億,但處於快速擴張期,傳統的社區管理手段已經失效。
各種新的問題出現了,比如提出一個問題應該找誰來回答?相對於只包括200名互聯網大V的封閉階段,人和人之間是陌生和低黏性的;又比如,當用戶量擴大,敏感和低俗的內容不可避免的流入社區,知乎需要對每天新增的十幾萬條信息做識別;再比如,新用戶進入社區,會帶來新的興趣,當新老用戶話不投機,或老用戶發現志同道合者越來越困難,對社區的依賴性就會被削弱。
知乎迫切需要用AI去提升經營效率。這不僅包含社區氛圍治理,還需要更加個性化地分發信息,更準確的用戶分層,建立一個智能社區。
而如何根據興趣讓用戶分層、建立人與人之間的聯繫,在知乎是個有趣的話題。
李大任曾經問周源,為什麼知乎網友願意把自己的知識無償的拿出來分享,畢竟分享的成本不低。周源用一個例子回答了他:一個飯桌上有10個人,互相之間不認識,在這樣的飯局里,讓其他人識別你的往往是你的專業,當有人聊起你的專業話題,你可能就會想介入多聊兩句。
按照周源的這種說法,根據不同的興趣劃分,知乎上如今有27萬個話題,從互聯網網科技、到財經商業、心理學、娛樂、體育、旅遊等。但僅根據興趣領域來給用戶分層,並基於此分發信息,還遠遠不夠。
「事實上對不同知識結構的用戶,也需要有合理的區分。比如你是業餘天文愛好者,我給你推薦一篇非常專業的文章,你會看不下去。但如果你很專業,我給你推送科普文,你會覺得平台推送太水了。又或者有的人不是很專業,在一個很懂行的人的文章下面評論,作者可能覺得前者不懂裝懂,那麼兩邊都會受到傷害。」李大任對36氪解釋稱。
在你看不見的後台,機器用一套權重體系定義著你在各個領域的專業程度。不過用戶的認識水平和知識結構可能隨著時間變化、升級,因此知乎的算法也需要實時追蹤用戶的水平。
一套專業的興趣探測模型會承擔這個任務。比如當機器給用戶推薦了一次專業性很強的文章,你點擊、收藏或評論就屬於體現了興趣的正向反饋,如果反饋,可能就會過一段時間再做類似推送嘗試。
同時,在知乎這座虛擬城市中,每兩個居民之間會基於興趣偏好、個人在知乎的行為以及社交關係的向量,被計算出一個親密值。親密值的範圍在負一到正一之間。知乎算法會計算兩個陌生人之間產生連接的概率,然後通過推薦等手法讓他們相遇。但當用戶之間爆發過謾罵衝突,親密值偏向於負一一極,算法就會盡量降低他們相遇的概率。
而當兩個親密值高的用戶之間出現諷刺和調侃,未必會被機器定義為陰陽怪氣做處理,這就像日常生活中真正親密的好友,會出現善意的互損。
孫達雲至今還記得成都場「陰陽怪氣」一進門那股火鍋底料味兒。它來自門口一副用密密麻麻的辣椒鋪成的巨大的 「能杠」二字,字形粗曠。
製作它的藝術家,事先跑去菜市場買了兩麻袋辣椒,混和著火鍋底料,用膠水黏在寫好的字形上。熱辣辣的辣椒糊在手上生疼,就像平時po文別懟的火氣從心里移到了手上。
這幅字掛了半個月,辣椒逐漸噼里啪啦往下掉,最後只留下描著字形的淡淡的影子。
這是個隱喻。但願知乎里那些「杠」和「懟」也是這樣。