尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️
「讀書破萬卷,下筆如有神」,當機器書讀萬卷的時候,能否做到下筆有神呢?
我們正在經歷一個節奏越來越快的時代,互聯網上的資訊來也匆匆去也匆匆,各行各業涉及到高頻內容生產和處理工作的都希望內容生產的速度快、質量高、數量多。而隨著人工智慧技術的發展,讓機器輔助人類更高效地處理資訊,以及讓機器自動生成資訊都已經成為可能。
讓機器「下筆如有神」,涉及到的就是自然語言處理(NLP)技術了,其實依據 NLP 讓機器幫助人工寫作的技術早已不是新鮮事,前兩年人工智慧最火熱的時候,關於 「AI 寫新聞稿,記者要失業」、「AI 寫劇本,編劇要下崗」等新聞甚囂塵上,對於 AI 導致文字工作者失業的討論也是學術界、產業界喜歡探討的話題。
對於這種技術能力,在市場上我們常聽到的稱呼則是「智能寫作」。互聯網巨頭們多有押註「智能寫作」,本篇文章會帶你了解京東在智能寫作上的探索,更多解析在電商場景中智能寫作發揮的作用。
在電商產品頁面,通過點擊商品標題、商品詳情,到最終的下單行為,圖文的感染力是左右用戶的實在原因,而且隨著電商平臺體量增大,必然會面臨需要更快更優質的內容以實現電商轉化率地提升。
那麼京東「智能寫作」涉及到哪些關鍵性技術,其在京東有哪些應用,又發揮了什麼作用呢?帶著這些問題,InfoQ 採訪到了京東智聯雲平臺產品經理,自然語言處理與智慧內容營銷產品負責人朱林倉。
1智能寫作在哪些場景下占優勢?
什麼場景適合讓機器代替人工?重復性的勞力。在寫作這件事上,把一些能找到規律的、大批量、短時間內需產出的內容讓機器輸出,本身對於商業來說,具有成本優勢和效率優勢。
從成本角度講,一個系統一個人操作就能生產出 10 倍於人工的營銷文案,這樣的場景中技術是一定占優勢的,而且當前的技術能力已經達到了替代部分人工的經濟可行性和技術可行性。
從效率角度講,機器能夠通過數據分析,通過更精細的數據挖掘維度和非結構化營銷內容的數據化與結構化,有效提升營銷轉化率,進而提升單位流量成本下的 GMV 收益。
所以智能寫作在電商場景中的應用是非常占優勢的。同時也解決了品牌方、消費者和內容生產方三方的難題:品牌方所投放內容轉化訂單金額提升困難、消費者面對導購內容與商品不一致的平臺使得選擇成本增高,體驗變差、內容生產方人工成本居高不下,資料搜集時間長,內容審核修訂,素材產出效率低。
京東 APP【發現好貨】頻道
京東 APP【發現好貨】頻道,很多商品的營銷文案都由「智能寫作」來生成
智能寫作能夠針對不同群體採用不同營銷策略,以及不同風格的營銷文案,從而提高營銷轉化率。具體是如何實現的呢?京東 AI 研究院提出了基於商品要素的多模態摘要模型,論文發表在 AAAI2020 上,可基於商品要素進行可控的文案生成。
在京東 APP,通過 AI 創作的數十萬商品營銷圖文素材,不僅填補了商品更新與達人寫作內容更新之間的巨大缺口,也提升了內容頻道的內容豐富性。同時,AI 生成內容在曝光點擊率、進商品詳情轉化率等方面,其實都表現出了優於人工創作營銷的內容。
另外,在其他的互聯網場景中,智能寫作也在大放異彩。比如:店鋪裝修運營、廣告創意創作等場景下,將重復工作由 AI 技術完成,創意工作由 AI 構建數據支持和洞察支持,人機協同創作更高效的創意營銷內容。還有直播場景下,AI 可以輔助主播創作黃金話術、實時洞察消費者情緒變化與直播間的消費者需求分布等。
2京東「智能寫作」的關鍵性技術
京東「智能寫作」依靠的關鍵技術就是多模態異構數據自動摘要技術。
通過輸入多模態(圖片 + 文檔)、異構(結構化商品知識圖片和非結構化純文檔)數據,挖掘賣點和商品要素,模型包括多模態的編碼器和解碼器、預訓練語言模型提高文檔合規性、句間流暢度模型提高文檔邏輯性、標點糾錯模型改正標點錯誤,最終輸出商品的營銷短文。
在這裡,通過解讀京東 AI 研究院入選 AAAI 2020 的兩篇論文,大家對智能寫作涉及到的模型將能有更好的了解。論文標題為:《Aspect-Aware Multimodal Summarization for Chinese E-Commerce Products》、《Keywords-Guided Abstractive Sentence Summarization》 ,分別介紹了基於商品要素地多模態摘要模型和基於關鍵字指導的生成式句子摘要方法。
基於關鍵字指導的生成式句子摘要模型介紹
自動文檔摘要是 NLP 領域中的一個傳統任務,提出於 20 世紀 50 年代,其目標就是基於給定的文檔,生成一段包含其中最重要資訊的簡化文檔。常用的自動文檔摘要方法包括抽取式自動文摘(Extractive Summarization) 和生成式自動文摘(Abstractive Summarization)。抽取式自動文摘通過提取給定文檔中已存在的關鍵字、短語或句子組成摘要;生成式自動文摘則是通過對給定文檔建立抽象的語意表示,利用自然語言生成技術,生成摘要。
京東提出的方法則是融合了抽取式自動文摘和生成式自動文摘,在 Gigaword 句子摘要數據集上與對比模型相比,也取得了更好的性能。
如何讓句子「由長變短」呢?京東提出的想法是:輸入文檔中的關鍵字可以為自動文摘系統提供重要的指導資訊。這一過程就是:首先將輸入文檔和參考摘要之間重疊的詞(停用詞除外)作為 Ground-Truth 關鍵字,通過多任務學習的方式,共享同一個編碼器對輸入文檔進行編碼,訓練關鍵字提取模型和摘要生成模型,其中關鍵字提取模型是基於編碼器隱層狀態的序列標註模型,摘要生成模型是基於關鍵字指導的端到端模型。
關鍵字提取模型和摘要生成模型均訓練收斂後,利用訓練好的關鍵字提取模型對訓練集中的文檔抽取關鍵字,利用抽取到的關鍵字對摘要生成模型進行微調。測試時,利用關鍵字提取模型對測試集中的文檔抽取關鍵字,最終利用抽取到的關鍵字和原始測試集文檔生成摘要。
這其中的重點動作可總結為以下幾點:
基於商品要素的多模態摘要模型介紹
商品摘要任務的挑戰性在於:一方面,商品給顧客的第一印象來自該商品的外觀,這對顧客的購買決策有著至關重要的影響。因此,商品摘要系統必須能夠充分挖掘商品視覺資訊,反映商品的外觀特色。另一方面,不同的產品有不同的賣點。例如,緊湊型冰箱的優點是節省空間,而環保型冰箱的優點是節能。因此,商品摘要應該反映商品最獨特的方面,從而最大限度地促成消費者的購買。
京東 AI 研究院提出的這一電商商品的多模態摘要模型,將商品圖像、產品標題和其他產品描述作為輸入,生成商品文檔摘要。有效地整合了商品的視覺和文檔資訊。
這裡對於文檔資訊的整合很好理解,那麼這一模型是怎麼理解圖像資訊的呢?
京東 AI 研究院提出的這一模型基於指針 – 生成器網路(Pointer-Generator)。採用了三種策略將商品圖像資訊融入模型中,包括使用商品圖片的全局特征初始化編碼器,使用商品圖片的全局特征初始化解碼器,以及使用商品圖片的局部特征,通過注意力機制生成圖片上下文向量參與解碼。
這使得京東的智能寫作可以更層次化地理解商品圖像。第一,通過 R-CNN 挖掘有價值的局部特征,例如冰箱的面板、手機的螢幕,將其融入到文檔解碼的每一步中,使模型針對商品有賣點的局部進行描述;第二,通過 ResNet 挖掘商品全局特征,該特征和文檔全局特征一起,對編碼器和解碼器初始狀態進行賦值,從而從更多的角度豐富商品的特征,提高商品的可區分度,生成更加多樣化的文案。
3智能寫作給京東零售帶來的諸多受益
自 2019 年 2 月底,在【發現好物】的頻道內實踐智能寫作功能,它幫助了京東零售生成多種風格文案,包括屬性類描述、體驗類描述、官地契品描述、搭配商品描述、社交體等,涵蓋京東 2700 餘個三級類目。文案人工審核率超過 99%,曝光點擊率高出達人寫作 40%,累計引單金額超過一億。
在 NLP 基礎技術研究上,京東未來將強化電商領域語言模型,強化 NLP 應用技術研究,在商品理解和營銷內容理解方面更加深入營銷場景。
後續,京東「智能寫作」還將覆蓋更多題材的內容營銷導購頻道,將商品營銷內容理解能力、賣點挖掘與賣點包裝能力,更多的賦能商家店鋪裝修、廣告文案創意等場景。同時在這項能力的迭代上,提供千人千面的個性化文案,短文、長文、直播話術等多題材智能創作、營銷內容智能診斷。
關於採訪嘉賓
朱林倉,京東智聯雲平臺產品經理,自然語言處理與智慧內容營銷產品負責人,主導商品營銷智能創意產品規劃設計,《特種機器人》作者。擅長將電商營銷管理與人工智慧技術深度融合,專註主觀感性業務的數據化、結構化與智能化的產品設計。
活動推薦: