社交網路機器人的詞匯分析| 網路科學論文速遞9篇

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

社交網絡機器人的詞匯分析| 網絡科學論文速遞9篇

  • Twitter上自動帳戶的詞匯分析;
  • 「女-金屬-白 和 男-衣服-短褲」:結合社交,時間和圖像信號來理解Pinterest時尚板的流行;
  • 壽命差異 – 全球趨勢,政策影響和計算方法;
  • 學習義大利參議院的政治DNA;
  • 計算大圖的可導航性分數;
  • 基於深度學習模型的社會網路中的網路欺凌檢測:可重復性研究;
  • 標準化的Gutenberg項目語料庫,用於自然語言和定量語言學的統計分析;
  • 內生認知派系化:一種網路認識論方法;
  • 使用軟更新最大限度地減少信息年齡;

Twitter上自動帳戶的詞匯分析

Lexical analysis of automated accounts on Twitter

地址:

http://arxiv.org/abs/1812.07947

作者:

Isa Inuwa-Dutse, Bello Shehu Bello, Ioannis Korkontzelos

摘要:近年來,社交機器人一直在使用越來越複雜,具有挑戰性的檢測策略。雖然已經提出了許多方法和特徵,但是社交機器人像人類一樣逃避檢測和交互,使得難以將真實的人類帳戶與機器人帳戶區分開來。對於檢測系統,已經使用了更廣泛類別的帳戶簡檔,推文內容,網路和時間模式下的各種特徵。推文內容功能的使用僅限於對URL,主題標籤,名稱實體和情緒等基本術語的分析。

鑒於一組沒有明顯模式的推文內容,我們可以區分社交機器人產生的內容與人類的內容嗎?我們的目標是通過使用大量不同數據集來分析各個帳戶生成的推文的詞匯豐富性來回答這個問題。我們的結果顯示了兩個類別在詞匯多樣性,詞匯複雜性和表情符號分布方面的明顯差距。我們發現,提出的詞法功能可以顯著提高對兩種帳戶類型進行分類的性能。這些功能對於培訓標準機器學習分類器以有效檢測社交機器人帳戶非常有用。免費提供新數據集以供進一步探索。

「女-金屬-白 和 男-衣服-短褲」結合社交,時間和圖像信號理解Pinterest時尚板的流行

「Woman-Metal-White vs Man-Dress-Shorts」: Combining Social, Temporal and Image Signals to Understand Popularity of Pinterest Fashion Boards

地址:

http://arxiv.org/abs/1812.07759

作者:

Suman Kalyan Maity, Anshit Chaudhari, Animesh Mukherjee

摘要:Pinterest是一個受歡迎的照片共享網站。時尚是這個平台上最受歡迎的內容生成類別之一。大多數流行的時尚品牌和設計師在Pinterest上使用展示板來展示他們的產品。然而,熱門的時尚展示板的特徵並不為人所知。這些特徵可用於預測新生展示板的流行度。此外,新形成的展示板可以以類似於熱門時尚展示板的方式組織其內容以獲得增強的流行度。這些時尚展示板上的哪些屬性決定了它們的受歡這些屬性,可以系統地量化嗎?

在本文中,我們展示了社交,時間和圖像信號如何共同幫助描繪流行的時尚展示板。特別是,我們研究了引用的共享/借用行為以及時尚展示板的圖像內容特徵。我們使用社交和時間信號分析共享行為,並提出六個新穎而簡單的指標:原創性得分,保留系數,生產系數,復制間時間,共享持續時間和速度系數。我們通過提取嵌入圖像中的時尚,顏色和性別術語,進一步研究基於圖像的內容屬性。我們觀察到流行(高度關注或高度排名的專家)和不受歡迎(較少遵循)的展示板之間的顯著差異。

然後,我們使用這些特徵來早期預測展示的普及,並做到0.874與低RMSE值的高相關性。我們的主要觀察結果是,除了使用各種顏色,性別和時尚術語之外,喜歡和重復保留系數是展示板受歡迎程度最具區分性的因素。

壽命差異 – 全球趨勢,政策影響和計算方法

Lifespan differential – global trends, policy impact and computational methods

地址:

http://arxiv.org/abs/1812.07839

作者:

Toni Cosic, Roko Misetic, Hrvoje Stefancic

摘要:長壽問題長期以來被認為是人口學中的關鍵概念之一。本文討論的長壽的一個特殊方面是女性和男性人口的平均生命持續時間的差異,稱為壽命差異。利用人類死亡率數據庫中的數據,從1960年到2014年,研究了全球許多國家的壽命差異動態。一個有趣的現象是,研究區間開始時生命差異的增長趨勢不會持續,即數據集中的絕大多數國家都顯示出停滯甚至下降。

在一些案例研究中,證明了生命動態與諸如戰爭,解散或國家一體化或政策措施等破壞性事件的強烈關聯。最後,介紹了一種從人口亞群的死亡率指標計算人口壽命差異的新方法,並將其應用於1990年至2000年以色列的壽命差異分析。

學習義大利參議院的政治DNA

Learning Political DNA in the Italian Senate

地址:

http://arxiv.org/abs/1812.07940

作者:

Antonio Longo, Chiara Ravazzi, Fabrizio Dabbene, Giuseppe Calafiore

摘要:受到控制界對社會科學的興趣日益增加以及對意見形成和信仰系統的研究的啟發,在本文中,我們討論了利用投票數據來推斷個人對競爭意識形態群體的潛在親和力的問題。特別是,我們在第十七屆立法機關期間挖掘了義大利參議院的關鍵投票記錄,以便根據選擇最相關法案的簡約特徵提取方法,向參議員提取關於參議員親密程度的隱藏信息。將投票數據建模為隨機變量混合的結果並使用稀疏學習技術,我們將問題轉化為概率框架並得出信息論度量,我們將其稱為政治數據 – 分析親和力(政治DNA)。

本文討論了這種新的親和力測量的優點。投票數據的數值分析結果揭示了義大利參議院政治人物之間的潛在關係。

計算大圖的可導航性分數

Computing a Score of Navigability in Large Graphs

地址:

http://arxiv.org/abs/1812.08012

作者:

Pasquale De Meo, Mark Levene, Fabrizio Messina, Alessandro Provetti

摘要:Travers和Milgram的開創性實驗證明了所謂的「六度分離」現象,通過這種現象,世界上任何一個人都可以通過短鏈的社會關係聯繫任意的,迄今為止未知的個體。盡管有大量的實證和理論研究來解釋Travers-Milgram實驗,但一些基本問題仍然存在:為什麼有些人比其他人更有可能發現朋友之間的朋友通信鏈?我們能否根據他們發現短鏈的能力對個人進行排名?

為了回答這些問題,我們將最初在Web分析環境中定義的潛在收益概念擴展到社會網路,我們定義了一個新的索引,稱為「導航性得分」,它根據如何對網路中的節點進行排名它們的位置有助於發現連接到網路中任意目標節點的短鏈。我們定義了兩種潛在增益變體,稱為幾何和指數勢增益,並提供快速算法來計算它們。我們的理論和實驗分析證明,即使在大型實際圖中,幾何和指數增益的計算也是可以承受的。

基於深度學習模型的社會網路中網路欺凌檢測:可重復性研究

Cyberbullying Detection in Social Networks Using Deep Learning Based Models; A Reproducibility Study

地址:

http://arxiv.org/abs/1812.08046

作者:

Maral Dadvar, Kai Eckert

摘要: 網路欺凌是一種令人不安的在線不當行為,其後果令人不安。它以不同的形式出現,在大多數社會網路中,它採用文本格式。自動檢測此類事件需要智能系統。大多數現有研究已經用傳統的機器學習模型解決了這個問題,並且這些研究中的大多數開發模型一次可適應單個社會網路。在最近的研究中,基於深度學習的模型已經在檢測網路欺凌事件中找到了自己的方式,聲稱它們可以克服傳統模型的局限性,並提高檢測性能。

在本文中,我們調查了最近這方面的文獻的發現。我們成功地復制了這些文獻的發現,並使用相同的數據集驗證了他們的發現,即作者使用的維基百科,Twitter和Formspring。然後,我們通過在新的YouTube數據集上應用開發的方法(~4k用戶約54,000個帖子)擴展了我們的工作,並調查了新社交媒體平台中模型的性能。我們還將在一個平台上訓練的模型的性能轉移並評估到另一個平台。我們的研究結果表明,基於深度學習的模型優於以前應用於同一YouTube數據集的機器學習模型。我們相信基於深度學習的模型還可以從集成其他信息源以及查看用戶在社會網路中的個人資料信息的影響中受益。

標準化的Gutenberg項目

語料庫,用於自然語言

和定量語言學的統計分析

A standardized Project Gutenberg corpus for statistical analysis of natural language and quantitative linguistics

地址:

http://arxiv.org/abs/1812.08092

作者:

Martin Gerlach, Francesc Font-Clos

摘要: 使用Project Gutenberg(PG)作為文本語料庫在語言統計分析中已經非常流行超過25年。然而,與其他具有相似重要性的主要語言數據集相比,迄今為止還沒有任何雙方同意的完整版PG。實際上,到目前為止,大多數PG研究要麼只考慮少量手工選擇的書籍,導致潛在的有偏見的子集,要麼採用截然不同的預處理策略(通常在細節不足的情況下指定),這引起了對已發表結果的再現性的擔憂。

為了解決這些缺點,我們在此提出標準化項目古騰堡語料庫(SPGC),這是一種開放式科學方法,用於完整的PG數據的策劃版本,包含超過50,000本書和超過3美元的10 ^ 9 字令牌。使用不同來源的註釋元數據,我們不僅提供了PG內容的廣泛表征,還展示了不同的例子,突出了SPGC在調查跨時間,主題和作者的語言變異性方面的潛力。

我們詳細發布了我們的方法,下載和處理數據的代碼,以及在3個不同粒度級別(原始文本,單詞標記的時間序列和單詞計數)上獲得的語料庫本身。通過這種方式,我們提供了一個可重復的,預處理的,全尺寸的Project Gutenberg版本,作為語料庫語言學,自然語言處理和信息檢索的新科學資源。

內生認知派系化:一種網路認識論方法

Endogenous Epistemic Factionalization: A Network Epistemology Approach

地址:

http://arxiv.org/abs/1812.08131

作者:

James Owen Weatherall, Cailin O’Connor

摘要:為什麼對一個主題持不同意見的人也傾向於對其他主題持不同意見?在本文中,我們引入網路認識論模型來探索這種「認識派」現象。代理人試圖通過測試世界和分享收集的證據來發現有關多種信仰的真相。但是,代理人傾向於不信任那些沒有相似信仰的人所共有的證據。這種不信任導致了具有多種高度相關的極化信念的代理派系的內生出現。

使用軟更新最大限度地減少信息年齡

Minimizing Age of Information with Soft Updates

地址:

http://arxiv.org/abs/1812.08148

作者:

Melih Bastopcu, Sennur Ulukus

摘要:我們考慮信息更新系統,其中信息提供者和信息接收者隨著時間的推移參與更新過程。不同於現有的文獻,其中更新是可數的(硬)並立即生效或延遲生效,但在兩種情況下瞬間 ,此處更新立即生效,但隨著時間的推移逐漸增加。我們硬幣這個設置 soft 更新。當更新過程開始時,年齡減小直到軟更新周期結束。我們約束信息提供者和信息接收者滿足的次數(更新周期的數量)和更新周期的總持續時間。

在更新期間我們考慮兩種減少年齡的模型:在第一種模型中,年齡下降率與當前年齡成正比,而在第二種模型中,年齡下降率是恒定的。第一個模型導致指數衰減年齡,第二個模型導致線性衰減年齡。在這兩種情況下,我們通過確定更新的最佳開始時間和最佳持續時間來確定最佳更新方案,這取決於更新周期數和總更新持續時間的限制。

來源:網路科學研究速遞

編輯:孟婕

聲明:Arxiv文章摘要版權歸論文原作者所有,由本人進行翻譯整理,未經同意請勿隨意轉載。本系列在微信公眾號「網路科學研究速遞」(微信號netsci)和個人博客 https://www.complexly.me (提供RSS訂閱)進行同步更新。

電影腳本的多層網路模型 等10篇

商務合作及投稿轉載|[email protected]

◆ ◆ ◆

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!