AI Challenger 2018 即將進入決賽,八大數據集搶先看

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

雷鋒網 AI 研習社消息,由創新工場、搜狗、美團點評、美圖聯合主辦的 AI Challenger 2018 即將進入第二階段比賽。今年的大賽主題是「用 AI 挑戰真實世界的問題」,主辦方提供超過 300 萬人民幣獎金。

8 月 29 日至 11 月 4 日是第一階段比賽,參賽隊基於訓練集、驗證集、測試集 A,進行算法設計、模型訓練及評估,並提交預測結果,並將於 2018 年 11 月 6 至 8 日開始第二階段比賽,開放測試集 B。競賽總決賽答辯和頒獎將於 12 月 18、19 日進行。(個別競賽時間不一致,以大賽官網為準。)

AI Challenger 2018 即將進入決賽,八大數據集搶先看

今年比賽與去年一樣,分為主賽道和實驗賽道,目前,數據集也陸陸續續發布,接下來,雷鋒網 AI 科技評論將會帶來這些數據集的介紹,大家可以挑選合適的數據集下載,用於自己的模型訓練。

  • 觀點型問題閱讀理解數據集

本數據集針對閱讀理解中較為複雜的,需要利用整篇文章中多個句子的信息進行綜合才能得到正確答案的觀點型問題,構造了 30 萬組由問題、篇章、候選答案組成的訓練和測試集合。是目前為止全球難度最大的中文閱讀理解公開數據集,全球最大的觀點型機器閱讀理解公開數據集。

訓練集:25 萬

驗證集:3 萬

測試集A:1 萬

測試集B:1 萬

每條數據為 三元組組成,每個問題對應一個篇章(500 字以內),以及包含正確答案的三個候選答案。

問題:真實用戶自然語言問題,從搜尋日志中隨機選取並由機器初判後人工篩選

篇章:與問題對應的文本段,從問題相關的網頁中人工選取

候選答案:人工生成的答案,提供若干(三個)選項,並標註正確答案

地址:https://challenger.ai/dataset/oqmrcd2018

  • 細粒度用戶評論情感分析數據集

用戶評論對於深刻理解商家和用戶、挖掘用戶情感等方面有至關重要的價值,並且在互聯網行業有極其廣泛的應用,主要用於個性化推薦、智能搜尋、產品反饋、業務安全等。為了促進情感分析技術的發展,主辦方提供了一個面向餐飲領域的細粒度用戶評論情感分析數據集,包含 33.5 萬條自大眾點評的真實公開用戶評論,依據其粒度不同構建雙層標註體系,共包含 6 大類 20 個細粒度要素。

訓練集:105,000 條

驗證集:15,000 條

測試集 A:15,000 條

測試集 B:200,000 條

數據集中的評價對象按照粒度不同劃分為兩個層次,層次一為粗粒度的評價對象,例如評論文本中涉及的服務、位置等要素;層次二為細粒度的情感對象,例如「服務」屬性中的「服務人員態度」、「排隊等候時間」等細粒度要素。每個細粒度要素的情感傾向有四種狀態:正向、中性、負向、未提及。使用[1,0,-1,-2]四個值對情感傾向進行描述。

地址:https://challenger.ai/dataset/fsaouord2018

  • 英中翻譯數據集

隨著深度學習技術的不斷發展,近年來機器翻譯研究研究受到了越來越多的關注。主辦方提供了一個英中機器翻譯數據集,包含了 1000 萬英中對照的句子對作為數據集合。數據主要來源於英語學習網站和電影字幕,領域為口語領域。另外,還提供 300 萬帶有上下文情景的英中雙語口語數據。所有雙語句對經過人工檢查,數據集從規模、相關度、質量上都有保障。

訓練集:1300 萬

驗證集:8000

測試集 A:8000

測試集 B:8000

地址:https://challenger.ai/dataset/ectd2018

  • 多標籤短視頻分類數據集

數據集共包含 20 萬條短視頻,涵蓋舞蹈、健身、唱歌等 63 類流行元素,分為訓練集(12 萬)、驗證集(3 萬)、測試集 A(3 萬)、測試集 B(3 萬)。大部分視頻的長度為5-15秒。

本數據集採用多標籤分類體系,標籤信息包含視頻主體、場景、動作等多個維度,標註信息將盡量包含視頻中展現的所有元素,每條視頻有1-3個標籤。

相較於傳統視頻數據集來說,本數據集更具特色。本數據集視頻采集設備多為手機且比例多為豎屏;數據集中的很多視頻使用了短視頻特效,並包含更多視頻快進、剪輯等操作;從視頻內容上講,本數據集包含了更多人物中心化的自拍短視頻內容。

地址:https://challenger.ai/dataset/mlsvd2018

  • 天氣預報數據集

天氣預報數據集由北京市 10 個氣象站點,共 3 年多的逐小時歷史「觀測」和「睿圖」數據組成。這是中國氣象局北京城市氣象研究所公開發布的氣象數據集,其時間跨度長且密度高,包含氣象要素的實況和預報兩部分,對提高天氣預報準確性具有重要作用。

數據連續性較好,缺失樣本(-9999.)很少,並通過 NetCDF4 格式共同存儲於單個 nc 文件中。「觀測」集逐時記錄當前氣象觀測站點的 9 個地面氣象要素,通過氣象儀器實時監測得到;「睿圖」集包含地面和特徵氣壓層共計 29 個氣象要素,由數值預報模式在超級計算機上運算產生。

訓練集:1188 天樣本

驗證集:89 天樣本

測試 A 集:包含兩個數據集,分別為 2018 年 8 月 29 日至 9 月 24 日和 2018 年 8 月 29 日至 10 月 15 日,分別有 27 天和 48 天樣本

測試 B 集:包含 7 個數據集,全部以 2018 年 8 月 29 日為起始日期,以 10 月 28 日至 11 月 3 日分別為結束日期,分別有 61–67 天樣本

地址:https://challenger.ai/dataset/wfd2018

  • 農作物病害數據集

標註圖片 50,000 張、包含 10 種植物的 27 種病害。

本數據集合由上海新客科技和創新工場聯合打造。數據集有 61 個分類(按「物種-病害-程度」分),10 個物種,27 種病害(其中 24 個病害有分一般和嚴重兩種程度),10 個健康分類,47393 張圖片。每張圖包含一片農作物的葉子,葉子占據圖片主要位置。數據集隨機分為訓練(70%)、驗證(10%)、測試 A(10%)與測試 B(10%)四個子數據集。其中,訓練集有 32,739 張圖片,驗證集有 4,982 張圖片,測試集 A 有 4,959 張圖片,測試集 B 有 4,957 張圖片。

地址:https://challenger.ai/dataset/pdd2018

  • 眼底病變數據集

視網膜水腫是一種常見的眼部病理改變,會導致不同程度的視力下降,從而影響正常的生活。盡早的發現水腫症狀,能夠對疾病的診斷和治療起到重要的作用。如今臨床上使用 OCT(光學相幹斷層成像)輔助醫生對視網膜水腫進行判斷。

主辦方提供了眼部 OCT 樣本的圖像數據集,由專業眼科醫生分別對三種類型的水腫進行標註,數據量達到 100 個 OCT 體數據,每個體數據 128 張圖片。這是國內首個眼底病變醫學圖像檢測競賽,使用了目前最大的眼底病變數據集,是一次 AI 與醫學技術的結合

  • 訓練數據包括 cube OCT 數據和水腫標記數據,每個 cube 含有 128 張圖片。

  • 驗證數據除了 cube OCT 數據和水腫標記數據,還包括提交標準即水腫類型標記和體素標記。

  • 水腫類型標記為 [128,3] 的 01 矩陣,分別標記 128 張圖片中對應水腫類型。

  • 體素標記為 [128,1024,512] 矩陣,0、1、2、3 分別代表 Background、REA、SRF、PED。

  • 測試數據為 cube OCT 數據。

地址:https://challenger.ai/dataset/fld2018

  • 圖像屬性數據集

本數據集由創新工場、北京大學王亦洲教授和復旦大學付彥偉教授聯合構造。屬性標註對於做到圖像理解、知識遷移具有重要意義。

本數據集共 78,017 張圖片,可劃分為 5 個超類(super-class),分別是動物(Animals)、水果(Fruits)、交通工具(Vehicles)、電子產品(Electronics)、髮型(Hairstyles)。其中,動物和水果屬於自然產物,交通工具和電子產品屬於人造物,髮型屬於抽象概念。每個超類分別包含 A: 50, F: 50, V: 50, E: 50, H: 30 個類別,總計 230 個類別。對於每個超類(super-class),分別設計了 A: 123, F: 58, V: 81, E: 75, H: 22 個屬性,共 359 個屬性。每張圖片只包含一個前景物體,標註了標籤和物體包圍框。對於每個類別,隨機挑選了 20 張圖片進行屬性標註。

  • 訓練集(seen classes):80% 類別

  • 測試集(unseen classes):20% 類別

訓練集所有圖片均標註了標籤和包圍框。對於部分圖片(20 張/類),標註了二值屬性,屬性值為 0 或 1,表示屬性「存在」或「不存在」。

地址:https://challenger.ai/dataset/lad2018

更多信息,歡迎參見比賽官網:http://challenger.ai

雷鋒網

About 尋夢園
尋夢園是台灣最大的聊天室及交友社群網站。 致力於發展能夠讓會員們彼此互動、盡情分享自我的平台。 擁有數百間不同的聊天室 ,讓您隨時隨地都能找到志同道合的好友!