AI 從業者都應該知道的實驗數據集

尋夢新聞LINE@每日推播熱門推薦文章，趣聞不漏接❤️

雷鋒網AI 科技評論按：數據集對於深度學習模型的重要性不言而喻，然而根據性質、類型、領域的不同，數據集往往散落在不同的資源平台里，急需人們做出整理。 fast.ai 近期將這些重要的數據集匯總到了一篇文章里，雷鋒網 AI 科技評論把文章編譯如下。

少了數據，我們的機器學習和深度學習模型什麼也幹不了。這麼說吧，那些創建了數據集、讓我們可以訓練模型的人，都是我們的英雄，雖然這些人常常並沒有得到足夠的感謝。讓人慶幸的是，那批最有價值的數據集後來成了「學術基準線」——被研究人員廣泛引用，尤其在算法變化的對比上；不少名字則成為圈內外都耳熟能詳的名稱，如 MNIST、CIFAR 10 以及 Imagenet 等。

身為 fast.ai 的一員，我們自覺欠這些數據集的創建者一句真摯的感謝，所以我們決定，通過與 AWS 合作，把一些最重要的數據集集中整理在一處，數據集自身採用標準格式，存儲服務器也是快速的、可靠的（請參閱下方的完整列表與鏈接）。如果您在研究中使用了這些數據集，我們希望您記得引用原始論文（我們已經在表單中提供引用鏈接）；如果您將它們用作商業或教育項目的一部分，請考慮添加致謝文及數據集原鏈接。

我們之所以經常在教學中引用這些數據集，是因為它們就是學生們很有可能遇到的數據類型的絕佳例子，此外，學生可以將自己的工作與引用這些數據集的學術成果進行對比，從而取得進步。此外，我們也會使用 Kaggle Competitions 數據集，Kaggle 的 public leaderboards 允許學生在世界最好的數據集里測試自己的模型，不過 Kaggle 數據集並不會在本次表單中出現。

圖像分類領域

1）MNIST

經典的小型（28×28 像素）灰度手寫數字數據集，開發於 20 世紀 90 年代，主要用於測試當時最複雜的模型；到了今日，MNIST 數據集更多被視作深度學習的基礎教材。fast.ai 版本的數據集捨棄了原始的特殊二進制格式，轉而採用標準的 PNG 格式，以便在目前大多數代碼庫中作為正常的工作流使用；如果您只想使用與原始同樣的單輸入通道，只需在通道軸中選取單個切片即可。

引文：http://yann.lecun.com/exdb/publis/index.html#lecun-98

下載地址：https://s3.amazonaws.com/fast-ai-imageclas/mnist_png.tgz

2）CIFAR10

10 個類別，多達 60000 張的 32×32 像素彩色圖像（50000 張訓練圖像和 10000 張測試圖像），平均每種類別擁有 6000 張圖像。廣泛用於測試新算法的性能。fast.ai 版本的數據集捨棄了原始的特殊二進制格式，轉而採用標準的 PNG 格式，以便在目前大多數代碼庫中作為正常的工作流使用。

引文：https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf

下載地址：https://s3.amazonaws.com/fast-ai-imageclas/cifar10.tgz

3）CIFAR100

與 CIFAR-10 類似，區別在於 CIFAR-100 擁有 100 種類別，每個類別包含 600 張圖像（500 張訓練圖像和 100 張測試圖像），然後這 100 個類別又被劃分為 20 個超類。因此，數據集里的每張圖像自帶一個「精細」標籤（所屬的類）和一個「粗略」標籤（所屬的超類）。

引文：https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf

下載地址：https://s3.amazonaws.com/fast-ai-imageclas/cifar100.tgz

4）Caltech-UCSD Birds-200-2011

包含 200 種鳥類（主要為北美洲鳥類）照片的圖像數據集，可用於圖像識別工作。分類數量：200；圖片數量：11,788；平均每張圖片含有的標註數量：15 個局部位置，312 個二進制屬性，1 個邊框框。

引文：http://vis-www.cs.umass.edu/bcnn/

下載地址：https://s3.amazonaws.com/fast-ai-imageclas/CUB_200_2011.tgz

5）Caltech 101

包含 101 種物品類別的圖像數據集，平均每個類別擁有 40—800 張圖像，其中很大一部分類別的圖像數量固為 50 張左右。每張圖像的大小約為 300 x 200 像素。本數據集也可以用於目標檢測定位。

引文：http://www.vision.caltech.edu/feifeili/Fei-Fei_GMBV04.pdf

下載地址：https://s3.amazonaws.com/fast-ai-imageclas/caltech_101.tar.gz

6）Oxford-IIIT Pet

包含 37 種寵物類別的圖像數據集，每個類別約有 200 張圖像。這些圖像在比例、姿勢以及光照方面有著豐富的變化。本數據集也可以用於目標檢測定位。

引文：http://www.robots.ox.ac.uk/~vgg/publications/2012/parkhi12a/parkhi12a.pdf

下載地址：https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz

7）Oxford 102 Flowers

包含 102 種花類的圖像數據集（主要是一些英國常見的花類），每個類別包含 40—258 張圖像。這些圖像在比例、姿勢以及光照方面有著豐富的變化。

引文：http://www.robots.ox.ac.uk/~vgg/publications/papers/nilsback08.pdf

下載地址：https://s3.amazonaws.com/fast-ai-imageclas/oxford-102-flowers.tgz

8）Food-101

包含 101 種食品類別的圖像數據集，共有 101,000 張圖像，平均每個類別擁有 250 張測試圖像和 750 張訓練圖像。訓練圖像未經過數據清洗。所有圖像都已經重新進行了尺寸縮放，最大邊長達到了 512 像素。

引文：https://pdfs.semanticscholar.org/8e3f/12804882b60ad5f59aad92755c5edb34860e.pdf

下載地址：https://s3.amazonaws.com/fast-ai-imageclas/food-101.tgz

9）Stanford cars

包含 196 種汽車類別的圖像數據集，共有 16,185 張圖像，分別為 8,144 張訓練圖像和 8,041 張測試圖像，每個類別的圖像類型比例基本上都是五五開。本數據集的類別主要基於汽車的牌子、車型以及年份進行劃分。

引文：https://ai.stanford.edu/~jkrause/papers/3drr13.pdf

下載地址：https://s3.amazonaws.com/fast-ai-imageclas/stanford-cars.tgz

自然語言處理領域

1）IMDb Large Movie Review Dataset

用於情感二元分類的數據集，其中包含 25,000 條用於訓練的電影評論和 25,000 條用於測試的電影評論，這些電影評論的特點是兩極分化特別明顯。另外數據集里也包含未標記的數據可供使用。

引文：http://ai.stanford.edu/~amaas/papers/wvSent_acl2011.pdf

下載地址：https://s3.amazonaws.com/fast-ai-nlp/imdb.tgz

2）Wikitext-103

超過 1 億個語句的數據合集，全部從維基百科的 Good 與 Featured 文章中提煉出來。廣泛用於語言建模，當中包括 fastai 庫和 ULMFiT 算法中經常用到的預訓練模型。

引文：https://arxiv.org/abs/1609.07843

下載地址：https://s3.amazonaws.com/fast-ai-nlp/wikitext-103.tgz

3）Wikitext-2

Wikitext-103 的子集，主要用於測試小型數據集的語言模型訓練效果。

引文：https://arxiv.org/abs/1609.07843

下載地址：https://s3.amazonaws.com/fast-ai-nlp/wikitext-2.tgz

4）WMT 2015 French/English parallel texts

用於訓練翻譯模型的法語/英語平行文本，擁有超過 2000 萬句法語與英語句子。本數據集由 Chris Callison-Burch 創建，他抓取了上百萬個網頁，然後通過一組簡單的啟發式算法將法語網址轉換為英文網址，並默認這些文檔之間互為譯文。

引文：https://www.cis.upenn.edu/~ccb/publications/findings-of-the-wmt09-shared-tasks.pdf

下載地址：https://s3.amazonaws.com/fast-ai-nlp/giga-fren.tgz

5）AG News

496,835 條來自 AG 新聞語料庫 4 大類別超過 2000 個新聞源的新聞文章，數據集僅僅援用了標題和描述字段。每個類別分別擁有 30,000 個訓練樣本及 1900 個測試樣本。