數據科學中五大統計概念

尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接❤️

加入LINE好友

對於數據科學的藝術,統計學可以說是一個強大的工具。從高層次的角度來看,統計是利用數學對數據進行技術分析。一個基本的可視化,如條形圖,可以給你提供一些高級的信息,但是通過統計學,我們可以以一種更加以信息驅動和更有針對性的方式來操作數據。所用到的數學方法能幫助我們對數據形成具體的結論,而不是去靠猜測。

通過使用統計學,我們可以更深入、更細致地了解我們的數據到底是如何構造的,並基於這種結構,我們如何最佳地應用其他數據科學技術來獲取更多的信息。現在,我們來看看數據科學家們需要知道的5個基本統計概念,以及如何才能最有效地應用它們!統計特徵

統計特徵可能是數據科學中最常用的統計概念。它通常是你在探索數據集時應用的第一種統計技術,包括偏差(bias),方差,均值,中位數,百分位數等等。在代碼中理解和做到都非常容易!

箱形圖(也稱為盒須圖)

中值的線是數據的中位數(median )。由於中位數對離群值的魯棒性更強,因此中位數要比均值更常用。第一個四分位數(first quartile)基本上是第25個百分位,即數據中25%的點低於該值。第三個四分位數(third quartile)是第75百分位,即數據中75%的點低於該值。最小值和最大值表示數據範圍的上端和下端。

箱形圖完美地說明了我們可以用基本統計特徵做什麼:

當箱形圖很短時,它意味著大部分數據點都相似,因為大多數值在在很小的範圍內

當箱形圖很高時,它意味著大部分數據點都非常不同,因為這些值分布在很廣的範圍內

如果中值接近底部,那麼我們知道大多數數據具有較低的值。如果中值接近頂部,那麼我們知道大多數數據具有更高的值。基本上,如果中值的線不在框的中間,則表明數據偏斜。

是否有長尾?這意味著數據具有較高的標準偏差和方差,即數值分散且變化很大。如果盒子的一側有須,而另一側沒有,那麼你的數據可能只在一個方向上變化很大。

所有這些信息來自一些易於計算的簡單統計特徵!只要你需要快速而翔實的數據視圖,請嘗試這些。概率分布

我們可以將概率定義為某個事件發生的幾率。在數據科學中,通常被量化在0到1之間,0表示我們確信這不會發生,1表示我們確信它會發生。另外,概率分布是表示實驗中所有可能值概率的函數。如下圖:

常見的概率分布,依次為均勻分布,正態分布,泊松分布

均勻分布是三個中最基礎的。它在一定範圍內只有單個值,而超出該範圍這值為0。這可以視為一個開/關分布。也可以把它看作是一個有兩個類別的分類變量:0或值。你的分類變量可能有多個非0的值,但我們仍然可以將其視為多個均勻分布的分段函數。

正態分布通常被稱為高斯分布,具體由它的均值和標準差定義。均值在改變分布空間,標準差控制離散。與其他分布(例如泊松)的主要區別在於標準差在所有方向上是相同的。因此,利用高斯分布,我們知道數據集的均值以及數據的離散,即它是在很大範圍內離散還是高度集中在幾個值附近。

一個泊松分布類似於正態分布,但增加了偏度。偏度值較低時,泊松分布將在所有方向上具有相對均勻分布,就像正態分布一樣。但是當偏度值的較大時,我們的數據在不同方向上的分布會有所不同,在一個方向上它將非常分散,而在另一個方向上它將高度集中。

你可以深入研究更多的分布,但這幾種分布已經給了我們很多有價值的線索。我們可以使用均勻分布快速查看和解釋我們的分類變量。如果我們看到高斯分布,我們知道有許多算法默認情況下會特別適用於高斯分布,所以我們應該使用這樣的算法。使用泊松分布,我們必須很小心地選擇一種對空間分布具有魯棒性的算法。降維

降維這個術語很容易理解。我們有一個數據集,我們想減少它的維度數。在數據科學中,維度數是特徵變量的數量。如下圖:

降維

立方體表示我們的數據集,它有3個維度,總共1000個點。現在,計算1000點很容易處理,但如果有更大的規模,我們會遇到問題。然而,僅從二維視角(例如從立方體的一側)查看我們的數據,我們就可以看到從該角度劃分這些顏色非常容易。通過降維,我們可以將三維數據投射到二維平面上。這有效地將我們需要計算的點數從1000減少到100,大大節省了計算量!

我們也可以通過特徵剪枝來降低維數。通過特徵剪枝,我們基本上可以刪除任何我們認為對我們的分析不重要的特徵。例如,在研究數據集之後,我們可能會發現,在10個特徵中,有7個與輸出高度相關,而其他3個具有的相關性非常低。那麼,這3個特徵可能不值得計算,我們也許可以從我們的分析中刪除它們,且不會影響輸出。

用於降維的最常見的統計技術是PCA,它基本上創建了特徵的向量表示以顯示了它們對輸出的重要性((即它們的相關性))。PCA可用於執行上面討論的兩種降維方式。過采樣和欠采樣

過采樣和欠采樣是用於分類問題的技術。有時,我們的分類數據集可能會過於傾斜於某一邊。例如,我們在類1中有2000個實例,而在類2中只有200個。它可以迷惑許多我們嘗試和使用進行建模數據和作出預測的機器學習技術!而過采樣和欠采樣可以解決這個問題。如下圖:

在上圖中,我們的藍色類比橙色類有更多的樣本。在這種情況下,我們有兩個預處理選項可以幫助我們的機器學習模型的訓練。

欠采樣的意思是,我們將只選擇多數類中的一部分數據,而使用少數類中盡可能多的實例。這個選擇需要保持類的概率分布。這很簡單,只需少量樣本就可以使我們的數據集保持平衡!

過采樣的意思是,我們創建我們的少數類的副本,以便擁有與多數類相同數量的實例。製作副本,以維持少數類的分布。我們是在沒有獲得更多數據的情況下平衡了我們的數據集!貝葉斯統計

完全理解我們使用貝葉斯統計的原因要求我們首先了解頻率統計( Frequency Statistics)失敗的地方。頻率統計是大多數人在聽到「概率」一詞時所想到的統計數據類型。它涉及應用數學來分析某些事件發生的概率,即,我們計算的唯一數據是先驗數據。

我們來看一個例子。假設我給了你一個骰子然後問你擲出6的概率是多少。大多數人會說它是1 / 6。事實上,如果我們要進行頻率分析,我們會看有人滾動10,000次骰子,然後計算每個數字的頻率,它大概是1/6!

但是,如果有人告訴你,我們給你的是特殊的骰子,結果總是落在6上呢?由於頻率分析只解釋以前的數據,分析給你的骰子被動過手腳的證據沒有被考慮在內。

貝葉斯統計確實考慮了這一證據。我們可以用貝葉斯定理來說明這一點:

貝葉斯定理

我們公式中的概率P(H)是我們的頻率分析,根據我們之前的數據,我們這個事件發生的可能性是多少。根據我們頻率分析的信息,我們方程中的P(E | H)被稱為似然性(likelihood),本質上是我們的證明是正確的概率。例如,如果你想要將骰子滾動10,000次,而前1000次滾動你得到的全部是6,你就會開始相信這個骰子被動了手腳!P(E)是實際證據成立的概率。如果我告訴你骰子被動手腳了,你能相信我並說它確實被動手腳了,而不是認為我在騙你!

如果我們的頻率分析非常好,那麼它就會有一定的權重來表示我們對6的猜測是正確的。同時,我們將之視為我們改裝骰子的證據,如果它為真或不基於它自己的先驗和頻率分析。從方程式可以看出,貝葉斯統計將一切都考慮在內,只要你認為先前的數據不能很好地代表你未來的數據和結果,就可以使用它。