資料異常值(Outlier)檢視
一 . 單變量
- Box plot
- 在圖上描述統計中的四分位數,並將異常值繪成單獨的點

二 . 多變量
- Scatter plot
- 每個點具有兩個值,水平軸上位置的一個變量和垂直軸上位置的另一個變量

三 . 資料為高斯分佈或類高斯分佈
- Standard Deviation Method,以平均數為中心點向左右擴張1 ~ 4個標準差
- 1個標準差 : 68%的資料;2個標準差 : 95%的資料;3個標準差 : 99.7%的資料;4個標準差 : 99.9%的資料
- 依自訂範圍擷取所需資料並判斷異常值
四 . 資料為非高斯分佈或非類高斯分佈
- Interquartile Range Method (IQR),計算為資料的第3個四分位數和第1個四分位數之間的差異
- 範圍值設定為(第1個四分位數 - IQR*1.5) ~ (第3個四分位數 + IQR*1.5)並判斷異常值
- 其中1.5為普遍通用值
參考資料 :
- https://towardsdatascience.com/ways-to-detect-and-remove-the-outliers-404d16608dba
- https://machinelearningmastery.com/how-to-use-statistics-to-identify-outliers-in-data/
請先 登入 以發表留言。