資料異常值(Outlier)檢視

 

一 . 單變量

  • Box plot
  • 在圖上描述統計中的四分位數,並將異常值繪成單獨的點

1_HWhJYbFlvR83JXJgaQlQWA.png

 

二 . 多變量

  • Scatter plot
  • 每個點具有兩個值,水平軸上位置的一個變量和垂直軸上位置的另一個變量

1_L-IHSSCQsTxXVUXmui5O6A.png

 

三 . 資料為高斯分佈或類高斯分佈

  • Standard Deviation Method,以平均數為中心點向左右擴張1 ~ 4個標準差
  • 1個標準差 : 68%的資料;2個標準差 : 95%的資料;3個標準差 : 99.7%的資料;4個標準差 : 99.9%的資料
  • 依自訂範圍擷取所需資料並判斷異常值

 

四 . 資料為非高斯分佈或非類高斯分佈

  • Interquartile Range Method (IQR),計算為資料的第3個四分位數和第1個四分位數之間的差異
  • 範圍值設定為(第1個四分位數 - IQR*1.5) ~ (第3個四分位數 + IQR*1.5)並判斷異常值
  • 其中1.5為普遍通用值

 

參考資料 : 

 

創作者介紹
創作者 Rex-Software-Blog 的頭像
Rex

Rex-Software-Blog

Rex 發表在 痞客邦 留言(0) 人氣( 71 )