擷取欄位為條件下之資料
# DataFrame [ DataFrame.loc [ : , 欄位名 ] 條件 ]
-- DataFrame [ DataFrame.loc [ : , "GENDER" ] == "MALE" ]
判斷遺失值
# DataFrame [ DataFrame.loc [ : , 欄位名 ] .isnull( ) ]
判斷非遺失值
# DataFrame [ ~DataFrame.loc [ : , 欄位名 ] .isnull( ) ]
遺失值補零
# app_train.fillna({欄位名 : 'NaN', 欄位名: 0})
遺失值去除
# app_train.dropna()
將資料依照指定欄位分組
# DataFrame.groupby(by = 欄位名)
# DataFrame.groupby(by = [欄位名1, 欄位名2])
-- 用意為在指定欄位(類別)下觀察其餘資料的差異
鎖定欄位順序
# DataFrame = pd.DataFrame(字典)
# DataFrame = DataFrame.loc[:, 字典.keys( )]
檢視資料中各個欄位類型的數量
# DataFrame.dtypes.value_counts( )
擷取資料中指定欄位類型資料
# DataFrame.select_dtypes(include=[指定欄位類型])
擷取資料中指定欄位類型之外的資料
# DataFrame.select_dtypes(exclude=[指定欄位類型])
讓方程作用在資料一維的向量上(每一個欄位的行資料)
# DataFrame.apply(方程, axis = 0)
-- DataFrame.apply( lambda x : len(x) >= 1 )
檢視資料中欄位統計結果
# DataFrame[ 欄位名 ].describe( )
新增標記型欄位(布林值)
# DataFrame[欲新增欄位名] = DataFrame[欄位名] 條件
-- DataFrame[欲新增欄位名] = DataFrame[ "GENDER" ] == "MALE"
將指定值取代 (inplace = True 表示直接修改原始欄位,不新增欄位)
# DataFrame[欄位名].replace({原值 : 取代值}, inplace = True)
將連續性資料離散化
# 間隔 = [間隔1, 間隔2, 間隔3....]
# pd.cut(DataFrame[欄位名], 間隔)
--( 間隔1, 間隔2 ], ( 間隔2, 間隔3 ], ( 間隔3, 間隔4 ]
留言列表