close

擷取欄位為條件下之資料

# DataFrame [ DataFrame.loc [ : ,  欄位名 ] 條件 ]

-- DataFrame [ DataFrame.loc [ : ,  "GENDER" ] == "MALE" ]

 

判斷遺失值

# DataFrame [ DataFrame.loc [ : ,  欄位名 ] .isnull( ) ]

 

判斷非遺失值

# DataFrame [ ~DataFrame.loc [ : ,  欄位名 ] .isnull( ) ]

 

遺失值補零

# app_train.fillna({欄位名 : 'NaN', 欄位名: 0})

 

遺失值去除

# app_train.dropna()

 

將資料依照指定欄位分組

# DataFrame.groupby(by = 欄位名)

# DataFrame.groupby(by = [欄位名1, 欄位名2])

-- 用意為在指定欄位(類別)下觀察其餘資料的差異

 

鎖定欄位順序

# DataFrame = pd.DataFrame(字典)

# DataFrame = DataFrame.loc[:, 字典.keys( )]

 

檢視資料中各個欄位類型的數量

# DataFrame.dtypes.value_counts( )

 

擷取資料中指定欄位類型資料

# DataFrame.select_dtypes(include=[指定欄位類型])

 

擷取資料中指定欄位類型之外的資料

# DataFrame.select_dtypes(exclude=[指定欄位類型])

 

讓方程作用在資料一維的向量上(每一個欄位的行資料)

# DataFrame.apply(方程, axis = 0)

-- DataFrame.apply( lambda x : len(x) >= 1 )

 

檢視資料中欄位統計結果

# DataFrame[ 欄位名 ].describe( )

 

新增標記型欄位(布林值)

# DataFrame[欲新增欄位名] = DataFrame[欄位名]  條件

-- DataFrame[欲新增欄位名] = DataFrame[ "GENDER" ] == "MALE" 

 

 將指定值取代 (inplace = True 表示直接修改原始欄位,不新增欄位) 

# DataFrame[欄位名].replace({原值 : 取代值}, inplace = True)

 

將連續性資料離散化

# 間隔 = [間隔1, 間隔2, 間隔3....]

# pd.cut(DataFrame[欄位名], 間隔)

--( 間隔1, 間隔2 ], ( 間隔2, 間隔3 ], ( 間隔3, 間隔4 ]

arrow
arrow
    文章標籤
    python pandas dataframe
    全站熱搜
    創作者介紹
    創作者 Rex 的頭像
    Rex

    Rex-Software-Blog

    Rex 發表在 痞客邦 留言(0) 人氣()