らふのプログラミングメモ

プログラミングメモです。

DataFrame内のデータを計算してみよう

DataFrameのデータを使って集計をしたいときに使うメソッドをまとめたいと思います。

下準備

まずはDataFrameを作成します。

import pandas as pd

data = {"name":["aaa","bbb","ccc"],"age":[18,20,22],"add":["Tokyo","Osaka","Nagoya"],"English":[80,85,90],"math":[90,80,85]}

df = pd.DataFrame(data)

合計値を求めてみよう(列の合計値)

まずは列の合計値から

df.sum()

結果

nameaaabbbccc
age60
addTokyoOsakaNagoya
English255
math255

このように、数値は合計値になるが文字列は連結された文字となります。

"math"の合計値のみ取得してみよう

df["math"].sum()

結果:255

合計値を求めてみよう(行の合計値)

df.sum(axis = 1)

結果

0188
1185
2197

これより、数値のみ集計されていることがわかります。

平均値を求めてみよう

df.mean()

結果

age20.0
English85.0
math85.0

このように、平均値は数値以外は出力されません。

試しに"name"の平均値を求めてみよう

さきほど出力されなかった"name"を無理やり出してみよう

df["name"].mean()

出力: TypeError : Could not convert aaabbbccc to numeric

このように、エラーが出て計算はできません。

<最終更新日:2021/08/20>
2021/08/20 投稿