DataFrame内のデータを計算してみよう
DataFrameのデータを使って集計をしたいときに使うメソッドをまとめたいと思います。
下準備
まずはDataFrameを作成します。
import pandas as pd data = {"name":["aaa","bbb","ccc"],"age":[18,20,22],"add":["Tokyo","Osaka","Nagoya"],"English":[80,85,90],"math":[90,80,85]} df = pd.DataFrame(data)
合計値を求めてみよう(列の合計値)
まずは列の合計値から
df.sum()
結果
name | aaabbbccc |
age | 60 |
add | TokyoOsakaNagoya |
English | 255 |
math | 255 |
このように、数値は合計値になるが文字列は連結された文字となります。
"math"の合計値のみ取得してみよう
df["math"].sum()
結果:255
合計値を求めてみよう(行の合計値)
df.sum(axis = 1)
結果
0 | 188 |
1 | 185 |
2 | 197 |
これより、数値のみ集計されていることがわかります。
平均値を求めてみよう
df.mean()
結果
age | 20.0 |
English | 85.0 |
math | 85.0 |
このように、平均値は数値以外は出力されません。
試しに"name"の平均値を求めてみよう
さきほど出力されなかった"name"を無理やり出してみよう
df["name"].mean()
出力: TypeError : Could not convert aaabbbccc to numeric
このように、エラーが出て計算はできません。
<最終更新日:2021/08/20>
2021/08/20 投稿