Python による基本統計量の計算

pandas.DataFrame.describe() コマンドを使い、平均や標準偏差などの基本統計量を計算する。

Python を起動し、pandas を import する。

import pandas as pd

通常は Excel 等で作成した CSV ファイルを pandas に読み込んで分析する。しかし、ここでは便宜的に以下の簡単なデータフレームを作成し、data という変数に格納しておく。

data = pd.DataFrame({"術者":["太郎","花子","太郎","花子","太郎","花子"], "手術方法":["内視鏡","開腹","開腹","内視鏡","内視鏡","内視鏡"], "手術時間":[60,50,100,90,30,40], "出血量":[15,25,35,55,45,25]})

data の内容を確認する。

data

pandas.DataFrame.describe() コマンドで平均や標準偏差などの基本統計量を表示する。

data.describe()

グループ毎に統計量を出す。

group = data.groupby("術者") #術者でグループ分けする。 
group.describe() #術者毎に手術時間や出血量の平均等を出す。

describe() コマンド以外の方法による基本統計量の計算。

len(data) #サンプルサイズ
data.sum() #合計
data.mean() #平均
data.var() #分散。()内を ddof=0 なら標本分散。省略または ddof=1 なら不偏分散。
data.std() #標準偏差。()内を ddof=0 なら標本分散の平方根。省略または ddof=1 なら不偏分散の平方根。
data.max() #最大値
data.min() #最小値
data.median() #中央値