pandas.DataFrame.describe() コマンドを使い、平均や標準偏差などの基本統計量を計算する。
Python を起動し、pandas を import する。
import pandas as pd
通常は Excel 等で作成した CSV ファイルを pandas に読み込んで分析する。しかし、ここでは便宜的に以下の簡単なデータフレームを作成し、data という変数に格納しておく。
data = pd.DataFrame({"術者":["太郎","花子","太郎","花子","太郎","花子"], "手術方法":["内視鏡","開腹","開腹","内視鏡","内視鏡","内視鏡"], "手術時間":[60,50,100,90,30,40], "出血量":[15,25,35,55,45,25]})
data の内容を確認する。
data
pandas.DataFrame.describe() コマンドで平均や標準偏差などの基本統計量を表示する。
data.describe()
グループ毎に統計量を出す。
group = data.groupby("術者") #術者でグループ分けする。 group.describe() #術者毎に手術時間や出血量の平均等を出す。
describe() コマンド以外の方法による基本統計量の計算。
len(data) #サンプルサイズ data.sum() #合計 data.mean() #平均 data.var() #分散。()内を ddof=0 なら標本分散。省略または ddof=1 なら不偏分散。 data.std() #標準偏差。()内を ddof=0 なら標本分散の平方根。省略または ddof=1 なら不偏分散の平方根。 data.max() #最大値 data.min() #最小値 data.median() #中央値