pandasで分類ごとの統計量をみる

最近はKaggleが少し楽しくなってきましたが、まだまだ特徴量の理解やライブラリの操作に不慣れで、思うように楽しめていない感じです。
ここで挫けてしまわないよう、がんばっていきます。

さて、今日はタイトル通りですが、pandasで私なりにコレは使える!けど検索でなかなか見つけることができなかった、分類ごとの統計量の見方をメモがてら書いていきたいと思います。

まずは、pandasをインポートします。

from pandas import Series, DataFrame
import pandas as pd

そして、例としてmenuという、DataFrameを作ります。

menu = DataFrame({'食べ物':['おにぎり','みそ汁','漬物','サバの味噌煮','ホルモン炒め','パン','唐揚げ'],
                   'ジャンル':['主食','サイド','サイド','おかず','おかず','主食','おかず']})

‘値段’列を追加します。

menu['値段'] = [100, 50, 75, 500, 350, 80, 400]

さて、どんなDataFrameができたかみてみましょう。

menu

コレを「ジャンル」という分類ごとに「値段」の統計量をみてみます。

menu.groupby(['ジャンル'])['値段'].describe()

こんな感じで「ジャンル」という分類ごとの「値段」のサンプル数、平均値、標準偏差などが確認できます。

このgroupbyにたどりつくまでlocで条件式を入れて分類ごとの統計量などをみていて大変だったので、出会えた時は嬉しくて悲しくなりました。

一人でやるより、みんなでデータ分析した方が効率は良さそうですね。

こんな感じで引き続きがんばっていきます。

UdemyでPythonのデータ分析関連のコース買うか。。

Please share this page:

コメントを残す