9班 観察結果

目次

  1. 路線の家賃と合計時間の関係
  2. 京急本線
  3. ソースコード
  4. 班プレゼンテーション

路線の家賃と合計時間の関係


縦軸に家賃、横軸を合計時間とした散布図を用いて路線の家賃と合計時間の関係をグラフにした。
その結果みなとみらい線が頭一つ抜けて合計時間が短いことがわかった。
しかし家賃があまりにも他より高いため選択肢から外す。
また、通学にあたって合計時間が長いと大変なので60分以上もおすすめしにくいため、
20〜60分の部分を拡大する。

この散布図から湘南新宿ライン高海、京急本線、相鉄本線が良さそうに思える。
この中で一番本数が出ている路線が京急本線ためおすすめできる。

京急本線


再び縦軸を家賃、横軸を合計時間の散布図で今度は京急本線の駅の平均を表した。
ここから神奈川新町駅が良いと考える。
理由の一つに合計時間が短い点にある。
合計時間が25分以下の駅で家賃平均が7万以下なのは神奈川新町のみのため。
また、価格が似ている京急鶴見などよりも時間が短い。
2つ目の理由として出ている本数が多い点にある。
生麦などの6万代のエリアではエアポート急行が止まらず、本数が半分になってしまう。
そのため神奈川新町がおすすめのエリアである。

ソースコード

     
  1. import pandas as pd # データ分析に用いるライブラリ
  2. import matplotlib.pyplot as plt # グラフ表示に用いるライブラリ
  3. from mpl_toolkits.mplot3d import Axes3D
  4. pd.set_option('display.unicode.east_asian_width', True) # 表示のずれを少し緩和
  5. plt.rcParams['font.family'] = 'IPAexGothic' # グラフ表示におけるフォントの指定
  6. data_path = "data.csv"
  7. df_data = pd.read_csv(data_path, encoding="utf-8-sig")
  8. print(df_data.columns)
  9. x = df_data.groupby("路線").mean().loc[:, "合計時間"]
  10. y = df_data.groupby("路線").mean().loc[:, "家賃"]
  11. plt.scatter(x, y, s=100, alpha=0.2)
  12. for xx, yy, ss in zip(x, y, x.index):
  13.     plt.text(xx, yy, ss)
  14. plt.xlabel("合計時間")
  15. plt.ylabel("家賃")
  16. plt.show()
  17. mask = df_data.loc[:, "路線"] == "京急本線"
  18. x = df_data[mask].groupby("駅").mean().loc[:, "合計時間"]
  19. y = df_data[mask].groupby("駅").mean().loc[:, "家賃"]
  20. plt.scatter(x, y, s=100, alpha=0.2)
  21. for xx, yy, ss in zip(x, y, x.index):
  22.     plt.text(xx, yy, ss)
  23. plt.xlabel("合計時間")
  24. plt.ylabel("家賃")
  25. plt.show()

班プレゼンテーション