2020/6~2020/6
分析期貨資料 資料範圍是2007~2012,每天交易日中的每筆交易 6年,71個月,1474個交易日,期貨成交紀錄檔:2億8千萬筆的資料(287259643)+期貨交易人部位資料57000509。 總共要處理的資料量為344260152(三億多筆的相關資料) 每筆資料紀載著投資人身份碼、成交價格、口數、商品代號、商品分類等 要利用這些資料找出為什麼這個人會離開期貨市場 分析做了哪些動作導致的離開市場。 也是因為這個案子,讓我更認識Python 利用Python做大數據真的又快又準確 能使用到的工具真的是多到不行 讓我欣賞了這程式工具的魅力