2015年1月20日 星期二

DSP資料科學冬令營@NCCU-Day2

第二天終於進行到R語言的基本概念介紹,經由昨日關於資料思考的議題思考與專案構想後,
心中早已有理想的預測模式與預測流程,而DSP就在第二天安排R語言課程!


在Johnson講師簡易的開場介紹一篇激勵人心的文章 - 「資料科學家養成三部曲」讓你躋身 21 世紀最性感的職業後,緊接著由主講師Crystal來為我們教授R語言,很勵志的是Crystal並非資訊科系出身而是研究海洋生物相關的學者,但卻非常熟稔R的運作來協助他進行研究,實在是相當令人欽佩!另一方面,也應證了R的泛用性以及易學性。教授過程中,我也逐步的將一些R的特性做一些條例,例如:

R由於有專業的科學家在調整函式因此對於統計模型的預測比較精準,而python,因為由C++作為底層因此運行較快,但對於研究而言你會希望結果是精準的還是快速地得到答案呢?相信答案在各位心中了!

再來R也有如同Nodejs的npm以及ROR的gem等相同的概念,具有許多的pakages,讓使用者不用去複雜的思考如何運作某些統計模型以及處理視覺話資料,避免”重新創造輪子“。

而以我的某個學期專案 - ”高雄CityBike預測車輛數“ 來說,我當時只有一股腦地去撈取資料,並且只依照自己所想像的可能因素,去執行最關鍵的預測模型建立,想當然爾,連excel都沒開過,怎麼會瞭解資料間每個欄位(因素)彼此的關係,最後只能以取 ”各腳踏車站在特定時間裡的平均數“,怎麼想都知道這並非一個非常好的方式,甚至是爛透了!

如果是以R來說,只要透過引入csv檔,最後在進行summary()函式,在數秒間便能理解各個變數(無論是 numerical or categorical)的基本分佈情形,詳細來說可用table來判斷質化變數關係,量化變數則用sd,mean,median,quantile來觀看,並且也有formula函式用簡單的方法製作出 contigency table 來觀察資料間兩兩關係。

若要做視覺化則最基本也有 plot(),barplot(),piechart()等函式可以運用,若是對於初級的raw data分析,應該是綽綽有餘,以上等功能其實會發現excel也有,但R使它更快速更方便,說真的第一天踏入R領域,便對於它在資料處理方面,大開眼界!
內建函式建立plot圖範例
而在這一整天的學習過程中,我其實有一個非常特殊的感觸,就是在我們組其實有一位政大新聞所的教授 - 百齡老師,二十年沒有寫code的他,雖然生疏但沒有教授包袱願意發問,並且尊重每個人的專業,這種學習態度我謹記在心!
我們在政大冬令營教學相長
最後,我想回高雄後,我應該再將那些CityBike的資料,再拿出來好好審視一番....

沒有留言:

張貼留言