Re: [請益] 機器學習在台灣的出路
前面有幾篇說,拉一拉就好,連阿罵都會用.....
這也太扯了,就像 excel 、 spss,也是拉一拉就好了,
那寫 R、Python 的是??? 寫 code 就是有他的強項阿
況且你還要連 SQL ,甚至從 hadoop 撈 data ,阿罵這麼強??
就不講 data cleaning 了
確實目前工具很完善,隨便都能做分析,做的很爛而已,
沒做 feature engineering 的分析,頂多發碩論混畢業而已
feature engineering 絕對無法使用拖拉介面做出來,
以我做 Kaggle 上的 庫存銷售預測、購物籃分析、生產線分析 來說
feature engineering 完全不同,這需要一些經驗,
特別是,書上都不會教你這些,只能靠實作累積經驗
大家都用相同的 model,憑什麼比別人好? 在 Kaggle 上這點就很明顯,
你的 feature engineering 怎麼做才是重點,
甚至是做 n-fold 去確保模型穩定,你不是靠運氣選到好的 testing data
做 feature selection 找出關鍵變數,找出哪個製程影響最大、出問題,
再回去修正你的機台
用 ML 分析 data 也只是 data mining 的一小部分,
你要如何視覺化呈現?套件很多沒錯,那你要如何選擇?要如何解釋?
不是分析完就沒事了,
Kaggle 比較著重在分析,但事前的 data 收集、data cleaning 所花的時間,
是分析的兩三倍以上,原始 data 是非常髒的,
不同部門沒整合就不用說了,變數命名不同,日期格式不同等等,會弄到崩潰
最後,單就 Kaggle 來說,依然有非常多企業丟出 data,丟出問題要你解決,
特別是目前 ML model 還在進化中,
最近 5 年出現的 XGB 打趴一堆 RF、SVM、GB 等,
同樣問題,過去無法商業化,因為模型改進,未來有可能達到商業化的程度
比較可惜的是,台灣真正在做的很少,學校就不用講了,一堆騙計畫的,
不少研究生也說自己做過 ML ,用 SVM ,卻連 Kernel 都不知道,
遇到 missing value 怎麼處理?
特別是學校碰到的 data 都只是玩玩罷了,data 小就算了,
有些做二元分類連 imbalance 也不懂
另外國外這方面的職缺還是不少
在 kaggle 提供相關徵才中,就有超過 20 家公司需要這方面的人才
https://www.kaggle.com/jobs
如果你只會拉一拉,調調參數,那不叫做資料科學
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.229.90.122
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1503938180.A.F62.html
→
08/29 00:38, , 1F
08/29 00:38, 1F
感謝
→
08/29 00:39, , 2F
08/29 00:39, 2F
→
08/29 00:41, , 3F
08/29 00:41, 3F
推
08/29 01:18, , 4F
08/29 01:18, 4F
推
08/29 01:20, , 5F
08/29 01:20, 5F
目前 DM 一部分的核心就是 ML ,是有點離題拉
即使單純寫新方法,也並非 google 那些大企業,
拿 XGB 舉例,作者是個在國外念博士的中國人,非數學相關科系,
因為這些理論都已經發展十幾年了,要怎麼有效率的實作才是重點
→
08/29 01:21, , 6F
08/29 01:21, 6F
推
08/29 01:25, , 7F
08/29 01:25, 7F
→
08/29 01:25, , 8F
08/29 01:25, 8F
推
08/29 01:45, , 9F
08/29 01:45, 9F
目前 DL 很夯 更多拿 AI 去騙計畫的 好像什麼都要跟 AI 扯上邊
→
08/29 02:17, , 10F
08/29 02:17, 10F
→
08/29 02:21, , 11F
08/29 02:21, 11F
→
08/29 02:21, , 12F
08/29 02:21, 12F
→
08/29 02:21, , 13F
08/29 02:21, 13F
對阿我數學系的,目前也不少數學系教授在做這方面
CS 領域很廣,所以做這方面的比較少人
就我所知,台大一些 CS 的打 Kaggle 很強,
其實 data mining 、ML、DL 這方面,資工課程比較完善,
像是台大李宏毅的 ML 線上課程,林軒田,甚至是剛回國的陳縕儂( 超正教授XD )
都是這方面的專家,而且都不是數學背景喔,所以資工做這塊不是問題
推
08/29 07:27, , 14F
08/29 07:27, 14F
→
08/29 09:05, , 15F
08/29 09:05, 15F
應該說 這塊連國外都還在發展中 XGB的作者是個在美國念博士的中國人
所以並非那些大企業在玩
而台灣是有這方面的人 就看台灣未來的走向了
台灣未來對這塊的需求又是如何??
其實這塊很多都在發展中 是有機會走出自己的一條路的
※ 編輯: f496328mm (114.36.63.197), 08/29/2017 09:34:52
推
08/29 09:52, , 16F
08/29 09:52, 16F
推
08/29 09:57, , 17F
08/29 09:57, 17F
→
08/29 09:57, , 18F
08/29 09:57, 18F
推
08/29 10:02, , 19F
08/29 10:02, 19F
→
08/29 10:02, , 20F
08/29 10:02, 20F
推
08/29 11:02, , 21F
08/29 11:02, 21F
→
08/29 11:03, , 22F
08/29 11:03, 22F
→
08/29 11:03, , 23F
08/29 11:03, 23F
推
08/29 11:10, , 24F
08/29 11:10, 24F
推
08/29 11:10, , 25F
08/29 11:10, 25F
推
08/29 12:25, , 26F
08/29 12:25, 26F
推
08/29 12:31, , 27F
08/29 12:31, 27F
推
08/29 12:32, , 28F
08/29 12:32, 28F
→
08/29 12:35, , 29F
08/29 12:35, 29F
主要想說的是,不是大公司才能做,而且他非數學相關科系
推
08/29 12:48, , 30F
08/29 12:48, 30F
推
08/29 17:55, , 31F
08/29 17:55, 31F
某部分,不敢說大部分,做這方面的碩士生,使用 default 參數是很常見的,
所以當然不會知道 kernel ,( 不是學店生喔 )
→
08/29 17:55, , 32F
08/29 17:55, 32F
→
08/29 17:56, , 33F
08/29 17:56, 33F
這點是沒錯,大公司應該要分部門,專門研究這塊的,
不過一般人,使用現成 model,做好其他部分就很厲害了,畢竟 model 只是其中一部分
自己開發 model 這點,在 Kaggle 上也有這種情形,拿最近結束的比賽
Instacart Market Basket Analysis 來說
就有參賽者開發出 arboretum - Gradient Boosting on GPU
當然成果是不錯的,另外 XGB 也是有 GPU 版本,未來 GPU 會被大大利用
推
08/29 19:58, , 34F
08/29 19:58, 34F
→
08/29 20:00, , 35F
08/29 20:00, 35F
參數不會是重點,重點還是在 feature,
應該這樣講,參數大家都會調,那憑什麼比其他人強??
推
08/29 20:43, , 36F
08/29 20:43, 36F
→
08/29 20:43, , 37F
08/29 20:43, 37F
學校很多都這樣阿,幾個方法比較一下,因為沒有壓力,做不好沒差
有些小細節更是要注意,
例如比較時,要設 seed ,相同的 training data、testing data,
不然沒意義
→
08/29 20:44, , 38F
08/29 20:44, 38F
→
08/29 20:44, , 39F
08/29 20:44, 39F
推
08/29 21:06, , 40F
08/29 21:06, 40F
→
08/29 21:06, , 41F
08/29 21:06, 41F
→
08/29 22:33, , 42F
08/29 22:33, 42F
推
08/30 02:21, , 43F
08/30 02:21, 43F
→
08/30 02:21, , 44F
08/30 02:21, 44F
→
08/30 02:21, , 45F
08/30 02:21, 45F
推
08/30 09:58, , 46F
08/30 09:58, 46F
推
08/31 03:06, , 47F
08/31 03:06, 47F
推
09/02 18:37, , 48F
09/02 18:37, 48F
→
09/02 18:38, , 49F
09/02 18:38, 49F
→
09/02 18:39, , 50F
09/02 18:39, 50F
→
09/02 18:39, , 51F
09/02 18:39, 51F
推
09/02 21:50, , 52F
09/02 21:50, 52F
我目前沒看過有教 feature engineering 的線上課程,可能這太細了,又是case by case
單就 ML 的話,台大李弘毅的不錯,youtube 上有
我剛開始學,是直接打 Kaggle ,學習別人的方法,並沒有上線上課程,
Kaggle 的 kernel 很有幫助,大家會分享自己的 code 與想法,
code 不難讀,慢慢看累積經驗,建議你多做幾個題目,過期的比賽也沒關係
不過排名至少要有 top 10% rank
feature engineering 方面,我有對於兩個 kaggle 比賽上,寫篇文章介紹我的方法
https://github.com/f496328mm/kaggle_Grupo_Bimbo_Inventory_Demand
https://github.com/f496328mm/kaggle_Bosch_Production_Line_Performance
我認為這只能靠經驗累積,基本上,類似的問題,feature engineering 都很類似
這就是為什麼要找 feature,調參數很沒意義
不過我也有經歷過初學者,陷入調參數的困境中,最好不要這樣,
但是會這樣很正常
有興趣可以合作玩玩看,我沒碰過的問題,我也不懂 feature,這需要花費很多時間,
所以蠻希望找人合作
※ 編輯: f496328mm (36.231.224.18), 09/03/2017 16:37:07
推
09/05 22:42, , 53F
09/05 22:42, 53F
→
09/05 22:42, , 54F
09/05 22:42, 54F
→
09/05 22:43, , 55F
09/05 22:43, 55F
→
09/05 22:43, , 56F
09/05 22:43, 56F
討論串 (同標題文章)