Re: [請益] 機器學習在台灣的出路

看板Soft_Job作者 (123)時間7年前 (2017/08/29 00:36), 7年前編輯推噓25(25031)
留言56則, 22人參與, 最新討論串7/8 (看更多)
前面有幾篇說,拉一拉就好,連阿罵都會用..... 這也太扯了,就像 excel 、 spss,也是拉一拉就好了, 那寫 R、Python 的是??? 寫 code 就是有他的強項阿 況且你還要連 SQL ,甚至從 hadoop 撈 data ,阿罵這麼強?? 就不講 data cleaning 了 確實目前工具很完善,隨便都能做分析,做的很爛而已, 沒做 feature engineering 的分析,頂多發碩論混畢業而已 feature engineering 絕對無法使用拖拉介面做出來, 以我做 Kaggle 上的 庫存銷售預測、購物籃分析、生產線分析 來說 feature engineering 完全不同,這需要一些經驗, 特別是,書上都不會教你這些,只能靠實作累積經驗 大家都用相同的 model,憑什麼比別人好? 在 Kaggle 上這點就很明顯, 你的 feature engineering 怎麼做才是重點, 甚至是做 n-fold 去確保模型穩定,你不是靠運氣選到好的 testing data 做 feature selection 找出關鍵變數,找出哪個製程影響最大、出問題, 再回去修正你的機台 用 ML 分析 data 也只是 data mining 的一小部分, 你要如何視覺化呈現?套件很多沒錯,那你要如何選擇?要如何解釋? 不是分析完就沒事了, Kaggle 比較著重在分析,但事前的 data 收集、data cleaning 所花的時間, 是分析的兩三倍以上,原始 data 是非常髒的, 不同部門沒整合就不用說了,變數命名不同,日期格式不同等等,會弄到崩潰 最後,單就 Kaggle 來說,依然有非常多企業丟出 data,丟出問題要你解決, 特別是目前 ML model 還在進化中, 最近 5 年出現的 XGB 打趴一堆 RF、SVM、GB 等, 同樣問題,過去無法商業化,因為模型改進,未來有可能達到商業化的程度 比較可惜的是,台灣真正在做的很少,學校就不用講了,一堆騙計畫的, 不少研究生也說自己做過 ML ,用 SVM ,卻連 Kernel 都不知道, 遇到 missing value 怎麼處理? 特別是學校碰到的 data 都只是玩玩罷了,data 小就算了, 有些做二元分類連 imbalance 也不懂 另外國外這方面的職缺還是不少 在 kaggle 提供相關徵才中,就有超過 20 家公司需要這方面的人才 https://www.kaggle.com/jobs 如果你只會拉一拉,調調參數,那不叫做資料科學 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.229.90.122 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1503938180.A.F62.html

08/29 00:38, , 1F
正名一下 是eature engineering...
08/29 00:38, 1F
感謝

08/29 00:39, , 2F
/f
08/29 00:39, 2F

08/29 00:41, , 3F
一個學過小畫家就說幹嘛學photoshop的概念
08/29 00:41, 3F

08/29 01:18, , 4F
為何討論的方向偏向data mining了?
08/29 01:18, 4F

08/29 01:20, , 5F
@@ 一直搞不清楚DM 跟 ML 的分界, 板上 比kaggle 的人這
08/29 01:20, 5F
目前 DM 一部分的核心就是 ML ,是有點離題拉 即使單純寫新方法,也並非 google 那些大企業, 拿 XGB 舉例,作者是個在國外念博士的中國人,非數學相關科系, 因為這些理論都已經發展十幾年了,要怎麼有效率的實作才是重點

08/29 01:21, , 6F
摸多, 想必如outrunner master等級的人也很多
08/29 01:21, 6F

08/29 01:25, , 7F
我的意思是還有CV NLP之類的 尤其台灣作多媒體的公司不
08/29 01:25, 7F

08/29 01:25, , 8F
少啊
08/29 01:25, 8F

08/29 01:45, , 9F
好像真正如大大所說的,都在騙計畫..很多碩論都有SVM
08/29 01:45, 9F
目前 DL 很夯 更多拿 AI 去騙計畫的 好像什麼都要跟 AI 扯上邊

08/29 02:17, , 10F
原PO你是數學出生的吧 很多CS的都沒你清楚啊XDD
08/29 02:17, 10F

08/29 02:21, , 11F
講個笑話 為了跟上潮流 政府計畫名稱每幾年就要改個一次
08/29 02:21, 11F

08/29 02:21, , 12F
一開始是智慧型XX 前幾年改成前瞻XX 現在則變成了人工智慧
08/29 02:21, 12F

08/29 02:21, , 13F
XX XDDD
08/29 02:21, 13F
對阿我數學系的,目前也不少數學系教授在做這方面 CS 領域很廣,所以做這方面的比較少人 就我所知,台大一些 CS 的打 Kaggle 很強, 其實 data mining 、ML、DL 這方面,資工課程比較完善, 像是台大李宏毅的 ML 線上課程,林軒田,甚至是剛回國的陳縕儂( 超正教授XD ) 都是這方面的專家,而且都不是數學背景喔,所以資工做這塊不是問題

08/29 07:27, , 14F
外國外這方面的職缺還是不少 << 標題在問台灣來著
08/29 07:27, 14F

08/29 09:05, , 15F
結論就是台灣沒適合的職缺
08/29 09:05, 15F
應該說 這塊連國外都還在發展中 XGB的作者是個在美國念博士的中國人 所以並非那些大企業在玩 而台灣是有這方面的人 就看台灣未來的走向了 台灣未來對這塊的需求又是如何?? 其實這塊很多都在發展中 是有機會走出自己的一條路的 ※ 編輯: f496328mm (114.36.63.197), 08/29/2017 09:34:52

08/29 09:52, , 16F
這幾篇弄的我好亂
08/29 09:52, 16F

08/29 09:57, , 17F
我同意,我不認同的只是前幾篇有人提到不會寫自己的工具,
08/29 09:57, 17F

08/29 09:57, , 18F
只會拿別人工具來應用在案例上的人沒出路,這其實不太合理
08/29 09:57, 18F

08/29 10:02, , 19F
以後可能會分工成,model廠商和應用廠商吧,我覺得會
08/29 10:02, 19F

08/29 10:02, , 20F
類似eda,ide那種感覺
08/29 10:02, 20F

08/29 11:02, , 21F
這篇才是真正在業界的人會po的心得
08/29 11:02, 21F

08/29 11:03, , 22F
很多學生以為打打Kaggle 就跟實際工作差不多
08/29 11:03, 22F

08/29 11:03, , 23F
真正工作上data cleaning/preprocessing佔了超多時間
08/29 11:03, 23F

08/29 11:10, , 24F
另外 懂數學 會讓你調參數事半功倍
08/29 11:10, 24F

08/29 11:10, , 25F
08/29 11:10, 25F

08/29 12:25, , 26F
推 真材實料心得
08/29 12:25, 26F

08/29 12:31, , 27F
祝福大大早日 master
08/29 12:31, 27F

08/29 12:32, , 28F
陳天奇 那種等級的 已經超出一般人境界了...
08/29 12:32, 28F

08/29 12:35, , 29F
看看陳天奇的論文 數學推論成份也很高
08/29 12:35, 29F
主要想說的是,不是大公司才能做,而且他非數學相關科系

08/29 12:48, , 30F
同意做過svm不知道KEREL那段qq
08/29 12:48, 30F

08/29 17:55, , 31F
做SVM不知道kernel?
08/29 17:55, 31F
某部分,不敢說大部分,做這方面的碩士生,使用 default 參數是很常見的, 所以當然不會知道 kernel ,( 不是學店生喔 )

08/29 17:55, , 32F
另外使用很多演算法都要自己創model出來
08/29 17:55, 32F

08/29 17:56, , 33F
那才是真的演算法核心
08/29 17:56, 33F
這點是沒錯,大公司應該要分部門,專門研究這塊的, 不過一般人,使用現成 model,做好其他部分就很厲害了,畢竟 model 只是其中一部分 自己開發 model 這點,在 Kaggle 上也有這種情形,拿最近結束的比賽 Instacart Market Basket Analysis 來說 就有參賽者開發出 arboretum - Gradient Boosting on GPU 當然成果是不錯的,另外 XGB 也是有 GPU 版本,未來 GPU 會被大大利用

08/29 19:58, , 34F
用autoML調參數呢?
08/29 19:58, 34F

08/29 20:00, , 35F
連用哪個演算法也不用選了
08/29 20:00, 35F
參數不會是重點,重點還是在 feature, 應該這樣講,參數大家都會調,那憑什麼比其他人強??

08/29 20:43, , 36F
我是看過很多報期末專案,SVM或RF之類的跑一跑,數據列
08/29 20:43, 36F

08/29 20:43, , 37F
一個小表格,好,結束。
08/29 20:43, 37F
學校很多都這樣阿,幾個方法比較一下,因為沒有壓力,做不好沒差 有些小細節更是要注意, 例如比較時,要設 seed ,相同的 training data、testing data, 不然沒意義

08/29 20:44, , 38F
然後一學期的愉快課程又結束了XD
08/29 20:44, 38F

08/29 20:44, , 39F
摸完後回去繼續做自己的前端/後端
08/29 20:44, 39F

08/29 21:06, , 40F
用競賽的角度來說當然是比誰最厲害
08/29 21:06, 40F

08/29 21:06, , 41F
但不是所有的情況都是這樣
08/29 21:06, 41F

08/29 22:33, , 42F
我只想說,這世界有太多人瞧不起工具應用
08/29 22:33, 42F

08/30 02:21, , 43F
真的!碩班做計畫收來的資料真的很髒,preprocessing
08/30 02:21, 43F

08/30 02:21, , 44F
超花時間,不過跟大大接觸過的資料比起來應該也只是
08/30 02:21, 44F

08/30 02:21, , 45F
小兒科
08/30 02:21, 45F

08/30 09:58, , 46F
大家寫的程式語言也不是自己開發的,這樣程式怎麼寫的好(X
08/30 09:58, 46F

08/31 03:06, , 47F
現在一堆腦殘會算平均標準差就自詡資料科學家了
08/31 03:06, 47F

09/02 18:37, , 48F
這篇寫得很好ㄟ
09/02 18:37, 48F

09/02 18:38, , 49F
剛碰Kaggle 真的覺得feature engineering很重要 請問有推薦
09/02 18:38, 49F

09/02 18:39, , 50F
的課程可以看嗎 我是打算先看Johns Hopkins的Data Science
09/02 18:39, 50F

09/02 18:39, , 51F
感謝
09/02 18:39, 51F

09/02 21:50, , 52F
稍微喵一下感覺這課程好像不怎樣@@
09/02 21:50, 52F
我目前沒看過有教 feature engineering 的線上課程,可能這太細了,又是case by case 單就 ML 的話,台大李弘毅的不錯,youtube 上有 我剛開始學,是直接打 Kaggle ,學習別人的方法,並沒有上線上課程, Kaggle 的 kernel 很有幫助,大家會分享自己的 code 與想法, code 不難讀,慢慢看累積經驗,建議你多做幾個題目,過期的比賽也沒關係 不過排名至少要有 top 10% rank feature engineering 方面,我有對於兩個 kaggle 比賽上,寫篇文章介紹我的方法 https://github.com/f496328mm/kaggle_Grupo_Bimbo_Inventory_Demand https://github.com/f496328mm/kaggle_Bosch_Production_Line_Performance 我認為這只能靠經驗累積,基本上,類似的問題,feature engineering 都很類似 這就是為什麼要找 feature,調參數很沒意義 不過我也有經歷過初學者,陷入調參數的困境中,最好不要這樣, 但是會這樣很正常 有興趣可以合作玩玩看,我沒碰過的問題,我也不懂 feature,這需要花費很多時間, 所以蠻希望找人合作 ※ 編輯: f496328mm (36.231.224.18), 09/03/2017 16:37:07

09/05 22:42, , 53F
感謝你 我查了一下關於討論feature engineering的文章
09/05 22:42, 53F

09/05 22:42, , 54F
跟你說的一樣 看來先多在Kaggle上邊練習邊看別人的做法累積經
09/05 22:42, 54F

09/05 22:43, , 55F
09/05 22:43, 55F

09/05 22:43, , 56F
是初學者比較好的做法
09/05 22:43, 56F
文章代碼(AID): #1Pf4Q4zY (Soft_Job)
討論串 (同標題文章)
文章代碼(AID): #1Pf4Q4zY (Soft_Job)