發表文章

目前顯示的是 12月, 2020的文章

機器學習競賽王者演算法:XGBoost、LightGBM、CatBoost

圖片
若是有參加過機器學習競賽的人應該都會聽過 XGBoost 這個橫掃各種競賽的演算法,其實後來也有衍生出 LightGBM 和 Cat boost 這兩種演算法可以使用,只是比較少人聽過,又鑒於這方面資料似乎比較少,就自己吃了一些學習資源來介紹,順便推動自己的學習,希望才疏學淺的本人可以幫助你更了解這三個常見演算法。 The map of machine Learning algorithms Source 不論是 XGBoost,  LightGBM 還是 Catboost,他們都屬於 Ensemble learning (集成式學習)中的 Boosting 方法。Ensemble learning 的基本想法就是一個不夠,你有沒有試過兩個?兩個不夠,你有沒有試過三個?也就是將多種學習方法都集合在一起使用,彼此互相補足,讓演算法的架構更加靈活。 Boosting Boosting 是 循序 的演算法,一開始會先產生多個弱學習器(Weak learner)並讓它們不斷改正舊模型的錯誤,最後合成起來變成一個強學習器(Strong learner)。而所謂的弱學習器是指比隨機猜的表現還要更好一點的模型,這種學習器的訓練成本低、複雜度也低,同時也不易 Overfitting。正因為這些特性,所以我們才可以在短時間內訓練很多種弱學習器,彼此組合起來得到一個強力的模型。 Gradient Boosting Gradient boosting 指的則是將梯度下降法(Gradient descent)應用到這些弱學習器的學習上,幫助最小化 error。這個方法的主要問題在於每跑一次 Gradient descent都需要重新建立一次學習器,這樣非常沒有效率,也因此 XGboost 出現了。 Gradient Boosting Decision Tree (GBDT) 當我們剛剛所提到的每一個弱學習器都是一個決策樹的時候,這個意圖學習並組合出最好的決策樹的Gradient Boosting就叫做GBDT。這也是我們目前最常見用來實作Gradient boosting的做法,同時, 這樣做也正好緩和了決策樹容易Overfitting 的問題。今天的三大主題 XGBoost, LightGBM, CatBoost 都是基於 GBDT 的改進方法。 XGBoost XGBoost的全名是

為什麼只能在訓練資料上平衡不平衡的資料集? Why should you deal with an imbalanced dataset only on training data?

圖片
最近有位同學向我詢問一些資料競賽相關的內容,剛好發現他在程式上犯了這個初心者可能會犯的常見錯誤,也就是將 SMOTE (Synthetic Minority Oversampling Technique) 這種針對不平衡資料集  (imbalanced Dataset)  產生資料來讓其平衡的相關演算法應用在整個資料集上,而非只用在訓練資料集上。 目前的數據分析相關競賽通常都是給參賽者一些不平衡的資料集或者是特徵非常多的資料集(通常多達上百個特徵,尤其是金融相關競賽),此時初學者也常常會查詢到像是  Imblearn  這種專門處理不平衡資料及的套件使用。但其實無論是上採樣或者下採樣又抑或是混合上下採樣的方法, 它們其實都只能應用在訓練資料上,不能直接對整個資料集做平衡。 錯誤的使用會造成模型 作弊 ,並訓練出非常非常高的準確率,但實際上表現完全不好,就像過擬合(Overfitting)發生的時候那樣。 平衡資料集的方法 在面對上圖這種不平衡資料集時,基本上會有上採樣 (Oversampling) 和下採樣(Undersampling) 兩種方法可以使資料集平衡。上採樣指的是把資料少的類別複製幾份,直到兩類資料平衡。下採樣會將資料多的類別資料數減少或者是只從中選取少數資料出來代表這個類別。常見的方法有上採樣的 ADASYN、SMOTE、BorderlineSMOTE,還有結合上下採樣的 SMOTEENN,可參考 imblearn API doc 。 總之無論是使用哪種方法,都可以預期會得到下圖這樣平衡的資料集。 為什麼不可以直接平衡整個資料集呢? 為了回答這個問題,得先知道為什麼資料分割的獨立性是必須優先在所有方法之上的。這裡借用 Google 的 MLCC(Machine Learning Crash Course)  教材來講解。 當你拿到一份資料並想對其使用機器學習演算法來解決你的任務時,至少得將資料分割為訓練資料 (Training Set) 與測試資料 (Test Set),訓練資料是用來教你的模型從x推理到y,測試資料是用來測試這個訓練資料所訓練出來的模型在沒有見過的資料 (unseen data) 上表現如何,測試資料得必須與訓練資料 完全沒有交集, 否則就等於是數學老師直接在上課的時候告訴你期中考的題目和答案,也就是會造成作弊的情形發生。這不僅完全無