nbsword's blog

發表文章

目前顯示的是 7月, 2021的文章

【讀書筆記】特徵工程不再難

7月 18, 2021

本篇文章為特徵工程不再難：資料科學新手也能輕鬆搞定！ ( Feature Engineering Made Easy. By Sinan Ozdemir, Divya Susarla ) 之個人讀書筆記。書中有提供程式碼，請見此 Github Repo ，但應該是 Python 2，我下面的程式碼都會改為 Python 3 版本。特徵工程的評估步驟先得到機器學習模型的 baseline performance 應用特徵工程對於每一種特徵工程，獲取一個效能指標並和 baseline 相比較如果效能的改進大於某個臨界值 (User defined)，則認為這種特徵工程是有益的，並將其部屬到機器學習模型中效能的改變通常是以百分比(%)為計 (如果 baseline performance 是從 40% 準確率變成 76% 準確率的話，改進就是 76-40 / 40 = 90% 評估監督式學習演算法？迴歸通常用 MSE，分類通常用 Accuracy 或是 AUC 評估非監督式學習演算法？主要用輪廓係數( silhouette coefficient ) 或是用統計檢定的相關係數、t-test、卡方檢定(Chi-squared tests)以及其他方法來評估並量化原始資料以及轉換後的資料的結果特徵工程的技巧有哪些特徵理解 : 學習如何辨識定量(數值型)和定性資料(分類型) 特徵改進 : 清洗和填補缺失值特徵選擇 : 透過統計方法選擇一部分特徵以減少資料雜訊特徵建構 : 建構新的特徵，探索特徵之間的互動特徵轉換 : 提取資料中的隱藏結構，利用數學方法轉換資料集、增強效果特徵學習 : 以深度學習來對資料進行學習，以此來更加地瞭解資料特徵理解資料結構分為結構化和非結構化結構化資料指的是可明確將觀察值(Row)和特徵(Column)分開的資料非結構化資料指的是不遵守標準結構 (表格) 的資料通常判斷資料的第一個問題是，資料是定量還是定性的？事實上，資料可以同時是定量和定性的，為了更明確的去區分開來，通常會分為四個等級定類等級 (nominal level) : 第一個等級，結構最弱，屬於定性資料，比如血型的A、B、O、AB，動物物種和人名，通常可以畫出眾數(mode)以及長條圖(bar plot)...

搜尋此網誌

nbsword's blog

發表文章

語言模型的物理學 Physics of Language Models - ICML 2024 Tutorial

【讀書筆記】特徵工程不再難

Get new posts by email: