發表文章

目前顯示的是 7月, 2021的文章

語言模型的物理學 Physics of Language Models - ICML 2024 Tutorial

圖片
這是一個ICML 2024的tutorial talk,同時也是 一系列的研究 ,talk的youtube link在 這裡 本篇主要把看這個talk的一些讀書筆記記錄下來,雖然實際上talks是從 3 -> 2 -> 1 這個順序去講的,但這裡仍然以投影片的順序來描述,並把講者最後的感概放在Part 1的最後。 Intro 把智慧分為1.結構、2.知識以及3.推論 在可控制、理想的環境下做研究 (控制資料、調整參數) 可重複性高的實驗 (使用100M大小的模型,推出通用法則) 使用 probing 技巧去看模型裡面如何運作 1. Language Structures 這個部分有兩個目標:  1. 大型語言模型的解讀 (interpretation of LLMs)  並不是基於token level,而是使用更困難的階層式演算法來更精確地解釋LLM如何學習解決這樣的演算法 2.大型語言模型的結構 LLM如何學習格式(format)? → hallucination(幻覺) hallucination只是LLM學習到格式的速度比底層任務快而造成的現象 希望能觀察LLM如何解決更階層式、複雜的語言架構 他們使用的方法是CFG(context-free grammar)作為課題來達成以上兩個目標 他們設計了自己的CFG,大約有20+的長度,這是一個非常長的CFG CFG會從root開始 →  leaf 完成整個推論的樹,這樣長度的CFG會非常難從最終結果回推到他們的源頭,要完全記住這些samples也不可能,因為會有10的80次方個sample  他們從三個面向來測試模型是否能學習這樣的CFGs: accuracy, diversity, distribution 如果使用相對或旋轉嵌入的位置編碼,準確度會很高,但如果是用絕對的位置編碼就會得到很差的結果 為什麼會這樣呢? 因為使用相對/旋轉的位置編碼對於語言架構的注意力來說非常有幫助 相對注意力表現比旋轉好,但相對注意力太慢了 但如果用一個GPT_stupid也可以發現不錯的表現 (這個GPT的head h會往回看2^h-1個token) 例如第一個head會往前看第1個token,第二個head往前看前3個token,第三個head往前看前7個token,這些tok...

【讀書筆記】特徵工程不再難

圖片
本篇文章為 特徵工程不再難:資料科學新手也能輕鬆搞定! ( Feature Engineering Made Easy. By  Sinan Ozdemir, Divya Susarla ) 之個人讀書筆記。 書中有提供程式碼,請見此 Github Repo ,但應該是 Python 2,我下面的程式碼都會改為 Python 3 版本。 特徵工程的評估步驟 先得到機器學習模型的 baseline performance 應用特徵工程 對於每一種特徵工程,獲取一個效能指標並和 baseline 相比較 如果效能的改進大於某個臨界值 (User defined),則認為這種特徵工程是有益的,並將其部屬到機器學習模型中 效能的改變通常是以百分比(%)為計 (如果 baseline performance 是從 40% 準確率變成 76% 準確率的話,改進就是 76-40 / 40 = 90% 評估監督式學習演算法?迴歸通常用 MSE,分類通常用 Accuracy 或是 AUC 評估非監督式學習演算法?主要用  輪廓係數(  silhouette coefficient ) 或是用統計檢定的相關係數、t-test、卡方檢定(Chi-squared tests)以及其他方法來評估並量化原始資料以及轉換後的資料的結果 特徵工程的技巧有哪些 特徵理解 : 學習如何辨識定量(數值型)和定性資料(分類型) 特徵改進 : 清洗和填補缺失值 特徵選擇 : 透過統計方法選擇一部分特徵以減少資料雜訊 特徵建構 : 建構新的特徵,探索特徵之間的互動 特徵轉換 : 提取資料中的隱藏結構,利用數學方法轉換資料集、增強效果 特徵學習 : 以深度學習來對資料進行學習,以此來更加地瞭解資料 特徵理解 資料結構分為結構化和非結構化 結構化資料指的是可明確將觀察值(Row)和特徵(Column)分開的資料 非結構化資料指的是不遵守標準結構 (表格) 的資料 通常判斷資料的第一個問題是,資料是定量還是定性的? 事實上,資料可以同時是定量和定性的,為了更明確的去區分開來,通常會分為四個等級 定類等級 (nominal level) : 第一個等級,結構最弱,屬於定性資料,比如血型的A、B、O、AB,動物物種和人名,通常可以畫出眾數(mode)以及長條圖(bar plot)...