發表文章

目前顯示的是 8月, 2019的文章

語言模型的物理學 Physics of Language Models - ICML 2024 Tutorial

圖片
這是一個ICML 2024的tutorial talk,同時也是 一系列的研究 ,talk的youtube link在 這裡 本篇主要把看這個talk的一些讀書筆記記錄下來,雖然實際上talks是從 3 -> 2 -> 1 這個順序去講的,但這裡仍然以投影片的順序來描述,並把講者最後的感概放在Part 1的最後。 Intro 把智慧分為1.結構、2.知識以及3.推論 在可控制、理想的環境下做研究 (控制資料、調整參數) 可重複性高的實驗 (使用100M大小的模型,推出通用法則) 使用 probing 技巧去看模型裡面如何運作 1. Language Structures 這個部分有兩個目標:  1. 大型語言模型的解讀 (interpretation of LLMs)  並不是基於token level,而是使用更困難的階層式演算法來更精確地解釋LLM如何學習解決這樣的演算法 2.大型語言模型的結構 LLM如何學習格式(format)? → hallucination(幻覺) hallucination只是LLM學習到格式的速度比底層任務快而造成的現象 希望能觀察LLM如何解決更階層式、複雜的語言架構 他們使用的方法是CFG(context-free grammar)作為課題來達成以上兩個目標 他們設計了自己的CFG,大約有20+的長度,這是一個非常長的CFG CFG會從root開始 →  leaf 完成整個推論的樹,這樣長度的CFG會非常難從最終結果回推到他們的源頭,要完全記住這些samples也不可能,因為會有10的80次方個sample  他們從三個面向來測試模型是否能學習這樣的CFGs: accuracy, diversity, distribution 如果使用相對或旋轉嵌入的位置編碼,準確度會很高,但如果是用絕對的位置編碼就會得到很差的結果 為什麼會這樣呢? 因為使用相對/旋轉的位置編碼對於語言架構的注意力來說非常有幫助 相對注意力表現比旋轉好,但相對注意力太慢了 但如果用一個GPT_stupid也可以發現不錯的表現 (這個GPT的head h會往回看2^h-1個token) 例如第一個head會往前看第1個token,第二個head往前看前3個token,第三個head往前看前7個token,這些tok...

AI Summer School 2019 in NTU - My First Summer School

圖片
Intro  AI Summer School  人工智慧技術夏季學習營 是由 科技部台大人工智慧研究中心(AIntu)與 中華民國計算語言學學會(ACLCLP)共同舉辦的暑期課程 ,主題涵蓋大規模機器學習、電腦視覺的遷移式學習、NLP特徵擷取、語音系統、問答系統等等,涵蓋了許多AI方面熱門的領域,同時最後也邀請了在2018年-2019年科技部舉辦的大型競賽:科技大擂台 與AI對話的前三名團隊來分享競賽經驗。 About Me 我本身不太算是AI方面的初學者,算是有看過一些著名的線上課程,像是李宏毅老師的機器學習、林軒田老師的機器學習技法、Standford的CS231n與CS224n等等,這次算是抱持著拓展視野與精進自己的目標來參加本次的AI Summer School,另外有少數的課程我有用HackMD寫了課程筆記,將會附在課程標題下方。 這次暑期學校是辦在台大博雅教學館 大規模機器學習的隨機優化 Course Note 第一堂課就是由 王奕翔教授 帶來的哈扣(Hard core)課程,將我的信心打擊到無地自容。 教授從ML的基礎開始介紹我們如何設計演算法來reduce model的loss,內容有幾個我們目前常見的loss function設計,像是regression問題的norm loss、SVM的hinge loss、多分類問題使用的 Cross entropy loss等等,接下來談到學習演算法的framework是如何設計的,並以SGD(Stochastic Gradient Descent)為例子,最後談到 Convexity的性質跟convex optimization problem還有Full SGD跟普通 SGD的比較等等。 課程非常的扎實,也算是給大家一個下馬威的感覺XD,更有趣的是下午課程的安排是助教來教大家基礎的Python時還說王奕翔教授的課程在台大也是硬得有名,是一位數學非常厲害的教授,完全深有同感阿哈哈。 視覺分析的深度遷移學習與特徵解析 這堂課是由 王鈺強教授 講授的CV/ML介紹與CV領域最近的進展跟CV上的遷移式學習(Transfer Learning)應用,前半段的內容介紹了基本的MLP跟CNN,還有CV方面的基礎知識與CV能做到些什麼,對初學者來說應該是蠻充實的內容,後半段則是...