發表文章

目前顯示的是 4月, 2020的文章

語言模型的物理學 Physics of Language Models - ICML 2024 Tutorial

圖片
這是一個ICML 2024的tutorial talk,同時也是 一系列的研究 ,talk的youtube link在 這裡 本篇主要把看這個talk的一些讀書筆記記錄下來,雖然實際上talks是從 3 -> 2 -> 1 這個順序去講的,但這裡仍然以投影片的順序來描述,並把講者最後的感概放在Part 1的最後。 Intro 把智慧分為1.結構、2.知識以及3.推論 在可控制、理想的環境下做研究 (控制資料、調整參數) 可重複性高的實驗 (使用100M大小的模型,推出通用法則) 使用 probing 技巧去看模型裡面如何運作 1. Language Structures 這個部分有兩個目標:  1. 大型語言模型的解讀 (interpretation of LLMs)  並不是基於token level,而是使用更困難的階層式演算法來更精確地解釋LLM如何學習解決這樣的演算法 2.大型語言模型的結構 LLM如何學習格式(format)? → hallucination(幻覺) hallucination只是LLM學習到格式的速度比底層任務快而造成的現象 希望能觀察LLM如何解決更階層式、複雜的語言架構 他們使用的方法是CFG(context-free grammar)作為課題來達成以上兩個目標 他們設計了自己的CFG,大約有20+的長度,這是一個非常長的CFG CFG會從root開始 →  leaf 完成整個推論的樹,這樣長度的CFG會非常難從最終結果回推到他們的源頭,要完全記住這些samples也不可能,因為會有10的80次方個sample  他們從三個面向來測試模型是否能學習這樣的CFGs: accuracy, diversity, distribution 如果使用相對或旋轉嵌入的位置編碼,準確度會很高,但如果是用絕對的位置編碼就會得到很差的結果 為什麼會這樣呢? 因為使用相對/旋轉的位置編碼對於語言架構的注意力來說非常有幫助 相對注意力表現比旋轉好,但相對注意力太慢了 但如果用一個GPT_stupid也可以發現不錯的表現 (這個GPT的head h會往回看2^h-1個token) 例如第一個head會往前看第1個token,第二個head往前看前3個token,第三個head往前看前7個token,這些tok...

【讀書筆記】 簡報禪 PresentationZen

圖片
Image Source 這本書 已經 是兩年前還是大一的時候閱讀的,當時我將 「學會如何做出好簡報與講出好演講」 這件事情作為年度目標而努力。當時不僅常常聽演講,國文課和通識課也是修了一些和簡報相關的課程。結果最後回顧這年我所做過對精進簡報這件事情幫助最大的,我認為還是去圖書館借了這本書看帶給我的收穫最大 (這本書絕版了好險圖書館有XD)。 這本書並不是一本手把手教你如何做簡報的書,也不是告訴你做簡報有哪些技巧,他告訴我的是一場好簡報有哪些要注意的,有哪些原則可以遵守,有哪些限制是需要做的更重要的是, 如何說故事? 會意識到這真的是一本好書,是由於我在一堂英文課上做英文簡報,因為做了太多最後講不完,而老師給我的評語是雖然很認真做但每個畫面都充滿了太多的資訊, 一直以來大家都認為簡報認真做就是好簡報,但其實並不然, 對自己的簡報做出限制是很重要的 ,而這件事情是簡報禪從頭到尾都在強調的重點。 以下節錄了一些當時我所記下的重點概念,希望能幫到他人,當然自己如果能去想辦法拿到這本書來閱讀更好。 簡報三大守則: 限制、簡單、自然   『要做幾張投影片、用什麼特效、用什麼軟體、要列幾個重點、等等,這些都是問錯問題 真正要問的問題是: 我有多少時間? 簡報場地長得什麼樣子? 我會在上下、下午還是晚上進行簡報? 觀眾是哪些人? 觀眾的背景來歷是? 他們會對我有什麼樣的期待? 為什麼找我上去簡報? 我希望觀眾能做什麼? 哪一種視覺媒體最適合用於這一次的簡報情況和觀眾群? 我的簡報最基本的目的是什麼? 這一次要說的故事是什麼? 最重要的一個基本問題-我的核心重點是什麼? 或者說  如果觀眾只能夠記得一件事情 你希望他們記住的是什麼? 』 『 六條原則:SUCCESs Simplicity 簡潔 (全都很重要表示全都不重要  找出核心) Unexpectedness 出人意料 (提出問題 引出好奇心) Concreteness 具體 (真實例子舉例) Credibility 可信度高 (證據、數字、或是舉例) Emotions 富有情感 (圖片、人性化) Stories 故事性 (記得要有"衝突"(黑VS白之類的)、"對比"、引發情感) 說故事技巧: 找出問...