AI Summer School 2019 in NTU - My First Summer School

Intro 

AI Summer School 人工智慧技術夏季學習營是由科技部台大人工智慧研究中心(AIntu)與中華民國計算語言學學會(ACLCLP)共同舉辦的暑期課程,主題涵蓋大規模機器學習、電腦視覺的遷移式學習、NLP特徵擷取、語音系統、問答系統等等,涵蓋了許多AI方面熱門的領域,同時最後也邀請了在2018年-2019年科技部舉辦的大型競賽:科技大擂台 與AI對話的前三名團隊來分享競賽經驗。

About Me

我本身不太算是AI方面的初學者,算是有看過一些著名的線上課程,像是李宏毅老師的機器學習、林軒田老師的機器學習技法、Standford的CS231n與CS224n等等,這次算是抱持著拓展視野與精進自己的目標來參加本次的AI Summer School,另外有少數的課程我有用HackMD寫了課程筆記,將會附在課程標題下方。

這次暑期學校是辦在台大博雅教學館

大規模機器學習的隨機優化


第一堂課就是由王奕翔教授帶來的哈扣(Hard core)課程,將我的信心打擊到無地自容。

教授從ML的基礎開始介紹我們如何設計演算法來reduce model的loss,內容有幾個我們目前常見的loss function設計,像是regression問題的norm loss、SVM的hinge loss、多分類問題使用的Cross entropy loss等等,接下來談到學習演算法的framework是如何設計的,並以SGD(Stochastic Gradient Descent)為例子,最後談到Convexity的性質跟convex optimization problem還有Full SGD跟普通 SGD的比較等等。

課程非常的扎實,也算是給大家一個下馬威的感覺XD,更有趣的是下午課程的安排是助教來教大家基礎的Python時還說王奕翔教授的課程在台大也是硬得有名,是一位數學非常厲害的教授,完全深有同感阿哈哈。


視覺分析的深度遷移學習與特徵解析

這堂課是由王鈺強教授講授的CV/ML介紹與CV領域最近的進展跟CV上的遷移式學習(Transfer Learning)應用,前半段的內容介紹了基本的MLP跟CNN,還有CV方面的基礎知識與CV能做到些什麼,對初學者來說應該是蠻充實的內容,後半段則是談到為甚麼我們需要使用遷移式學習,它和傳統的機器學習有甚麼不同,還有TL最近一些重要的方法,像是Deep Domain Confusion (DDC), PixelDA等等,並且逐一對這些方法進行了介紹。

實務面上其實如果我在參加CV方面的競賽,也通常會直接使用TL來做,不僅比較省時省力也降低了對機器運算能力的需求量,畢竟只是窮學生QQ。當然你也可以使用Google提供的免費GPU來做運算。


8/14 13:20 ~ 16:30 NLP之特徵抽取 & Question Answering


這堂下午的課程雖然是助教教的但由於我個人覺得講得非常的好,而且收穫良多因此決定介紹一下。這堂課是由李宏毅老師的團隊成員李仲翊劉記良教授的,他們深入淺出的從基礎的NLP介紹,並時常輔以Code實作來講授,我課程覺得非常的清楚好懂。

李仲翊助教講的是電腦如何讀懂語言,談論到分布假說與詞向量還有考慮上下文的詞向量(Contextualized Word Vectors),最後帶到的今年(其實是去年底)最重要的NLP模型 - BERT的介紹,助教介紹的BERT算是我目前見過最清楚好懂得介紹,真的非常厲害。

另一位劉記良助教則是以問答系統(Question Answering)為題講解了QA Tasks有哪些、IR-based和Knowlege-based的差別在哪,最後是一些機器理解(machine comprehension)方面的模型像是QANet跟BERT,還有重要資料集像是SQuAD的介紹,同樣也是非常精彩的講授。


8/15  9:20 ~ 12:10 以資訊學方式解析親權裁判之法律要素、人工智慧讀懂法律裁判文本的探索

這天上午的課程則是邀請了法律系的黃詩淳教授來談AI未來是否輸入法律案件的資料並預測法律裁判的結果,還有這件事情的困難點在哪裡等等。也邀請了東亞系的邵軒磊教授向我們介紹AI要讀懂法律裁判文本的困難點在哪。這段的課程我比較不認真一點,所以也沒辦法再多做什麼介紹XD。


8/16  9:20 ~ 12:10 問答系統與資訊檢索的神經模型最新發展

這段課程是由遠從滑鐵盧來講授的Jimmy Lin來介紹最近QA與IR方面的最新模型,講者講得也是非常清楚好懂,尤其最有印象的是它問我們ML的四個Components哪個是甚麼最重要的時候現場突然一片寧靜,特別令我印象深刻,順帶一提,答案是Data最重要。

Jimmy Lin拋出這個問題的現場
Jimmy Lin拋出這個問題的現場

下午則是由參加科技大擂台的前三名團隊,分別是李宏毅教授與馬偉雲教授還有華碩團隊的成員來分享他們競賽的心得與曾經使用過的方法,最後的結論就是BERT屌打了一切XD,不愧是NLP領域的巨人。

李宏毅老師講解BERT

Conclusion

結論也不知道寫什麼,不過還是得寫個結尾。

如果你對AI挺有興趣,也希望入門這個領域,我個人是非常推薦這個活動,不僅能獲得知識上的提升,課程本身也不失有趣,還有便當跟Buffet還有飲料可以吃XD。

如果你不是初學者,那麼參加這個活動可以幫助你拓展視野並且複習許多重要概念。

雖然這個活動不是免費的,而且連續4天的活動對於不是住在台北的人可能有住宿上的問題(不過我自己那時候也是住在青旅),這些可能的原因令你不想參加或者是猶豫參加,但我個人參加過後覺得付出是大於收穫的,也希望這篇文章能鼓勵更多人去參加AI Summer School。

留言

這個網誌中的熱門文章

為什麼只能在訓練資料上平衡不平衡的資料集? Why should you deal with an imbalanced dataset only on training data?

十種常見的軟體架構模式 10 Common Software Architectural Patterns

如何得到和 Anaconda 的 Jupyter Notebook 一樣的使用者體驗但卻不需安裝 Anaconda ?