林嶔 (Lin, Chin)
Lesson 16 通用人工智慧之路
– 對於神經網路的輸入\(X\),我們能允許『結構化資料』、『圖像』、『語言』等輸入
– 對於神經網路的輸出\(Y\),我們同樣能允許『結構化資料』、『圖像』、『語言』等輸出,其中『圖像』又能分為輸出原始圖像、分割機率、物件框等
上面這些任務都是一對一映射任務,而假設我們希望輸出具有隨機性,那我們就必須在輸入內增加「亂數」,而要訓練這種模型則需要對抗生成網路來幫忙。
儘管我們已經學會了這麼多模型,但還有好多種資料我們沒有教過,像是:
圖像部分,我們只教了2D圖片,3D影像(如CT影像)或是影片都仍然沒有涉獵。
除了圖像之外,人的感知中除了視覺外還有聽覺是已經被電子化的(有收音機能夠錄製),因此還有語音任務我們也沒講到。
任務的種類我們也沒有講完全,像是我們還沒說過『對比學習』、『多模態學習』、『強化學習』等。
– 閱讀文獻的能力是很重要的,首先要先讀懂,而後要能覆現,最後還需要基於這些成果之上完成創新!
– Browse State-of-the-Art網站蒐集了目前在幾個重要的資料集上不同時期的最佳模型,大家可以隨時在上面看看研究的進展。
– 基於這篇研究,後續的Swin-Transformer結合了卷積神經網路的特點到Transformer之上,算是一個重要的突破:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
– 基於Transformer與BERT的邏輯,何愷銘等人又創立了視覺任務上的標竿:Masked Autoencoders Are Scalable Vision Learners
對比學習的經典任務-人臉識別:Deep Learning Face Representation by Joint Identification-Verification
對比學習的經典應用-小樣本學習(Few-shot Learning):Learning to Compare: Relation Network for Few-Shot Learning
對比學習應用到多模態任務-零樣本學習(Zero-shot Learning):Learning Transferable Visual Models From Natural Language Supervision
– 這個領域非常的火爆,上面那篇開山之作被稱為CLIP,後續有一大堆的論文,包含:
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation
Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks
– 核心論文是這篇:Denoising Diffusion Probabilistic Models
Hierarchical Text-Conditional Image Generation with CLIP Latents
– 你現在看到的許多文生圖網站,像是DALLE、Midjourney等,都是用這類技術做出來的。
– 奠基論文是這篇:Playing Atari with Deep Reinforcement Learning
– 隨後最重要的一個改進:Continuous control with deep reinforcement learning
– 強化學習的模型很難訓練,其中這篇研究是目前所有技巧的集大成之作:Deep Reinforcement Learning with Double Q-learning
– 如果你想在有限的資源之下做出還不錯的研究(不僅限於特定領域的應用),那你還能做點什麼呢?
– 這個方法真的是非常重要,老師覺得AlphaFold之所以能夠準確地預測蛋白質結構,就是通過這種方法加強模型:Highly accurate protein structure prediction with AlphaFold
– 無論現在的應用如chatGPT再怎麼令人驚豔,本質上他還是一個數學方程式,而模型的訓練都是透過一些巧妙的方式讓他能達到更好的效果。
– 因此,在我們仍然搞不清楚『自我意識』到底是什麼之前,我們不太可能設計出一個數學方程式能產生自我意識。
– 你也需要隨時關注最新的研究突破,並且了解可能會有哪些領域被新的突破所影響。