深度學習理論與實務

林嶔 (Lin, Chin)

Lesson 16 通用人工智慧之路

前言

– 對於神經網路的輸入\(X\),我們能允許『結構化資料』、『圖像』、『語言』等輸入

– 對於神經網路的輸出\(Y\),我們同樣能允許『結構化資料』、『圖像』、『語言』等輸出,其中『圖像』又能分為輸出原始圖像、分割機率、物件框等

  1. 圖像部分,我們只教了2D圖片,3D影像(如CT影像)或是影片都仍然沒有涉獵。

  2. 除了圖像之外,人的感知中除了視覺外還有聽覺是已經被電子化的(有收音機能夠錄製),因此還有語音任務我們也沒講到。

  3. 任務的種類我們也沒有講完全,像是我們還沒說過『對比學習』、『多模態學習』、『強化學習』等。

– 閱讀文獻的能力是很重要的,首先要先讀懂,而後要能覆現,最後還需要基於這些成果之上完成創新!

本學期課程未涵蓋到的經典論文列表(1)

Browse State-of-the-Art網站蒐集了目前在幾個重要的資料集上不同時期的最佳模型,大家可以隨時在上面看看研究的進展。

– 基於這篇研究,後續的Swin-Transformer結合了卷積神經網路的特點到Transformer之上,算是一個重要的突破:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

– 基於Transformer與BERT的邏輯,何愷銘等人又創立了視覺任務上的標竿:Masked Autoencoders Are Scalable Vision Learners

本學期課程未涵蓋到的經典論文列表(2)

  1. 對比學習的經典任務-人臉識別:Deep Learning Face Representation by Joint Identification-Verification

  2. 對比學習的經典應用-小樣本學習(Few-shot Learning):Learning to Compare: Relation Network for Few-Shot Learning

  3. 對比學習應用到多模態任務-零樣本學習(Zero-shot Learning):Learning Transferable Visual Models From Natural Language Supervision

– 這個領域非常的火爆,上面那篇開山之作被稱為CLIP,後續有一大堆的論文,包含:

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks

  1. 對比學習應用到文檔檢索:A Neural Corpus Indexer for Document Retrieval

本學期課程未涵蓋到的經典論文列表(3)

– 核心論文是這篇:Denoising Diffusion Probabilistic Models

Hierarchical Text-Conditional Image Generation with CLIP Latents

DALL-E 2

– 你現在看到的許多文生圖網站,像是DALLEMidjourney等,都是用這類技術做出來的。

本學期課程未涵蓋到的經典論文列表(4)

– 奠基論文是這篇:Playing Atari with Deep Reinforcement Learning

– 隨後最重要的一個改進:Continuous control with deep reinforcement learning

– 強化學習的模型很難訓練,其中這篇研究是目前所有技巧的集大成之作:Deep Reinforcement Learning with Double Q-learning

本學期課程未涵蓋到的經典論文列表(5)

– 如果你想在有限的資源之下做出還不錯的研究(不僅限於特定領域的應用),那你還能做點什麼呢?

  1. 為模型加料:Parameter-Efficient Transfer Learning for NLP

  2. 如何應用現有語言模型:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

– 這個方法真的是非常重要,老師覺得AlphaFold之所以能夠準確地預測蛋白質結構,就是通過這種方法加強模型:Highly accurate protein structure prediction with AlphaFold

本學期課程未涵蓋到的經典論文列表(6)

  1. GANomaly: Semi-Supervised Anomaly Detection via Adversarial Training

  2. Recurrent Neural Networks for Multivariate Time Series with Missing Values

  3. Is Space-Time Attention All You Need for Video Understanding?

  4. GroupViT: Semantic Segmentation Emerges from Text Supervision

結語

– 無論現在的應用如chatGPT再怎麼令人驚豔,本質上他還是一個數學方程式,而模型的訓練都是透過一些巧妙的方式讓他能達到更好的效果。

– 因此,在我們仍然搞不清楚『自我意識』到底是什麼之前,我們不太可能設計出一個數學方程式能產生自我意識。

– 你也需要隨時關注最新的研究突破,並且了解可能會有哪些領域被新的突破所影響。