【Day02】LLM 專有名詞整理#
介紹#
SLM、LLM、VLM 都是 LLM,它們之間的差異在哪裡?AI Agent、Agentic AI 是不是只是把兩個字交換位置?向量是什麼樣的概念?
這篇文章的目的在於彙整這些專有名詞,並且提供一些補充說明(更簡單口語化的說明)。雖然鐵人賽的文章在發佈後就不能再修改,但是這篇文章會同步發佈到我的個人 GitHub 上,希望即使是過了鐵人賽,這篇文章也能夠持續更新。
專有名詞大彙整#
模型類型#
小型語言模型(Small Language Model, SLM)
大型語言模型(Large Language Model, LLM)
視覺語言模型(Vision–Language Model, VLM)
多模態大型語言模型(Multimodal Large Language Model, Multimodal LLM)
補充說明:
如何定義「小型」與「大型」?
筆者認爲單純的以「參數量」來區分並不合適,隨著硬體技術進步,或許現階段的「大型」模型,在未來也能被視爲「小型」模型。因此,筆者認爲應該以當前主流的消費級硬體(個人筆電)爲分界線,能夠在消費級硬體上執行的模型即爲「小型」,反之則爲「大型」
智慧代理#
AI Agent:使用者會給與一個「明確的目標與步驟」給 AI 去執行
Agentic AI:使用者會給與一個「模糊的目標」給 AI 去執行,AI 會自行決定如何達成目標
向量表示與快取#
詞向量/向量嵌入(Embedding):將文字、圖片或其他資料轉換成數值
檢索增強生成(Retrieval-Augmented Generation, RAG):將「外部知識檢索」與「生成模型」結合。模型在回答問題時,不只依賴自身的參數,而是另外從外部知識庫中檢索相關資訊,然後將這些資訊與問題一起輸入生成模型,以產生更準確和相關的回答
快取(Cache)
鍵值記憶(Key–Value Memory, KV)
補充說明:
筆者認爲「向量」一詞對於非專業人士來說較爲抽象,在此舉一個較爲生活化的例子來說明,想請各位使用「數字」描述自己。你會怎麼描述?
由筆者先開始:
[25, 8, 162, 55, 118]
這 5 個神密數字分別代表:8 月出生、25 歲、身高 162 公分、體重 55 公斤、畢業於臺科大(學校 IP)那麼,這 5 個數字就可以視爲是筆者的「向量表示」,而這個向量表示可以用來與其他人的向量表示做比較,看看彼此之間的相似度(例如:年齡、身高、體重等)。當然,向量表示並不完美,因爲它無法「完美」的去描述一個人,這是向量表示的限制之一(因爲它將資訊壓縮了)
架構與規模#
專家混合架構(Mixture of Experts, MoE)
參數量(Model Parameters)
參數量化(Quantization)
補充說明:
專家混合架構(MoE)的核心概念在於「各司其職」,過去的 LLM 在做推論時會把整個模型的參數都用上,但並不是所有的參數都會對最後的結果有影響,因此 MoE 被設計成當有輸入進來時,會先經過一個 Gating Network(路由器)決定要使用哪些專家(Experts),然後只啓用這些專家的參數來進行推論,這樣就能夠減少計算量
提示工程#
提示工程(Prompt Engineering)
鏈式思考提示(Chain-of-Thought Prompting, CoT)