大语言模型

305 字约 1 分钟

2026-05-20

大语言模型（LLM，Large Language Model）是当前 AI 最热的话题，也是改变最快的领域。

GPT-4、Claude、Gemini……这些模型背后都建立在同一个核心架构上：Transformer。理解了 Transformer，就掌握了现代 AI 的核心密码。

1. Transformer 架构 — 自注意力、多头注意力、位置编码，逐块拆解

2. 预训练与微调 — 大模型是怎么训练出来的，RLHF，LoRA

3. 提示工程 — 如何写出好的 Prompt，CoT，Few-shot，系统提示

这个领域变化实在太快，我尽量记录那些相对稳定的基础原理，而不只是追热点。