大语言模型
305 字约 1 分钟
2026-05-20
大语言模型(LLM,Large Language Model)是当前 AI 最热的话题,也是改变最快的领域。
GPT-4、Claude、Gemini……这些模型背后都建立在同一个核心架构上:Transformer。理解了 Transformer,就掌握了现代 AI 的核心密码。
本节内容结构
1. Transformer 架构 — 自注意力、多头注意力、位置编码,逐块拆解
2. 预训练与微调 — 大模型是怎么训练出来的,RLHF,LoRA
入口:预训练与微调
3. 提示工程 — 如何写出好的 Prompt,CoT,Few-shot,系统提示
入口:提示工程
时间线:大模型的演进
| 年份 | 模型 | 里程碑意义 |
|---|---|---|
| 2017 | Transformer | 架构基础 |
| 2018 | BERT / GPT-1 | 预训练+微调范式 |
| 2019 | GPT-2 | Scaling 效果初现 |
| 2020 | GPT-3 | 175B,Few-shot 能力惊人 |
| 2022 | ChatGPT | RLHF,对话能力爆发 |
| 2023 | GPT-4 / Claude 2 | 多模态,更强推理 |
| 2024 | Claude 3 / Gemini 1.5 | 长上下文,能力全面提升 |
| 2025 | Claude 4 / GPT-5… | 持续快速迭代 |
这个领域变化实在太快,我尽量记录那些相对稳定的基础原理,而不只是追热点。