大模型原理与 Transformer 架构
作为 AI 产品经理,你不需要手写神经网络代码,但必须理解大模型「为什么能做到这些事」——这决定了你能否准确评估需求的可行性、设定合理的成功指标,以及在技术方案评审中说出真正有价值的话。
1. 什么是大语言模型(LLM)
大语言模型(Large Language Model,LLM) 是一类在海量文本数据上训练的神经网络模型,其核心能力是预测下一个 Token。
Token 是模型处理文本的最小单位,通常是一个词、一个子词或一个标点符号。例如,"人工智能" 可能被拆分为 ["人工", "智", "能"] 三个 Token。
输入:「今天天气」
模型预测:「很好」的概率 42%,「不错」的概率 31%,「阴天」的概率 18%...
输出:「很好」(采样最高概率)
这个看似简单的「续写」能力,在规模足够大时,涌现出了翻译、推理、编程、创作等几乎所有语言任务的能力。
规模的魔法
| 模型规模 | 代表模型 | 新增能力 |
|---|---|---|
| 1亿参数 | BERT-base | 文本分类、实体识别 |
| 10亿参数 | GPT-2 | 流畅文本生成 |
| 100亿参数 | GPT-3 | 少样本学习、代码生成 |
| 1000亿参数+ | GPT-4、Claude 3 | 复杂推理、多步规划 |
2. Transformer 架构解析
2017 年,Google 论文《Attention Is All You Need》提出了 Transformer 架构,彻底取代了此前的 RNN/LSTM,成为几乎所有现代大模型的基础。
2.1 整体结构
输入文本
↓
[Token Embedding + Positional Encoding] ← 把文字变成数字向量
↓
[Multi-Head Self-Attention] ← 理解词与词之间的关系
↓
[Feed-Forward Network] ← 对每个位置做非线性变换
↓
(重复 N 层)
↓
输出预测
GPT-4 的 Transformer 层数估计超过 100 层,每层都在提炼更高阶的语义理解。
2.2 自注意力机制(Self-Attention)
这是 Transformer 最核心的创新。它让模型在处理每个词时,能「看到」句子中所有其他词并判断相关性。
举例:处理句子「苹果公司发布了新手机,它的价格很高」
- 处理「它」时,模型需要知道「它」指的是「苹果公司」还是「新手机」
- 自注意力会计算「它」与句子中每个词的相关性分数
- 结果:「它」→「新手机」的注意力权重最高,因此正确理解「它的价格」是「手机的价格」
注意力分数计算(简化版):
Q(当前词)× K(其他词)→ 相关性得分
相关性得分经过 Softmax → 权重分布
权重 × V(值向量)→ 加权输出
Multi-Head(多头)的含义:并行运行多组注意力机制,让模型同时关注不同类型的关系(语法关系、语义关系、指代关系等)。
2.3 位置编码(Positional Encoding)
Transformer 本身对顺序无感知(与 RNN 不同),需要通过位置编码注入位置信息。
- 传统方式(GPT-3):固定的正弦波函数编码
- 现代方式(LLaMA、Claude):RoPE(旋转位置编码),支持更长的上下文窗口
产品影响:位置编码方式直接影响模型能处理的最大上下文长度(Context Window)。Claude 3.5 支持 200K tokens,约等于一本长篇小说。
2.4 前馈网络(Feed-Forward Network)
每个注意力层之后都有一个前馈网络,负责对每个位置的表示做非线性变换,增强模型的表达能力。研究表明,前馈网络是模型「存储事实知识」的主要地方。
3. 预训练 vs 微调
3.1 预训练(Pre-training)
在互联网规模的文本数据上,用「预测下一个 Token」的目标训练模型。
- 数据来源:Common Crawl(网页)、Wikipedia、书籍、代码、学术论文等
- 计算成本:GPT-4 预训练估计耗资超过 1 亿美元
- 产出物:Base Model(基础模型),能续写文本,但不会「听从指令」
3.2 指令微调(Instruction Fine-tuning)
在「指令-响应」对数据上继续训练,让模型学会遵从人类指令。
微调数据格式示例:
{
"instruction": "将以下文本翻译成英文",
"input": "今天天气很好",
"output": "The weather is very nice today."
}
3.3 RLHF(人类反馈强化学习)
ChatGPT、Claude 的核心训练技术:让人类对模型输出进行排序,训练一个「奖励模型」,再用强化学习优化主模型,使输出更符合人类偏好。
流程:
1. 模型生成多个回答
2. 人工标注者排序:A > C > B
3. 奖励模型学习人类偏好
4. PPO 算法优化主模型最大化奖励
产品经理视角:RLHF 数据的质量和标注指南,直接决定了模型的「价值观」和「个性」。这是为什么 Claude 更拒绝有害内容,而某些开源模型更「放飞自我」。
4. 涌现能力(Emergent Abilities)
涌现能力指在小模型上几乎不存在、但随规模增大突然出现的能力。
| 能力 | 涌现临界规模 | 说明 |
|---|---|---|
| 少样本学习(Few-shot) | ~100B 参数 | 给几个例子就能举一反三 |
| 思维链推理(CoT) | ~100B 参数 | 能展示推理步骤 |
| 指令跟随 | ~100B 参数 | 理解并执行复杂指令 |
| 代码调试 | ~100B 参数 | 定位并修复代码 Bug |
产品经理警示:不要用小模型(<7B)的表现来否定一个功能的可行性,大模型可能「突然会了」。同样,也不要假设所有能力在所有规模下都存在。
5. 规模定律(Scaling Laws)
OpenAI 在 2020 年发现,模型性能(损失)与三个变量呈幂律关系:
- 参数量(N):模型有多少权重
- 数据量(D):训练用了多少 Token
- 计算量(C):总 FLOPs(C ≈ 6ND)
Chinchilla 定律(DeepMind,2022):给定计算预算,最优分配是参数量和数据量大致相等。训练 70B 参数模型需要约 1.4T tokens 数据。
实际含义:
- LLaMA-2 70B 在 2T tokens 上训练 → 性能接近 GPT-3.5
- 更小的模型 + 更多数据,可能优于更大的模型 + 更少数据
6. 产品经理的核心认知框架
6.1 能力边界思维
| 大模型擅长 | 大模型不擅长 |
|---|---|
| 文本生成、改写、摘要 | 精确数值计算 |
| 模式识别、分类 | 实时信息获取 |
| 代码生成与解释 | 确定性输出(每次结果可能不同) |
| 多语言翻译 | 需要私有数据的推理 |
| 创意写作、头脑风暴 | 长期记忆(超出上下文窗口) |
6.2 三层理解层次
第三层(产品层):这个功能对用户有什么价值?
↑
第二层(能力层):模型能否做到?精度如何?成本如何?
↑
第一层(机制层):为什么能做到/做不到?(本文内容)
只有理解第一层,才能在第二层做出准确判断,进而在第三层做出正确的产品决策。
7. 关键术语速查
| 术语 | 中文解释 |
|---|---|
| Token | 模型处理文本的最小单位 |
| Context Window | 模型单次能处理的最大 Token 数 |
| Temperature | 采样温度,控制输出的随机性(0=确定,1=多样) |
| Hallucination | 幻觉,模型生成看似合理但实际错误的内容 |
| Embedding | 将文本转为数值向量的表示 |
| Fine-tuning | 在特定数据上对预训练模型进行进一步训练 |
| RAG | 检索增强生成,结合外部知识库增强模型回答 |
| Inference | 推理,模型生成输出的过程(区别于训练) |
8. 本节要点
- LLM 的本质是概率性的 Token 预测,理解这一点能解释它的幻觉、随机性等行为。
- Transformer 的自注意力机制让模型能捕捉长距离依赖,是其强大的根本原因。
- 预训练 → 指令微调 → RLHF 是现代 LLM 产品化的标准路径。
- 涌现能力的存在意味着规模临界点前后,模型能力会发生质变,需要用动态视角看待可行性。
- 产品经理无需实现,但需要理解:能力边界、上下文限制、输出的概率性是设计 AI 产品的基础约束。