大模型原理与 Transformer 架构

作为 AI 产品经理，你不需要手写神经网络代码，但必须理解大模型「为什么能做到这些事」——这决定了你能否准确评估需求的可行性、设定合理的成功指标，以及在技术方案评审中说出真正有价值的话。

1. 什么是大语言模型（LLM）

大语言模型（Large Language Model，LLM） 是一类在海量文本数据上训练的神经网络模型，其核心能力是预测下一个 Token。

Token 是模型处理文本的最小单位，通常是一个词、一个子词或一个标点符号。例如，"人工智能" 可能被拆分为 ["人工", "智", "能"] 三个 Token。

输入：「今天天气」
模型预测：「很好」的概率 42%，「不错」的概率 31%，「阴天」的概率 18%...
输出：「很好」（采样最高概率）

这个看似简单的「续写」能力，在规模足够大时，涌现出了翻译、推理、编程、创作等几乎所有语言任务的能力。

规模的魔法

模型规模	代表模型	新增能力
1亿参数	BERT-base	文本分类、实体识别
10亿参数	GPT-2	流畅文本生成
100亿参数	GPT-3	少样本学习、代码生成
1000亿参数+	GPT-4、Claude 3	复杂推理、多步规划

2. Transformer 架构解析

2017 年，Google 论文《Attention Is All You Need》提出了 Transformer 架构，彻底取代了此前的 RNN/LSTM，成为几乎所有现代大模型的基础。

2.1 整体结构

输入文本
    ↓
[Token Embedding + Positional Encoding]  ← 把文字变成数字向量
    ↓
[Multi-Head Self-Attention]  ← 理解词与词之间的关系
    ↓
[Feed-Forward Network]  ← 对每个位置做非线性变换
    ↓
（重复 N 层）
    ↓
输出预测

GPT-4 的 Transformer 层数估计超过 100 层，每层都在提炼更高阶的语义理解。

2.2 自注意力机制（Self-Attention）

这是 Transformer 最核心的创新。它让模型在处理每个词时，能「看到」句子中所有其他词并判断相关性。

举例：处理句子「苹果公司发布了新手机，它的价格很高」

处理「它」时，模型需要知道「它」指的是「苹果公司」还是「新手机」
自注意力会计算「它」与句子中每个词的相关性分数
结果：「它」→「新手机」的注意力权重最高，因此正确理解「它的价格」是「手机的价格」

注意力分数计算（简化版）：
Q（当前词）× K（其他词）→ 相关性得分
相关性得分经过 Softmax → 权重分布
权重 × V（值向量）→ 加权输出

Multi-Head（多头）的含义：并行运行多组注意力机制，让模型同时关注不同类型的关系（语法关系、语义关系、指代关系等）。

2.3 位置编码（Positional Encoding）

Transformer 本身对顺序无感知（与 RNN 不同），需要通过位置编码注入位置信息。

传统方式（GPT-3）：固定的正弦波函数编码
现代方式（LLaMA、Claude）：RoPE（旋转位置编码），支持更长的上下文窗口

产品影响：位置编码方式直接影响模型能处理的最大上下文长度（Context Window）。Claude 3.5 支持 200K tokens，约等于一本长篇小说。

2.4 前馈网络（Feed-Forward Network）

每个注意力层之后都有一个前馈网络，负责对每个位置的表示做非线性变换，增强模型的表达能力。研究表明，前馈网络是模型「存储事实知识」的主要地方。

3. 预训练 vs 微调

3.1 预训练（Pre-training）

在互联网规模的文本数据上，用「预测下一个 Token」的目标训练模型。

数据来源：Common Crawl（网页）、Wikipedia、书籍、代码、学术论文等
计算成本：GPT-4 预训练估计耗资超过 1 亿美元
产出物：Base Model（基础模型），能续写文本，但不会「听从指令」

3.2 指令微调（Instruction Fine-tuning）

在「指令-响应」对数据上继续训练，让模型学会遵从人类指令。

微调数据格式示例：
{
  "instruction": "将以下文本翻译成英文",
  "input": "今天天气很好",
  "output": "The weather is very nice today."
}

3.3 RLHF（人类反馈强化学习）

ChatGPT、Claude 的核心训练技术：让人类对模型输出进行排序，训练一个「奖励模型」，再用强化学习优化主模型，使输出更符合人类偏好。

流程：
1. 模型生成多个回答
2. 人工标注者排序：A > C > B
3. 奖励模型学习人类偏好
4. PPO 算法优化主模型最大化奖励

产品经理视角：RLHF 数据的质量和标注指南，直接决定了模型的「价值观」和「个性」。这是为什么 Claude 更拒绝有害内容，而某些开源模型更「放飞自我」。

4. 涌现能力（Emergent Abilities）

涌现能力指在小模型上几乎不存在、但随规模增大突然出现的能力。

能力	涌现临界规模	说明
少样本学习（Few-shot）	~100B 参数	给几个例子就能举一反三
思维链推理（CoT）	~100B 参数	能展示推理步骤
指令跟随	~100B 参数	理解并执行复杂指令
代码调试	~100B 参数	定位并修复代码 Bug

产品经理警示：不要用小模型（<7B）的表现来否定一个功能的可行性，大模型可能「突然会了」。同样，也不要假设所有能力在所有规模下都存在。

5. 规模定律（Scaling Laws）

OpenAI 在 2020 年发现，模型性能（损失）与三个变量呈幂律关系：

参数量（N）：模型有多少权重
数据量（D）：训练用了多少 Token
计算量（C）：总 FLOPs（C ≈ 6ND）

Chinchilla 定律（DeepMind，2022）：给定计算预算，最优分配是参数量和数据量大致相等。训练 70B 参数模型需要约 1.4T tokens 数据。

实际含义：
- LLaMA-2 70B 在 2T tokens 上训练 → 性能接近 GPT-3.5
- 更小的模型 + 更多数据，可能优于更大的模型 + 更少数据

6. 产品经理的核心认知框架

6.1 能力边界思维

大模型擅长	大模型不擅长
文本生成、改写、摘要	精确数值计算
模式识别、分类	实时信息获取
代码生成与解释	确定性输出（每次结果可能不同）
多语言翻译	需要私有数据的推理
创意写作、头脑风暴	长期记忆（超出上下文窗口）

6.2 三层理解层次

第三层（产品层）：这个功能对用户有什么价值？
        ↑
第二层（能力层）：模型能否做到？精度如何？成本如何？
        ↑
第一层（机制层）：为什么能做到/做不到？（本文内容）

只有理解第一层，才能在第二层做出准确判断，进而在第三层做出正确的产品决策。

7. 关键术语速查

术语	中文解释
Token	模型处理文本的最小单位
Context Window	模型单次能处理的最大 Token 数
Temperature	采样温度，控制输出的随机性（0=确定，1=多样）
Hallucination	幻觉，模型生成看似合理但实际错误的内容
Embedding	将文本转为数值向量的表示
Fine-tuning	在特定数据上对预训练模型进行进一步训练
RAG	检索增强生成，结合外部知识库增强模型回答
Inference	推理，模型生成输出的过程（区别于训练）

8. 本节要点

LLM 的本质是概率性的 Token 预测，理解这一点能解释它的幻觉、随机性等行为。
Transformer 的自注意力机制让模型能捕捉长距离依赖，是其强大的根本原因。
预训练 → 指令微调 → RLHF 是现代 LLM 产品化的标准路径。
涌现能力的存在意味着规模临界点前后，模型能力会发生质变，需要用动态视角看待可行性。
产品经理无需实现，但需要理解：能力边界、上下文限制、输出的概率性是设计 AI 产品的基础约束。