智算弱电学习系统
课程概览AI 基础认知大模型原理与 Transformer 架构

大模型原理与 Transformer 架构

作为 AI 产品经理,你不需要手写神经网络代码,但必须理解大模型「为什么能做到这些事」——这决定了你能否准确评估需求的可行性、设定合理的成功指标,以及在技术方案评审中说出真正有价值的话。


1. 什么是大语言模型(LLM)

大语言模型(Large Language Model,LLM) 是一类在海量文本数据上训练的神经网络模型,其核心能力是预测下一个 Token

Token 是模型处理文本的最小单位,通常是一个词、一个子词或一个标点符号。例如,"人工智能" 可能被拆分为 ["人工", "智", "能"] 三个 Token。

输入:「今天天气」
模型预测:「很好」的概率 42%,「不错」的概率 31%,「阴天」的概率 18%...
输出:「很好」(采样最高概率)

这个看似简单的「续写」能力,在规模足够大时,涌现出了翻译、推理、编程、创作等几乎所有语言任务的能力。

规模的魔法

模型规模代表模型新增能力
1亿参数BERT-base文本分类、实体识别
10亿参数GPT-2流畅文本生成
100亿参数GPT-3少样本学习、代码生成
1000亿参数+GPT-4、Claude 3复杂推理、多步规划

2. Transformer 架构解析

2017 年,Google 论文《Attention Is All You Need》提出了 Transformer 架构,彻底取代了此前的 RNN/LSTM,成为几乎所有现代大模型的基础。

2.1 整体结构

输入文本
    ↓
[Token Embedding + Positional Encoding]  ← 把文字变成数字向量
    ↓
[Multi-Head Self-Attention]  ← 理解词与词之间的关系
    ↓
[Feed-Forward Network]  ← 对每个位置做非线性变换
    ↓
(重复 N 层)
    ↓
输出预测

GPT-4 的 Transformer 层数估计超过 100 层,每层都在提炼更高阶的语义理解。

2.2 自注意力机制(Self-Attention)

这是 Transformer 最核心的创新。它让模型在处理每个词时,能「看到」句子中所有其他词并判断相关性。

举例:处理句子「苹果公司发布了新手机,它的价格很高」

  • 处理「它」时,模型需要知道「它」指的是「苹果公司」还是「新手机」
  • 自注意力会计算「它」与句子中每个词的相关性分数
  • 结果:「它」→「新手机」的注意力权重最高,因此正确理解「它的价格」是「手机的价格」
注意力分数计算(简化版):
Q(当前词)× K(其他词)→ 相关性得分
相关性得分经过 Softmax → 权重分布
权重 × V(值向量)→ 加权输出

Multi-Head(多头)的含义:并行运行多组注意力机制,让模型同时关注不同类型的关系(语法关系、语义关系、指代关系等)。

2.3 位置编码(Positional Encoding)

Transformer 本身对顺序无感知(与 RNN 不同),需要通过位置编码注入位置信息。

  • 传统方式(GPT-3):固定的正弦波函数编码
  • 现代方式(LLaMA、Claude):RoPE(旋转位置编码),支持更长的上下文窗口

产品影响:位置编码方式直接影响模型能处理的最大上下文长度(Context Window)。Claude 3.5 支持 200K tokens,约等于一本长篇小说。

2.4 前馈网络(Feed-Forward Network)

每个注意力层之后都有一个前馈网络,负责对每个位置的表示做非线性变换,增强模型的表达能力。研究表明,前馈网络是模型「存储事实知识」的主要地方。


3. 预训练 vs 微调

3.1 预训练(Pre-training)

在互联网规模的文本数据上,用「预测下一个 Token」的目标训练模型。

  • 数据来源:Common Crawl(网页)、Wikipedia、书籍、代码、学术论文等
  • 计算成本:GPT-4 预训练估计耗资超过 1 亿美元
  • 产出物:Base Model(基础模型),能续写文本,但不会「听从指令」

3.2 指令微调(Instruction Fine-tuning)

在「指令-响应」对数据上继续训练,让模型学会遵从人类指令。

微调数据格式示例:
{
  "instruction": "将以下文本翻译成英文",
  "input": "今天天气很好",
  "output": "The weather is very nice today."
}

3.3 RLHF(人类反馈强化学习)

ChatGPT、Claude 的核心训练技术:让人类对模型输出进行排序,训练一个「奖励模型」,再用强化学习优化主模型,使输出更符合人类偏好。

流程:
1. 模型生成多个回答
2. 人工标注者排序:A > C > B
3. 奖励模型学习人类偏好
4. PPO 算法优化主模型最大化奖励

产品经理视角:RLHF 数据的质量和标注指南,直接决定了模型的「价值观」和「个性」。这是为什么 Claude 更拒绝有害内容,而某些开源模型更「放飞自我」。


4. 涌现能力(Emergent Abilities)

涌现能力指在小模型上几乎不存在、但随规模增大突然出现的能力。

能力涌现临界规模说明
少样本学习(Few-shot)~100B 参数给几个例子就能举一反三
思维链推理(CoT)~100B 参数能展示推理步骤
指令跟随~100B 参数理解并执行复杂指令
代码调试~100B 参数定位并修复代码 Bug

产品经理警示:不要用小模型(<7B)的表现来否定一个功能的可行性,大模型可能「突然会了」。同样,也不要假设所有能力在所有规模下都存在。


5. 规模定律(Scaling Laws)

OpenAI 在 2020 年发现,模型性能(损失)与三个变量呈幂律关系:

  • 参数量(N):模型有多少权重
  • 数据量(D):训练用了多少 Token
  • 计算量(C):总 FLOPs(C ≈ 6ND)

Chinchilla 定律(DeepMind,2022):给定计算预算,最优分配是参数量和数据量大致相等。训练 70B 参数模型需要约 1.4T tokens 数据。

实际含义:
- LLaMA-2 70B 在 2T tokens 上训练 → 性能接近 GPT-3.5
- 更小的模型 + 更多数据,可能优于更大的模型 + 更少数据

6. 产品经理的核心认知框架

6.1 能力边界思维

大模型擅长大模型不擅长
文本生成、改写、摘要精确数值计算
模式识别、分类实时信息获取
代码生成与解释确定性输出(每次结果可能不同)
多语言翻译需要私有数据的推理
创意写作、头脑风暴长期记忆(超出上下文窗口)

6.2 三层理解层次

第三层(产品层):这个功能对用户有什么价值?
        ↑
第二层(能力层):模型能否做到?精度如何?成本如何?
        ↑
第一层(机制层):为什么能做到/做不到?(本文内容)

只有理解第一层,才能在第二层做出准确判断,进而在第三层做出正确的产品决策。


7. 关键术语速查

术语中文解释
Token模型处理文本的最小单位
Context Window模型单次能处理的最大 Token 数
Temperature采样温度,控制输出的随机性(0=确定,1=多样)
Hallucination幻觉,模型生成看似合理但实际错误的内容
Embedding将文本转为数值向量的表示
Fine-tuning在特定数据上对预训练模型进行进一步训练
RAG检索增强生成,结合外部知识库增强模型回答
Inference推理,模型生成输出的过程(区别于训练)

8. 本节要点

  1. LLM 的本质是概率性的 Token 预测,理解这一点能解释它的幻觉、随机性等行为。
  2. Transformer 的自注意力机制让模型能捕捉长距离依赖,是其强大的根本原因。
  3. 预训练 → 指令微调 → RLHF 是现代 LLM 产品化的标准路径。
  4. 涌现能力的存在意味着规模临界点前后,模型能力会发生质变,需要用动态视角看待可行性。
  5. 产品经理无需实现,但需要理解:能力边界、上下文限制、输出的概率性是设计 AI 产品的基础约束。