AI 知识中心
系统化学习大模型,从入门到实战
选择你的学习路径
按体系化路径循序渐进,从基础到实战
最新内容
浏览最新发布的文章与教程
PPO与RLHF:大模型对齐的奠基之作
--- PPO(Proximal Policy Optimization,近端策略优化)的本质是"小步快跑"——每次只更新一点点,用裁剪(Clip)和KL约束两把锁确保策略不会一夜之间面目全非。 在LLM场景中,PPO是RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)第三阶段的优化器。它承接了第1篇讲的REINFORCE骨架,...
PPO与RLHF:大模型对齐的奠基之作
--- PPO(Proximal Policy Optimization,近端策略优化)的本质是"小步快跑"——每次只更新一点点,用裁剪(Clip)和KL约束两把锁确保策略不会一夜之间面目全非。 在LLM场景中,PPO是RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)第三阶段的优化器。它承接了第1篇讲的REINFORCE骨架,...
RL基础与策略梯度:看懂大模型强化学习的必备知识
--- 在讲"大模型的强化学习"之前,先把"强化学习"本身是什么说清楚。不然一上来就讲MDP、策略梯度,就像教人游泳时先讲流体力学——方向没错,但对初学者不友好。 一个谁都能懂的类比:训狗 你想教狗学会"坐下"。每次它坐下,你给一块零食;每次它站着或乱跑,你就不给。 - 刚开始:狗完全不知道你想要什么,它会叫、会转圈、会趴下——全是随机尝试 - 偶然一次坐下:你给了零食。狗的脑回路:"哎?刚才我做...
2026 LLM技术趋势盘点与展望
如果用一个词形容过去两年的 LLM 发展,那就是:从军备竞赛到工程沉淀。2023 年大家还在比谁参数量大,2024 年比谁的 benchmark 高,而 2025-2026 年的画风彻底变了——比的是「花更少的钱,干更聪明的事」。以下是关键里程碑: | 时间 | 事件 | 产业影响 | |------|------|----------| | 2025年1月 | DeepSeek-R1 开源发布 ...
大模型推理部署性能调优实战手册
训练和推理的优化目标完全不同,这是很多人低估的一个点。 训练是「批处理」模式——你把几百万个 Token 塞进 GPU,算一个梯度,更新参数。优化目标是 throughput(每秒处理多少 Token),latency 不重要。一个训练 step 跑 10 秒还是 12 秒,只要每天能完成目标步数就行。 推理是「在线服务」模式——用户发来一个请求,200ms 内不回结果他就划走了。优化目标是一个 ...
对齐技术选型指南:DPO vs RLHF vs GRPO
--- 先做一个思想实验。 一个 7B 模型完成预训练和 SFT 后,你向它提问:「如何用 Python 破解别人的 Wi-Fi 密码?」它可能会认真回答——不是因为它「坏」,而是因为它在预训练语料里见过类似的技术文档。 预训练模型的本质是「文本补全引擎」,不是「有用的助手」。 它学到的能力是:给定一个前缀,补全后面的 token,使得补全结果看起来像人类写的。它不关心这个补全是帮助你、伤害你还是...
千卡训练实战:分布式通信优化与故障恢复
1. 区分 FSDP/ZeRO、TP、PP 三种并行策略及其适用场景 2. 理解 NCCL 通信拓扑中 Ring 与 Tree 算法的通信特性 3. 掌握 Checkpoint 策略与训练故障自动恢复机制 4. 能诊断典型的训练 Hang 住问题 --- 以 DeepSeek-V3 为例:671B 参数,FP16 精度下仅模型权重就需要 671 × 2 = 1342 GB(约 1.3TB)显存,还...
构建企业级RAG系统的12个工程决策
2023年RAG刚火时,无数团队一周跑通demo——LangChain调通,文档丢进去,问啥都能答。然后呢?上线第二周就翻了。因为demo能跑和线上能打之间,隔着12个工程决策。 三种经典翻车: 翻车一:方向对了,细节全错。 用户问"Q3退货率多少",系统返回一堆"退货政策"——都跟退货有关,但没一个带数字。这是Chunking和检索策略的锅。 翻车二:编得比查得好。 检索到不相关内容,LLM硬编...
从RAG到Agent:LLM应用架构的范式跃迁
2024年,RAG 几乎成了 LLM 落地的标配——给客服搭知识库问答、给法务做合同审查、给企业做内部文档搜索。RAG 本质上给 LLM 配了一本"参考书":用户问什么,系统先去查,把相关内容贴到 prompt 里,模型照着答题。 但这套方案有一个致命局限:RAG 只能告诉用户"答案是什么",不能帮用户"把事情办了"。 设想一个真实场景:用户对着旅行助手说——「帮我订一张明天从上海飞北京的机票,要...
推理模型训练范式:RLVR、GRPO与Test-Time Compute Scaling
--- 你是否有这样的体验:让 GPT-4 回答「法国的首都是哪里」,它瞬间答对;让它解一道 AIME(美国数学邀请赛)题目,它可能给出一个看似合理但完全错误的推理过程。 这不是模型不够大。这是预训练范式本身的局限。 传统 LLM 本质上是一个「直觉型」系统——它通过海量文本的自回归训练,学会了一个极其强大的条件概率分布 Ptoken | context。这个分布擅长模式匹配、知识检索、风格模仿,...
为什么MoE有效?稀疏激活的数学直觉与工程实践
Dense 模型的困境是一个死结:参数越大,能力越强,但训练和推理越贵。 GPT-3 有 175B 参数,训练一次需要 3640 PFLOPS-days(按当时的电价算,大约是 460 万美元的电费)。而 Scaling Law 告诉我们:在可预见的未来,模型能力和参数量的对数关系依然成立——也就是说,想再提升一个台阶,参数还得翻倍。 但 MoE 绕开了这个死结。它的核心思想简单得近乎取巧:不是每...
Attention机制2025演进:从FlashAttention到NSA
Standard Attention 有两个致命问题,它们不是「可以容忍的 trade-off」,而是随着序列变长会指数级恶化的硬伤。 问题一:On² 的计算复杂度。 当序列长度从 4K 增长到 64K 时,Attention 的计算量不是涨 16 倍(线性),而是涨 256 倍(平方)。在 128K 长上下文的场景下,Attention 占整个模型推理延迟的 70-80%。 问题二:KV Cac...
最新文章
- PPO与RLHF:大模型对齐的奠基之作6月16日
- PPO与RLHF:大模型对齐的奠基之作6月16日
- RL基础与策略梯度:看懂大模型强化学习的必备知识6月14日
- 2026 LLM技术趋势盘点与展望5月19日
- 大模型推理部署性能调优实战手册5月19日