高级10 篇文章·约 2 小时 1 分钟

LLM进阶：从会用到底层精通

专为AI从业者设计的高阶LLM技术教程，从Transformer数学本质到2026前沿趋势，构建完整的底层精通能力

学习进度0 / 10 已完成

一步一个脚印，坚持学完你就是下一个大模型专家

课程章节

2025-2026 年，LLM 架构的创新速度让人眼花缭乱——DeepSeek 的 NSA（Native Sparse Attention）、月之暗面的 MoBA、DeepSeek V4 的 mHC（流形约束超连接）……但这些前沿创新都有一个共同点：它们都是对 Transformer 基础模块的改造。如果你不理解 Self-Attention 的数学本质，你看到的 NSA 就是一堆不知所云的「压...

进阶19 分钟阅读

Attention机制2025演进：从FlashAttention到NSA免费

Standard Attention 有两个致命问题，它们不是「可以容忍的 trade-off」，而是随着序列变长会指数级恶化的硬伤。问题一：On² 的计算复杂度。当序列长度从 4K 增长到 64K 时，Attention 的计算量不是涨 16 倍（线性），而是涨 256 倍（平方）。在 128K 长上下文的场景下，Attention 占整个模型推理延迟的 70-80%。问题二：KV Cac...

高级14 分钟阅读

为什么MoE有效？稀疏激活的数学直觉与工程实践免费

Dense 模型的困境是一个死结：参数越大，能力越强，但训练和推理越贵。 GPT-3 有 175B 参数，训练一次需要 3640 PFLOPS-days（按当时的电价算，大约是 460 万美元的电费）。而 Scaling Law 告诉我们：在可预见的未来，模型能力和参数量的对数关系依然成立——也就是说，想再提升一个台阶，参数还得翻倍。但 MoE 绕开了这个死结。它的核心思想简单得近乎取巧：不是每...

进阶12 分钟阅读

推理模型训练范式：RLVR、GRPO与Test-Time Compute Scaling免费

--- 你是否有这样的体验：让 GPT-4 回答「法国的首都是哪里」，它瞬间答对；让它解一道 AIME（美国数学邀请赛）题目，它可能给出一个看似合理但完全错误的推理过程。这不是模型不够大。这是预训练范式本身的局限。传统 LLM 本质上是一个「直觉型」系统——它通过海量文本的自回归训练，学会了一个极其强大的条件概率分布 Ptoken | context。这个分布擅长模式匹配、知识检索、风格模仿，...

高级15 分钟阅读

从RAG到Agent：LLM应用架构的范式跃迁免费

2024年，RAG 几乎成了 LLM 落地的标配——给客服搭知识库问答、给法务做合同审查、给企业做内部文档搜索。RAG 本质上给 LLM 配了一本"参考书"：用户问什么，系统先去查，把相关内容贴到 prompt 里，模型照着答题。但这套方案有一个致命局限：RAG 只能告诉用户"答案是什么"，不能帮用户"把事情办了"。设想一个真实场景：用户对着旅行助手说——「帮我订一张明天从上海飞北京的机票，要...

进阶15 分钟阅读

构建企业级RAG系统的12个工程决策免费

2023年RAG刚火时，无数团队一周跑通demo——LangChain调通，文档丢进去，问啥都能答。然后呢？上线第二周就翻了。因为demo能跑和线上能打之间，隔着12个工程决策。三种经典翻车：翻车一：方向对了，细节全错。用户问"Q3退货率多少"，系统返回一堆"退货政策"——都跟退货有关，但没一个带数字。这是Chunking和检索策略的锅。翻车二：编得比查得好。检索到不相关内容，LLM硬编...

进阶6 分钟阅读

千卡训练实战：分布式通信优化与故障恢复免费

1. 区分 FSDP/ZeRO、TP、PP 三种并行策略及其适用场景 2. 理解 NCCL 通信拓扑中 Ring 与 Tree 算法的通信特性 3. 掌握 Checkpoint 策略与训练故障自动恢复机制 4. 能诊断典型的训练 Hang 住问题 --- 以 DeepSeek-V3 为例：671B 参数，FP16 精度下仅模型权重就需要 671 × 2 = 1342 GB（约 1.3TB）显存，还...

高级6 分钟阅读

对齐技术选型指南：DPO vs RLHF vs GRPO免费

--- 先做一个思想实验。一个 7B 模型完成预训练和 SFT 后，你向它提问：「如何用 Python 破解别人的 Wi-Fi 密码？」它可能会认真回答——不是因为它「坏」，而是因为它在预训练语料里见过类似的技术文档。预训练模型的本质是「文本补全引擎」，不是「有用的助手」。它学到的能力是：给定一个前缀，补全后面的 token，使得补全结果看起来像人类写的。它不关心这个补全是帮助你、伤害你还是...

进阶15 分钟阅读

大模型推理部署性能调优实战手册免费

训练和推理的优化目标完全不同，这是很多人低估的一个点。训练是「批处理」模式——你把几百万个 Token 塞进 GPU，算一个梯度，更新参数。优化目标是 throughput（每秒处理多少 Token），latency 不重要。一个训练 step 跑 10 秒还是 12 秒，只要每天能完成目标步数就行。推理是「在线服务」模式——用户发来一个请求，200ms 内不回结果他就划走了。优化目标是一个 ...

高级11 分钟阅读

2026 LLM技术趋势盘点与展望免费

如果用一个词形容过去两年的 LLM 发展，那就是：从军备竞赛到工程沉淀。2023 年大家还在比谁参数量大，2024 年比谁的 benchmark 高，而 2025-2026 年的画风彻底变了——比的是「花更少的钱，干更聪明的事」。以下是关键里程碑： | 时间 | 事件 | 产业影响 | |------|------|----------| | 2025年1月 | DeepSeek-R1 开源发布 ...

进阶8 分钟阅读

继续探索其他学习路线

工程师AI转型实战

进阶

为有编程经验的工程师设计的LLM实战学习路径。从会用API到能训练模型，10篇文章覆盖Transformer、训练全流程、RAG、LoRA微调、Agent开发、模型部署和评测。

大模型零基础入门

入门

专为零基础用户设计——不懂编程、不懂数学也能学会用AI。8篇文章带你从了解大模型是什么到能用AI搞定日常工作。

如何把 AI 用得更好

入门

一本写给所有人的「AI 使用心法」，从搞懂 AI 怎么想开始，到能搭建自动化工作流，最终成为能理性驾驭 AI 的高手。不需要编程基础，只需会打字。

人工智能零基础入门 — 从完全不懂到能跟 AI 做朋友

入门

面向完全零基础、没有任何技术背景的普通人，用最通俗的语言讲清楚人工智能到底是什么，核心聚焦于大模型技术。读完整个专题后，你能自信地说「我懂 AI 了」。