AI知识中心 / 技术前沿 / 大模型预训练 / 长文本建模：从 RAG 到百万 Token

🚀 技术前沿高级⏱️ 16 分钟

长文本建模：从 RAG 到百万 Token

📅 2026/5/14✍️ 佚名💬 0 条评论

长文本 RoPE 稀疏注意力

技术路线：RoPE 外推 · ALiBi · 稀疏注意力

实战：<8K全注意力 | 8K-128K RoPE+Flash | >128K RAG混合

相关文章

🚀 • MoE 混合专家：DeepSeek-V2 和 Mixtral 🚀 • Mamba 架构：状态空间模型的崛起 📖 • 大模型预训练全景解读

探索更多内容

📖 系统教程

2026 LLM技术趋势盘点与展望大模型推理部署性能调优实战手册对齐技术选型指南：DPO vs RLHF vs GRPO

📰 AI新闻

中国大模型：从百模大战到应用落地 Claude 4 发布：Anthropic 的安全路线 Google DeepMind 发布 AlphaFold 3

🚀 技术前沿

MoE 混合专家：DeepSeek-V2 和 Mixtral Mamba 架构：状态空间模型的崛起 Sora 技术报告解读：视频生成的世界模型之路

评论 (0)

请先登录后发表评论

暂无评论，来发表第一条评论吧