知数AI
AI博客
AI学园
AI服务
关于
搜索
⌘K
获取资料
AI知识中心
/
技术前沿
/
大模型预训练
/ 长文本建模:从 RAG 到百万 Token
🚀 技术前沿
高级
⏱️ 16 分钟
长文本建模:从 RAG 到百万 Token
📅 2026/5/14
✍️ 佚名
💬 0 条评论
长文本
RoPE
稀疏注意力
技术路线:RoPE 外推 · ALiBi · 稀疏注意力
实战:<8K全注意力 | 8K-128K RoPE+Flash | >128K RAG混合
相关文章
🚀 • MoE 混合专家:DeepSeek-V2 和 Mixtral
🚀 • Mamba 架构:状态空间模型的崛起
📖 • 大模型预训练全景解读
探索更多内容
📖 系统教程
2026 LLM技术趋势盘点与展望
大模型推理部署性能调优实战手册
对齐技术选型指南:DPO vs RLHF vs GRPO
📰 AI新闻
中国大模型:从百模大战到应用落地
Claude 4 发布:Anthropic 的安全路线
Google DeepMind 发布 AlphaFold 3
🚀 技术前沿
MoE 混合专家:DeepSeek-V2 和 Mixtral
Mamba 架构:状态空间模型的崛起
Sora 技术报告解读:视频生成的世界模型之路
评论 (0)
请先
登录
后发表评论
暂无评论,来发表第一条评论吧