AI知识中心 / 学习路线 / LLM 部署与推理 / GPTQ 与 AWQ：大模型量化技术详解

📚LLM 部署与推理·第 1/3 篇

33% 完成

📖 教程高级⏱️ 16 分钟

GPTQ 与 AWQ：大模型量化技术详解

📅 2026/5/14✍️ 佚名💬 0 条评论

量化 GPTQ AWQ 部署

为什么需要量化？FP16 14GB → INT4 4GB

GPTQ · AWQ · GGUF

4-bit 下性能损失 < 1%，部署必学技能。

vLLM 深度指南：高性能 LLM 推理服务

相关文章

🚀 • LLM 推理性能优化：从 10tok/s 到 100tok/s 🚀 • vLLM 深度指南：高性能 LLM 推理服务

探索更多内容

📰 AI新闻

中国大模型：从百模大战到应用落地 Claude 4 发布：Anthropic 的安全路线 Google DeepMind 发布 AlphaFold 3

🚀 技术前沿

MoE 混合专家：DeepSeek-V2 和 Mixtral 长文本建模：从 RAG 到百万 Token Mamba 架构：状态空间模型的崛起

📚 继续学习：LLM 部署与推理

这篇是「LLM 部署与推理」学习路径的第 1 篇，共 3 篇

回到学习路径 →

评论 (0)

请先登录后发表评论

暂无评论，来发表第一条评论吧