知数AI
AI博客
AI学园
AI服务
关于
搜索
⌘K
获取资料
AI知识中心
/
学习路线
/
多模态 LLM
/ LLaVA 架构详解:如何让 LLM「看见」世界
📚
多模态 LLM
·
第 2/3 篇
67% 完成
📖 教程
进阶
⏱️ 12 分钟
LLaVA 架构详解:如何让 LLM「看见」世界
📅 2026/5/14
✍️ 佚名
💬 0 条评论
LLaVA
多模态
视觉指令微调
LLaVA = ViT + 投影层 + LLM
训练:Stage1 特征对齐 + Stage2 视觉指令微调
仅需一个简单线性投影层就能连接视觉和语言模态。
← 上一篇
CLIP 与多模态对齐:图文模型的基石
下一篇 →
Sora 技术报告解读:视频生成的世界模型之路
相关文章
🚀 • Sora 技术报告解读:视频生成的世界模型之路
📖 • CLIP 与多模态对齐:图文模型的基石
探索更多内容
📰 AI新闻
中国大模型:从百模大战到应用落地
Claude 4 发布:Anthropic 的安全路线
Google DeepMind 发布 AlphaFold 3
🚀 技术前沿
MoE 混合专家:DeepSeek-V2 和 Mixtral
长文本建模:从 RAG 到百万 Token
Mamba 架构:状态空间模型的崛起
📚 继续学习:多模态 LLM
这篇是「多模态 LLM」学习路径的第 2 篇,共 3 篇
回到学习路径 →
评论 (0)
请先
登录
后发表评论
暂无评论,来发表第一条评论吧