AI知识中心 / 学习路线 / 多模态 LLM / CLIP 与多模态对齐:图文模型的基石
📚多模态 LLM·1/3
33% 完成
📖 教程进阶⏱️ 14 分钟

CLIP 与多模态对齐:图文模型的基石

📅 2026/5/14✍️ 佚名💬 0 条评论

CLIP 架构


python
image_features = image_encoder(images)
text_features = text_encoder(texts)
logits = image_features @ text_features.T
loss = cross_entropy(logits, labels)

image_features = image_encoder(images)

text_features = text_encoder(texts)

logits = image_features @ text_features.T

loss = cross_entropy(logits, labels)


零样本能力 · 多模态基础


CLIP 证明了简单对比学习在图文对齐上的惊人效果。

评论 (0)

请先登录后发表评论

暂无评论,来发表第一条评论吧