LLaVA

介绍

方法

LLaVA

一分钟了解一片论文系列，从框架图可以看出网络设计相对简洁，图像经过 Vision-encoder（比如 CLIP）之后，经过一个 MLP 将特征转换为文本空间，然后与文本 prompt 拼接后输入 LLM 模型用于文本训练。文章中提到对于视觉特征到文本特征的转换方式可以使用 Blip 中的 Q-former 进一步提升效果。

应用

思考

参考文献

Project Page: https://llava-vl.github.io/