LLaVA 2023-04-17・vlm 介绍 方法 一分钟了解一片论文系列,从框架图可以看出网络设计相对简洁,图像经过 Vision-encoder(比如 CLIP)之后,经过一个 MLP 将特征转 …