LLaVA

2023-04-17・vlm

介绍

方法

LLaVA

一分钟了解一片论文系列,从框架图可以看出网络设计相对简洁,图像经过 Vision-encoder(比如 CLIP)之后,经过一个 MLP 将特征转 …


Clip

2021-01-05・vlm

介绍

基于深度学习的视觉任务通常依赖大量的人工标注监督数据,而且标签类别只能在限定类别,对于其他类别的目标 …