LLaVA

2023-04-17・vlm

介绍

方法

LLaVA

一分钟了解一片论文系列，从框架图可以看出网络设计相对简洁，图像经过 Vision-encoder（比如 CLIP）之后，经过一个 MLP 将特征转 …

Clip

2021-01-05・vlm

介绍

基于深度学习的视觉任务通常依赖大量的人工标注监督数据，而且标签类别只能在限定类别，对于其他类别的目标 …