Framework

Sparse4D 可以理解为 Decoder Only 的检测框架,从 query 出发来检测目标,相比 DETR3D 来说主要是对 reference points 相关的优化。

Decoder

特征部分来自图像经过 backbone 之后提取的特征,后续网络则是围绕如何构建基于 query 的 instance feature。

关键点部分:既包含基于 Anchor box 的固定位置关键点,又增加了可学习的关键点。可学习的关键点关注障碍物表面的信息,毕竟固定位置关键点一般是 3D 框对应目标的虚拟点。

时序采样:特征采样时使用了时序关键点,历史帧关键点通过自车和它车速度估计进行位置补偿,能比较好的保持目标特征采样的一致性。

层级特征融合:

  • Fuse Multi-Scale/View: 一个关键点在不同视角上的投影通过加权平均的方式得到,权重是通过 instance feature 和 anchor embeding 输入网络学习的方式得到。这部分是否再精细化处理,比如判断最佳观测,是否遮挡等
  • Fuse Multi-Timestamp: 时序上通过 recurrent 策略,即 concat + linear 的方式融合
  • Fuse Multi-Keypoint: 最后将 keypoints 特征求和得到一个 instance 的特征

参考链接

  1. https://arxiv.org/abs/2211.10581
  2. https://github.com/HorizonRobotics/Sparse4D
  3. https://zhuanlan.zhihu.com/p/637096473