Sparse4D
Framework
Sparse4D 可以理解为 Decoder Only 的检测框架,从 query 出发来检测目标,相比 DETR3D 来说主要是对 reference points 相关的优化。
Decoder
特征部分来自图像经过 …
Sparse4D 可以理解为 Decoder Only 的检测框架,从 query 出发来检测目标,相比 DETR3D 来说主要是对 reference points 相关的优化。
特征部分来自图像经过 …
Input
本文介绍了基于 Transformer 的 3D 目标检测方法,文章核心的贡献是实现了3D 位置编码用于多相机的特征融合,然后基于 Transformer Decoder 结构进行后续学习。
Transformer 网络的输入为以下 3 部分:
经历以下 6 层,除了 cross_attn 其他均为默认操作。
['self_attn', 'norm', 'cross_attn', 'norm', 'ffn', 'norm']
注 …
本文是较早的一篇基于环视2D图像进行3D或者BEV空间感知的工作。文章的核心思想是通过 Lift 从2D图像提取得到视锥(frustum)特征,然后将特征散布(Splat)到BEV的栅格中。 经过端到端的学习,网 …
Summary: RPN部分输入feature的由来,如何根据feature与GT生成学习目标
输入图像经过主干网络backbone提取得到高层语义特征 …
2015年 Faster-RCNN 首次使用深度学习网络将视觉目标检测任务端到端 Learning 化,核心工作是其中的 RPN 设计替代了传统的 Selective Search 来生成 …
Single Stage, anchor-free object dection.
每个位置的feature map通过MLP只预测B=2个框的回归量,没有利用1x1
全卷积的
属性,也没有引入anchor的多尺度/多比例概念.
同时对于回归量的学习使用 …