Sparse4D

2022-11-19・detection

Framework

Sparse4D 可以理解为 Decoder Only 的检测框架,从 query 出发来检测目标,相比 DETR3D 来说主要是对 reference points 相关的优化。

Decoder

特征部分来自图像经过 …


BEVFormer

2022-03-21・detection

Framework

BEVFormer

BEVFormer_head

BEVTransformer

BEVTransformer

Encoder

  • Input

    • bev_query: bevh * bevw x embed_dim
    • bev_pos: 通过SinePositionalEncoding对bev_mask(bsbevhbevw) 生成位置编码
    • key, value: multi_level_camera_feature (bs x num_cam x c x h x w)
    • ref_3d: 将Lidar3D空间栅格化,对每个栅格中心点根据外 …

PETR

2022-03-10・detection

本文介绍了基于 Transformer 的 3D 目标检测方法,文章核心的贡献是实现了3D 位置编码用于多相机的特征融合,然后基于 Transformer Decoder 结构进行后续学习。


Detr3D

2021-10-13・detection

系统框架

Detr3D framework

网络结构

Transformer 网络的输入为以下 3 部分:

  • query: query_embed
  • key: None
  • value: mlvl_feats

经历以下 6 层,除了 cross_attn 其他均为默认操作。

['self_attn', 'norm', 'cross_attn', 'norm', 'ffn', 'norm']

注 …


Lift, Splat, Shoot

2020-08-05・detection

背景

本文是较早的一篇基于环视2D图像进行3D或者BEV空间感知的工作。文章的核心思想是通过 Lift 从2D图像提取得到视锥(frustum)特征,然后将特征散布(Splat)到BEV的栅格中。 经过端到端的学习,网 …



Faster R-CNN

2015-06-01・detection

背景

2015年 Faster-RCNN 首次使用深度学习网络将视觉目标检测任务端到端 Learning 化,核心工作是其中的 RPN 设计替代了传统的 Selective Search 来生成 …


Yolos

2015-06-01・detection

Versions

2015.06_Yolov1

Single Stage, anchor-free object dection.

每个位置的feature map通过MLP只预测B=2个框的回归量,没有利用1x1全卷积的 属性,也没有引入anchor的多尺度/多比例概念. 同时对于回归量的学习使用 …