PETR

2022-03-10・detection

本文介绍了基于 Transformer 的 3D 目标检测方法,文章核心的贡献是实现了3D 位置编码用于多相机的特征融合,然后基于 Transformer Decoder 结构进行后续学习。


Masked autoencoders are scalable vision learners

2021-12-19・machine learning

核心问题

基于掩码的自编码器在自然语言和视觉两个任务上有什么本质区别?

1) 网络结构不同。之前主流的视觉任务主 …


Detr3D

2021-10-13・detection

系统框架

Detr3D framework

网络结构

Transformer 网络的输入为以下 3 部分:

  • query: query_embed
  • key: None
  • value: mlvl_feats

经历以下 6 层,除了 cross_attn 其他均为默认操作。

['self_attn', 'norm', 'cross_attn', 'norm', 'ffn', 'norm']

注 …


Clip

2021-01-05・vlm

介绍

基于深度学习的视觉任务通常依赖大量的人工标注监督数据,而且标签类别只能在限定类别,对于其他类别的目标 …


Lift, Splat, Shoot

2020-08-05・detection

背景

本文是较早的一篇基于环视2D图像进行3D或者BEV空间感知的工作。文章的核心思想是通过 Lift 从2D图像提取得到视锥(frustum)特征,然后将特征散布(Splat)到BEV的栅格中。 经过端到端的学习,网 …


Weighted box fusion

2019-10-01・machine learning

Motivation

NMS(Non-maximum suppress)非极大值抑制算法主要在单模型检测中用于 筛选可信检测目标的方法。因为同一位置的检测结果具有互斥性 …



Autonomous driving system

2018-07-01・autonomous driving

Attention is all you need

2017-06-03・machine learning

背景

在2015年这样的年份,深度学习在自然语言、图像处理分别发展着。在自然语言领域RNN (LSTM,GRU)是最主流的模型结构,用于进行长时序建模 …


Batch Normalization

2016-12-18・paper

Abstract

在训练网络时,前一层的参数变化会使得后一层输入的分布发生变化,导致训练过程复杂化。 这就要求设置更低的学习 …