大连网站的优化,做网站哪个软件好用,什么软件能把做的网站上传,免费网站代理ICCV 2023榜单上月已出#xff0c;今年共收录了2160篇论文#xff0c;这次是精选了今年ICCV 2023 会议中自动驾驶相关的最新论文来和大家分享#xff0c;涵盖了3D目标检测、BEV感知、目标检测、语义分割、点云等方向#xff0c;共19篇。
论文原文以及开源代码文末领取今年共收录了2160篇论文这次是精选了今年ICCV 2023 会议中自动驾驶相关的最新论文来和大家分享涵盖了3D目标检测、BEV感知、目标检测、语义分割、点云等方向共19篇。
论文原文以及开源代码文末领取
1、Segment Anything
标题分割一切
内容作者介绍了“分割任何物体”Segment AnythingSA项目这是一个新的图像分割任务、模型和数据集。通过在数据收集循环中使用我们的高效模型作者构建了迄今为止最大的分割数据集包含超过10亿个掩膜和1100万个受许可和尊重隐私的图像。该模型被设计和训练为可提示性因此可以在新的图像分布和任务中进行零样本迁移。作者在许多任务上评估其能力并发现其零样本性能令人印象深刻通常与甚至优于先前的完全监督结果相竞争。 2、SparseFusion: Fusing Multi-Modal Sparse Representations for Multi-Sensor 3D Object Detection
标题 将多模态稀疏表示融合用于多传感器3D物体检测
内容通过识别现有激光雷达-摄像头三维物体检测方法的四个重要组成部分激光雷达和摄像头候选框、变换和融合输出作者观察到所有现有方法要么寻找密集的候选框要么生成密集的场景表示。然而考虑到物体仅占整个场景的一小部分寻找密集的候选框和生成密集的表示是噪声和低效的。本论文提出了SparseFusion一种新颖的多传感器三维检测方法专门使用稀疏的候选框和稀疏的表示。具体而言SparseFusion利用激光雷达和摄像头模态中并行检测器的输出作为融合的稀疏候选框。作者通过解开对象表示将摄像头候选框转换为激光雷达坐标空间然后可以通过轻量级自注意模块在统一的三维空间中融合多模态候选框。为了减轻模态之间的负面传递作者提出了新颖的语义和几何跨模态传递模块这些模块应用于模态特定检测器之前。SparseFusion在nuScenes基准上取得了最先进的性能同时运行速度最快甚至超越了使用更强骨干网络的方法。 3、Ada3D : Exploiting the Spatial Redundancy with Adaptive Inference for Efficient 3D Object Detection
标题Ada3D利用自适应推理来挖掘空间冗余实现高效的3D物体检测
内容基于体素的方法在自动驾驶中的3D物体检测取得了最先进的性能然而其显著的计算和内存成本对于资源受限的车辆应用构成了挑战。其中一个原因是在激光雷达点云中存在大量冗余的背景点导致3D体素和BEV鸟瞰图地图表示中存在空间冗余。为了解决这个问题作者提出了一种自适应推理框架称为Ada3D专注于减少空间冗余以压缩模型的计算和内存成本。Ada3D通过轻量级重要性预测器和激光雷达点云的独特属性自适应地过滤冗余输入。此外通过引入保持BEV特征固有稀疏性的稀疏保留批归一化作者保持了BEV特征的稀疏性。通过Ada3D在不牺牲准确性的前提下将3D体素减少了40%将2D BEV特征图的密度从100%降低到20%。Ada3D将模型的计算和内存成本降低了5倍并分别实现了3D和2D主干网络的1.52倍/1.45倍端到端GPU延迟和1.5倍/4.5倍GPU峰值内存优化。 4、PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images
标题PETRv2基于多摄像头图像的三维感知统一框架
内容在本文中作者提出了PETRv2这是一个针对多视角图像的三维感知统一框架。基于PETR [24]PETRv2探索了时间建模的有效性利用先前帧的时间信息提升三维物体检测性能。具体而言作者在PETR的基础上扩展了三维位置嵌入3D PE以进行时间建模。3D PE实现了不同帧的物体位置的时间对齐。此外作者还引入了特征引导的位置编码器进一步提高了3D PE的数据适应性。为了支持多任务学习例如BEV分割和三维车道检测PETRv2通过引入在不同空间下初始化的任务特定查询提供了一个简单而有效的解决方案。PETRv2在三维物体检测、BEV分割和三维车道检测方面实现了最先进的性能。此外论文还对PETR框架进行了详细的鲁棒性分析。希望PETRv2能够成为三维感知领域的强大基准模型。 5、Cross Modal Transformer: Towards Fast and Robust 3D Object Detection
标题跨模态Transformer实现快速和稳健的三维物体检测
内容在本文中作者提出了一种名为Cross Modal TransformerCMT的稳健三维检测器用于端到端的三维多模态检测。CMT在没有明确的视图转换的情况下将图像和点云令牌作为输入并直接输出精确的三维边界框。通过将3D点编码为多模态特征实现了多模态令牌的空间对齐。CMT的核心设计相当简单但性能令人印象深刻。在nuScenes测试集上它以74.1%的NDS单模型最先进水平实现了优异性能并保持了更快的推理速度。此外即使缺少LiDAR数据CMT也具有很强的鲁棒性。 6、DQS3D: Densely-matched Quantization-aware Semi-supervised 3D Detection
标题DQS3D密集匹配的量化感知半监督三维检测
内容本文研究半监督三维物体检测问题考虑到杂乱的三维室内场景的高标注成本该问题具有重要意义。作者采用了自我教学的稳健和有原则的框架这在最近的半监督学习中取得了显著进展。虽然这种范式在图像级或像素级预测方面是自然的但将其应用于检测问题面临着提案匹配的挑战。以前的方法基于两阶段流程在第一阶段启发式地选择提案并在第一阶段生成的提案之间进行匹配导致空间上稀疏的训练信号。相比之下论文提出了第一个能以单阶段方式工作并允许空间密集训练信号的半监督三维检测算法。这种新设计的一个基本问题是由点到体素离散化引起的量化误差这不可避免地导致体素域中两个变换视图之间的不对齐。为此作者推导并实现了即时补偿这种不对齐的封闭规则。实验结果是显著的例如使用20%的注释将ScanNet mAP0.5从35.2%提升到48.5%。 7、StreamPETR: Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection
标题StreamPETR探索面向物体的时间建模用于高效的多视角三维物体检测
内容本文提出了一种名为StreamPETR的长序列建模框架用于多视角3D物体检测。在PETR系列的稀疏查询设计基础上我们系统地开发了一种面向物体的时间机制。该模型以在线方式执行通过逐帧传播对象查询来传递长期历史信息。此外作者引入了一种运动感知的层归一化来建模物体的移动。与单帧基准相比StreamPETR在几乎没有计算成本的情况下实现了显著的性能提升。在标准的nuScenes基准上它是首个在线多视角方法与基于激光雷达的方法实现了可比较的性能67.6%的NDS和65.3%的AMOTA。轻量级版本实现了45.0%的mAP和31.7帧/秒的速度优于最先进方法SOLOFusion2.3%的mAP和1.8倍的速度。 8、SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving
标题SurroundOcc用于自动驾驶的多摄像头三维占据预测
内容3D场景理解在基于视觉的自动驾驶中起着至关重要的作用。尽管大多数现有方法专注于3D物体检测但难以描述任意形状和无限类别的真实世界对象。为了更全面地感知3D场景在本文中作者提出了一种名为SurroundOcc的方法用于通过多摄像头图像预测三维占据情况。首先为每个图像提取多尺度特征并采用空间2D-3D注意机制将它们提升到三维体积空间。然后应用三维卷积逐渐上采样体积特征并在多个层次上施加监督。为了获得密集的占据预测作者设计了一个流程以生成不需要大量标注的密集占据地面真值。具体而言分别融合动态物体和静态场景的多帧激光雷达扫描。然后采用Poisson重建填补空洞并将网格体素化以获得密集的占据标签。 9、Scene as Occupancy
标题将场景视为占据情况
内容之前的文献主要关注单一的场景补全任务但作者认为这种占据表示的潜力可能具有更广泛的影响。在本文中作者提出了OccNet这是一个多视角以视觉为中心的管道带有级联和时间体素解码器用于重建3D占据情况。在OccNet的核心是一种通用的占据嵌入用于表示3D物理世界。这种描述符可以应用于广泛的驾驶任务包括检测、分割和规划。为了验证这种新表示法和作者提出的算法的有效性。实证实验显示在多个任务中都存在明显的性能提升例如运动规划的碰撞率可以减少15%-58%证明了该方法的优越性。 10、MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation
标题MetaBEV解决BEV检测和地图分割的传感器故障问题
内容在本文中作者提出了一个名为MetaBEV的鲁棒框架用于应对极端的真实世界环境包括六种传感器损坏情况和两种极端的传感器丢失情况。在MetaBEV中来自多个传感器的信号首先通过模态特定的编码器进行处理。随后初始化一组称为元-BEV的密集BEV查询。然后这些查询被BEV-Evolving解码器迭代地处理该解码器有选择地汇聚来自LiDAR、摄像头或两种模态的深度特征。更新后的BEV表示进一步用于多个3D预测任务。此外作者引入了一个新的M2oE结构以减轻多任务联合学习中不同任务的性能下降。最后在nuScenes数据集上对MetaBEV进行了评估涵盖了3D物体检测和BEV地图分割任务。实验结果显示MetaBEV在全模态和损坏模态上的性能都远远优于以前的方法。 11、TALL: Thumbnail Layout for Deepfake Video Detection
标题TALL用于深伪造视频检测的缩略图布局
内容本文引入了一种简单而有效的策略名为Thumbnail LayoutTALL它将视频剪辑转化为预定义的布局实现了空间和时间依赖性的保留。具体而言连续的帧在每帧的固定位置被遮罩以改善泛化能力然后被调整为子图像并重新排列成预定义的缩略图布局。TALL是与模型无关且极其简单的只需修改几行代码。受到视觉变换器的成功启发作者将TALL引入到Swin Transformer中形成了一种高效且有效的方法TALL-Swin。在数据集内和跨数据集的广泛实验验证了TALL和SOTA TALL-Swin的有效性和优越性。 12、AlignDet: Aligning Pre-training and Fine-tuning in Object Detection
标题AlignDet在目标检测中对预训练和微调进行对齐
内容在目标检测中作者提出了AlignDet一个统一的预训练框架通过解决现有实践中预训练和微调过程之间的差异显著提升了检测器的性能和泛化能力。 13、Cascade-DETR: Delving into High-Quality Universal Object Detection
标题Cascade-DETR深入探讨高质量的通用目标检测
内容作者引入了Cascade-DETR一种高质量的通用目标检测方法通过引入级联注意层和重新评分策略显著提高了在不同领域的检测性能。 14、Rethinking Range View Representation for LiDAR Segmentation
标题重新思考激光雷达分割的距离视图表示方式
内容本研究探索了重新构思激光雷达分割中的距离视图表示方法提出了RangeFormer框架有效解决了多个关键问题并在多个激光雷达分割基准中实现了优越性能。 15、FreeCOS: Self-Supervised Learning from Fractals and Unlabeled Images for Curvilinear Object Segmentation
标题FreeCOS基于分形和无标签图像的自监督学习用于曲线对象分割
内容本研究提出了FreeCOS方法利用分形和无标签图像进行自监督学习实现了高质量的曲线对象分割在多个公共数据集上表现优于现有方法。 16、MARS: Model-agnostic Biased Object Removal without Additional Supervision for Weakly-Supervised Semantic Segmentation
标题MARS: 无需额外监督的模型不可知偏置对象移除用于弱监督语义分割
内容本研究提出了MARS框架一种全自动/模型不可知的偏置对象移除方法通过利用无监督技术的语义一致特征在伪标签中消除偏置对象在弱监督语义分割任务中取得了显著的性能提升无需额外监督。 17、DVIS: Decoupled Video Instance Segmentation Framework
标题DVIS解耦式视频实例分割框架
内容视频实例分割中存在的挑战包括复杂场景和长视频促使作者提出了解耦式视频实例分割框架DVIS通过将任务分解为分割、跟踪和优化三个独立子任务实现了新的最先进性能并在OVIS和VIPSeg等数据集上超越当前方法。 18、Open-vocabulary Panoptic Segmentation with Embedding Modulation
标题使用嵌入调制的开放词汇泛全景分割
内容作者提出了OPSNet框架通过Embedding Modulation模块实现分割模型与视觉-语言对齐的CLIP编码器之间的信息交流在开放和闭合词汇设置下实现了优越的全景分割性能减少了对额外数据的需求。 19、Robo3D: Towards Robust and Reliable 3D Perception against Corruptions
标题Robo3D面向抵御数据损坏的稳健可靠的三维感知
内容Robo3D提出了首个综合性基准旨在探索3D检测和分割模型在真实环境中的自然损坏下的鲁棒性揭示了现有模型在面对多种损坏时的脆弱性并提出了提升鲁棒性的训练框架和策略。 关注下方《学姐带你玩AI》
回复“ICCV自动驾驶”免费领取全部论文代码合集
码字不易欢迎大家点赞评论收藏