PHP搭建IDC网站,行业网站渠道选择和内容运营,杭州的设计网站大全,自己做电影网站犯法吗来源#xff1a;前沿科技编译#xff1a;OGAI编辑#xff1a;陈彩娴ImageNet 的出现极大推动了计算机视觉领域的发展。在通往强人工智能的路上#xff0c;我们还需要考虑物体的外观、结构、物理性质、语义等因素。为此#xff0c;上海交大卢策吾组近日重磅推出了大型真实世… 来源前沿科技编译OGAI编辑陈彩娴ImageNet 的出现极大推动了计算机视觉领域的发展。在通往强人工智能的路上我们还需要考虑物体的外观、结构、物理性质、语义等因素。为此上海交大卢策吾组近日重磅推出了大型真实世界铰接物体知识库 AKB-48铰接物体在我们的生活中无处不在。全面理解这些铰接物体的外观、结构、物理性质和语义对于研究社区是大有助益的。目前的铰接物体理解方法通常是基于不考虑物理特性的 CAD 模型的合成物体数据集这不利于视觉和机器人任务中从仿真环境到实际应用的泛化。为了弥补这一差距我们提出了AKB-48一个大规模的铰接物体知识库它包含 48 个类别的 2,037 个真实世界中的三维铰接物体模型。我们通过铰接知识图谱 ArtiKG 描述每个物体。为了构建 AKB-48我们提出了一个快速铰接知识建模流程FArM可以在 10-15 分钟内构建铰接物体的 ArtiKG在很大程度上降低了在现实世界中对物体建模的开销。在该数据的基础上我们提出了一个新颖的集成网络框架 AKBNet用于类别级的视觉铰接操作C-VAM任务。我们提出了三个对比基准子任务即姿态估计物体重建和控制。论文地址https://arxiv.org/pdf/2202.08432v1.pdf代码地址https://liuliu66.github.io/articulationobjects/1引言铰接物体是由多个关节连接的刚性部分组成的可以在三维空间中进行旋转或平移运动。有关铰接物体的知识对于许多研究社区如计算机视觉、机器人和具身人工智能都是有所助益的。现有的铰接物体数据集包括 PartNet-Mobility、ReArt-48、RBO 等。然而这些数据集大多更加关注结构信息例如部位分割、运动结构但是很少注意外形例如纹理、细致的几何信息也很少注意物理特性例如每个部位的质量、惯量、材料和摩擦力也很少涉及语义例如类别、功能可供性。然而有一些重要的任务非常依赖于这些信息例如目标检测依赖于「纹理」三维重建依赖于「细致几何信息」目标控制依赖于「物理特性」缺乏这些物体知识不利于学习模型的泛化。为了推动对铰接物体的研究本文提出了 AKB-48一个包含 48 个类别、2,037 个实例的大规模真实铰接知识库。对于每个实例我们根据相应的真实物体扫描出物体的模型并手动细化。物体知识会被组织到一个铰接知识图谱ArtiKG中它包含各种物体属性和特征的详细标注。为了在大数据集上进行扫描和标注我们提出了快速铰接知识建模FArM流程。具体而言我们利用三维传感器和转台、集成了结构和语义标注的 GUI、用于物理属性标注的标准真实世界实验开发了一个物体记录系统。该系统节省了大量用于建模现实世界铰接物体的时间和金钱和成本每个物体的标注成本为 3 美元耗时 10-15 分钟)。本文对比了 CAD 建模与反向扫描。总而言之该流程的资金和时间预算分别仅为前者的 1/33 和 1/5。我们利用 AKB-48 数据集提出了AKBNet这是一种用于类别级视觉铰接控制C-VAM任务的新型集成架构。为了解决 C-VAM 任务视觉系统 AKBNet 需要能够估计物体的姿态重建物体的几何形状并在推理类别级的控制策略。因此它由三个感知子模块组成1用于类别级铰接物体姿态估计的「姿态模块」该模块旨在估计某类中未曾见过的铰接物体的每个部位的 6D 姿态。然而以往的研究通常针对于运动类别定义某个类别的物体具有相同的运动结构。我们的姿态模块将「类别」的概念扩展到「语义类别」同一类物体可以具有不同的运动结构。2用于铰接物体重建的「形状模块」获得姿态后我们再对输入图像进行形状编码重建每个部位的形状。完整的几何信息对于决定在哪里进行交互控制至关重要。3用于铰接物体控制的「控制模块」通过感知获得铰接信息例如部位分割、各部位姿态、铰接属性、完整网格后就可以根据观察结果推断出交互策略。我们设置了「打开」和「拉动」的操作任务分别对应于转动铰接和移动铰接。针对每个模块评估时我们假设模块的输入是上一个模块的 Ground Truth。针对整个系统评估时输入是上一个模块的输出。显然我们不能对 AKB-48 支持的所有任务进行基准测试。我们希望它能成为未来计算机视觉和机器人领域中的铰接研究的良好平台。本文的贡献包括以下三点1提出了 AKB-48 数据集它包含 48 个类别的 2,037 个铰接模型我们采用了一个多模态知识图 ArtiKG 来组织丰富的标注信息。该数据集有助于缩小当前的视觉和具身人工智能研究之间的差距。据我们所知这是第一个从现实世界收集到的具有丰富标准信息的大规模铰接数据集。2提出了一种快速铰接知识物体建模流程 FArM使得从现实世界中收集铰接物体信息更加容易。在构建真实世界的三维模型数据集时该流程可以大大降低时间和金钱成本阿。3提出了一种用于整体类别级视觉铰接操作C-VAM任务的新型架构 AKBNet。实验表明该架构的各个部件和整体模型在现实世界中是有效的。2铰接知识库AKB-48在构建知识库时我们需要回答三个问题1我们应该标注物体的什么类型的知识2我们应该标注什么物体物体来自真实世界还是模拟世界?3如何高效地标注物体知识铰接式物体知识图谱 ArtiKG不同的任务需要不同种类的物体知识为了统一标注的表征我们将其组织成一个多模态知识图谱 ArtiKG。ArtiKG 由四个主要部分组成即外观、结构、物理属性和语义。图注AKB-48 数据集中定义的铰接只是图谱ArtiKG。外观我们将每个实例的形状与网格数据结构以及纹理存储在一起。从现实世界中扫描对象时我们也会收集对象的多视图 RGB-D 快照。结构铰接物体和刚体物体的关键区别在于运动结构。被铰接的物体有关节和部位这样的概念这些概念对于刚体来说是没有意义的。对于每个关节我们标注了关节的类型、参数和运动限制。对于每个部位我们将每个运动部位分割出来。语义在对基本的几何和结构信息进行标注之后我们以从粗到细的过程为物体赋予语义信息。我们为每个实例赋予了一个 uuid。接着我们根据 WordNet 为物体分配类别。此外我们还标记了部位的语义。虽然我们已经标注了运动学上的部位但它与语义部位并不完全相同。以带把手的马克杯为例把手并不是通过关节附着在马克杯本体上因此它不是一个运动学上的部位而是一个语义上的部位因为它表明了人类通常抓取马克杯的位置。物理属性真实的物体存在于物理世界中通常具有物理属性这对于精确仿真、真实世界中的控制和铰接物体的交互是很重要的。因此我们为模型存储物理属性的标注包括每个部位的质量、惯量、材料和表面摩擦力。3物体选择真实世界扫描 vs. CAD 建模本文从标注的准确性、时间和金钱成本两个方面对比真实世界扫描和 CAD 建模。标注准确性根据 ArtiKG 的内容我们可以看到相较于 CAD 建模从真实世界中扫描的物体具有很多优势例如外观和物理性质。但不可否认的是CAD 模型可以模拟内部结构而扫描技术更多地关注物体表面。幸运的是大多数日常用品都可以拆卸所以扫描技术可以很好地处理它们。时间与金钱成本在研究新的类别或运动学结构时ShapeNet 类型的模型收集范式局限于构建手工 CAD 模型所需的大量时间和金钱成本。另一方面日常生活中许多铰接物体价格偏移可以被外行人扫描。就 CAD 而言淘宝上的外包服务价格如下表所示单位美元。4快速铰接知识建模FArM模型获取设备为了高效收集现实世界的铰接模型我们设置了一个如下图所示的记录系统图注1用于多尺度物体的旋转转台2是一个跟踪标记3吸光项4升降支架5Shining 3D 扫描仪6-8用于捕获多视图物体数据的英特尔 RealSenseL515相机。关节建模我们为标注开发了一个铰接物体建模的三维 GUI。建模过程包含三个部分物体对齐、部位分割、关节标注详情请参阅原文。物理标注现实世界中的铰接物体存在于物理世界中具有物理属性。为了使 AKB-48 可以被用于现实世界的机器人控制和交互任务我们还为铰接物体的每个部分标注了以下物理属性各部位质量、各部位惯性力矩、各部位材料和摩擦力。数据集分析物体类别在构建 AKB-48 数据集的过程中我们考虑了以下要求1通用性。AKB-48 能够涵盖日常生活中常见场景中的大部分铰接物类别。2多样性。每个类别中的物体有各种各样的形状形变能力、纹理和运动结构。3用例。所选物体应该包含各种使用上的功能。此外完成控制性能的能力是需要优先考虑的。统计信息图注AKB-48 与其它流行的模型数据集对比。我们的 AKB-48 数据集在 ArtiKG 中提供了四种丰富的标注信息外观、结构、语义和物理属性。AV平均顶点数。AT三角形的平均数目。ST语义分类。PS各部位语义标签。PM各部位质量。PI各部位惯性力矩。PF各部位的摩擦力。AKBNetAKBNet 是一个用于 C-VAM 任务的集成架构。AKBNet 的输入是单张带有检测到的二维边界框的 RGB-D 图像。AKBNet 中构建了三个子模块旨在估计各部位的 6D 姿态重构铰接物体的完整几何形状并根据感知信息推理交互策略。图注AKBNet 架构示意图。姿态模块给定带有二维边界框的图像我们可以获取部分点云 P。我们首先通过 Pointnet提取点云特征然后建立了用于预测逐点分割 S 和部位级归一化物体坐标空间NOCS图的两个分支。为了解决为止运动结构和关节类型的问题我们在特征提取器上引入了三个分支根据相应的部位对关节类型分类并预测关节的属性位置轴。最后我们通过带有运动约束的姿态优化算法恢复出每个刚性部位的 6D 姿态。形状模块给定部分点云 P形状模块旨在恢复出完整的几何外形和相应的关节状态。我们利用 A-SDF 构建了一个特征提取器用来处理连接后的部分点云和高斯初始化的形状嵌入、关节嵌入。控制模块控制模块执行两项任务分别对应于铰接结构中的转动关节和移动关节的打开和拉动。为了完成这些任务我们训练了两个强化学习智能体。我们给出了两种状态表征1对象状态2智能体状态。动作包括智能体末端执行器的三维平移和夹持器的打开宽度。奖励函数是转动关节沿目标部件关节轴方向的旋转角度移动关节沿目标部件关节轴方向的移动距离。我们使用两种常用的强化学习基线带有 HER 的 TQC 和 SAC训练。5实验结果姿态模块性能我们在真实世界测试集上评估了 NPCS、A-NCSH 和 AKBNet 在类别级关节姿态估计任务中的作用。图注类别级铰接姿态估计结果。在姿态估计方面AKBNet 在旋转、平移和 3D IoU 指标上的误差分别为 9.8、0.021 和 53.6高于 NPCS 和 A-NCSH。在关节相关的评估方面AKBNet 可以精确预测未见过的铰接物体的关节类型准确率为 94.6%。此外AKBNet 在关节轴和位置预测方面分别具有 8.1 和 0.019 的误差。形状模块性能图注铰接物体重建结果。给定真实的关节状态形状模块可以以 4.2 Chamfer-l1 距离重建出关节物体。另一方面在给定预测关节状态的情况下系统地评估形状模块该状态是由姿态模块预测的相连的两部分的姿态推导出来的。Chamfe-l1 距离比真实的关节状态下高 3.3说明所预测的姿态对重建性能影响较大。控制模块性能图注铰接物体控制任务的成功率。我们比较了 TQCHER 训练算法与 SACHER 训练算法在 AKBNet 控制模块上进行打开和拉动任务的性能。给定真实的物体状态时AKBNet 完成打开和拉动任务的成功率分别为 72.5% 和 98.7%。然而当使用预测的物体状态时我们的方法只有 40.2% 和 44.6% 的成功率。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”