智加科技论文DualBEV入选计算机视觉顶会ECCV

近日,智加科技团队论文《DualBEV: Unifying Dual Veiw Transformation with Probabilistic Correspondences》入选欧洲计算机视觉国际会议(ECCV, European Conference on Computer Vision),ECCV是计算机视觉领域最具影响力和权威性的国际会议之一,与国际计算机视觉大会(ICCV)和计算机视觉与模式识别会议(CVPR)齐名,被誉为计算机视觉领域的“三大顶会”之一。ECCV 每两年举办一次,汇聚了全球顶尖的研究

近日,智加科技团队论文《DualBEV: Unifying Dual Veiw Transformation with Probabilistic Correspondences》入选欧洲计算机视觉国际会议(ECCV, European Conference on Computer Vision),ECCV是计算机视觉领域最具影响力和权威性的国际会议之一,与国际计算机视觉大会(ICCV)和计算机视觉与模式识别会议(CVPR)齐名,被誉为计算机视觉领域的“三大顶会”之一。ECCV 每两年举办一次,汇聚了全球顶尖的研究人员和专家,展示和讨论最前沿的研究成果和技术创新。

智加科技论文DualBEV入选计算机视觉顶会ECCV

DualBEV: 榜上最佳BEV视角转换方法

Bird’s-Eye-View (BEV)感知是当前自动驾驶感知乃至端到端技术的基石,其中视角转换(View Transformation)则是BEV感知的核心模块, 承担着将图像特征(2D)转换到BEV空间(3D)的重任。目前主流的方案往往会在3D-to-2D或2D-to-3D的视角转换方案间陷入两难。3D-to-2D方案一般依赖Transformer,在取得不错性能的同时也带来了大量的计算开销。2D-to-3D虽然计算速度快,但是容易丢失卡车场景关心的远距离信息。针对这些问题,DualBEV从蒙特卡洛的概念出发,通过对View Transformation本质的思考,把View Transformation的过程总结为构建采样、计算权重,进而提出了一种通用的特征转换算法(Unified Feature Transformation)。该算法首先从两种方向上构建采样,通过三种概率测量的相乘对两种不同方向构建的采样统一进行评估,再通过预计算加速转换过程, 融合得到最终的BEV特征。

智加科技论文DualBEV入选计算机视觉顶会ECCV

通用特征转换算法

DualBEV开创性地将3D-to-2D和2D-to-3D的视角转换方案统一进了一套整体的框架内,充分发挥了各自视角的优势,并且在nuScenes Detection Leaderboard 纯视觉方案上以63.4% NDS取得了SOTA的结果,同时由于视角转换模块使用了预计算技术,其计算时间仅为Transformer方案的1/40,是目前榜上最佳视角转换方法。

通过高效的视角转换和多视角信息融合,DualBEV构建的BEV特征提供了精准的场景表征提供了精确的感知特征和快速的计算方案,为端到端系统的开发提供了坚实的基础。智加科技正积极推进DualBEV在端到端自动驾驶系统中的深度集成,充分发挥其优势,进一步提升自动驾驶系统的整体性能。

技术赋能产品,开源合作共赢

DualBEV进一步优化后的相关技术已应用于智加科技自主研发的前装量产重卡自动驾驶系统智加领航2.0中。该系统开放了领航自动驾驶功能,具备极致安全、舒适省力、节能环保等优势,可实现自主超车、靠边停车、汇入预测以及部分施工规避等高级功能,支持在典型快递快运场景中“双驾变单驾”以显著降低驾驶疲劳度,并通过最高节油10%实现节能减排。

目前装配智加领航 2.0 系统的智能重卡 K7+,已被中国邮政、中通快运、安能物流等头部物流公司投入实际运营,覆盖京津冀、长三角、珠三角等核心经济区,持续赋能干线物流行业数智化转型。

此次论文成功入选 ECCV并进行部分研究成果开源,不仅展示了智加科技在自动驾驶领域的科研及创新能力,也将助力行业标准化和互操作性的提升。智加科技希望通过创新、合作与共享,集中力量攻克关键技术难题,有效推动自动驾驶技术的迭代与突破,最终实现物流运输行业"智能、安全、环保"的高质量发展。

相关资讯

Lidar 3D传感器点云数据与2D图像数据的融合标注

2D&3D融合以自动驾驶场景为例,自动驾驶汽车需要使用传感器来识别车辆周围的物理环境,用来捕获2D视觉数据,同时在车辆顶部安装雷达,用以捕捉精确目标定位的3D位置数据。激光雷达生成的点云数据可用于测量物体的形状和轮廓,估算周围物体的位置和速度,但点云数据缺少了RGB图像数据中对物体纹理和颜色等信息的提取,无法精确地将对象分类为汽车、行人、障碍物、信号灯等。所以需要将包括丰富的语义信息2D视觉图像和可以提供精确的目标定位3D点云数据进行融合,使自动驾驶系统能够精确地了解周围环境,准确做出判断,让自动驾驶功能得以广泛应

腾讯混元开源 Hunyuan3D-1.0:首个同时支持文生和图生的 3D 开源大模型

腾讯混元今日开源了 Hunyuan3D-1.0 大模型,官方称这是首个同时支持文生和图生的 3D 开源大模型。 ▲ 文生模型▲ 图生模型模型采用两阶段生成方法,官方表示在保证质量和可控的基础上,10 秒即可生成 3D 资产:第一阶段,团队采用了一种多视角扩散模型,轻量版模型能够在大约 4 秒内生成多视角图像。 这些多视角图像从不同的视角捕捉了 3D 资产的丰富的纹理和几何先验,将任务从单视角重建松弛到多视角重建第二阶段,团队引入了一种前馈重建模型,利用上一阶段生成的多视角图像。

HANDS@ECCV24 手部研讨会和挑战赛,诚邀投稿和参与竞赛

简介第八届HANDS将在ECCV24(9月30日下午,米兰)举办,包含研讨会和挑战赛。HANDS将为相关手部研究人员和从业者提供一个分享工作和讨论潜在合作的平台。过去7届HANDS也取得了极大的成功。本文档属于翻译,信息以官网为准。HANDS@ECCV24 主页::研讨会专注于手部相关方向,将邀请手部相关领域的专家做前沿报告。特别的,我们诚邀相关长文投稿。手部挑战赛:挑战赛基于最新的手部大数据集AssemblyHands、ARCTIC、OakInk2和UmeTrack,组织多个赛道,希望推动相关算法的发展。论文投稿