Delivering Arbitrary-Modal Semantic Segmentation(CVPR2023)任意模态语义分割论文阅读

文章目录

  • 文章研究思路
    • 创建了DeLiVER任意模态分割基准数据集
      • 统计信息
      • 4种模态
      • 25个语义类
    • 提出了任意跨模态分割模型CMNeXt
      • 自查询中心(Self-Query Hub,SQ-Hub)
      • 并行池化混合器(Parallel Pooling Mixer,PPX)
  • 实验部分

paper:https://arxiv.org/pdf/2303.01480
Github:https://github.com/jamycheung/DELIVER

文章研究思路

多模态融合可以使语义分割更加鲁棒。然而,融合任意数量的模态仍然是一个未充分探索的问题。为了深入研究这一问题,我们

1:创建了DeLiVER任意模态分割基准数据集,涵盖了深度(Depth)、激光雷达(LiDAR)、多视角(Multiple Views)、事件(Events)和RGB模态。除此之外,我们还提供了四种恶劣天气条件下的数据集,并包括五种传感器故障情况,以利用模态间的互补性并解决部分故障问题。

2:提出了任意跨模态分割模型CMNeXt。该模型包含一个自查询中心(Self-Query Hub,SQ-Hub),旨在从任意模态中提取有效信息,以便随后与RGB表示进行融合,并且每增加一个模态仅增加极少的参数(约0.01M)。此外,为了高效且灵活地从辅助模态中获取判别性线索,我们引入了简单的并行池化混合器(Parallel Pooling Mixer,PPX)。通过在六个基准数据集上的大量实验,我们的CMNeXt实现了最先进的性能,能够在DeLiVER、KITTI-360、MFNet、NYU Depth V2、UrbanLF和MCubeS数据集上实现从1个模态到80个模态的扩展。在新收集的DeLiVER数据集上,四模态的CMNeXt在mIoU上达到了66.30%,相较于单模态基准提高了9.10%。

创建了DeLiVER任意模态分割基准数据集

统计信息

在这里插入图片描述

DeLiVER 多模式数据集包括 (a) 5种天气情况(多云、有雾、夜间、下雨和晴天),含有4种不利条件;6种传感器情况, 除了正常情况外,有5个传感器故障情况 (MB:运动模糊、OE: 过度曝光、UE: 曝光不足、LJ: LiDAR-Jitter:LiDAR 抖动、和 EL:事件低分辨率),传感器安装在 Ego Car 上的不同位置提供多个视图,包括前、后、左、右、上和下,因此 每个样本有 6 个视图,每个视图都有4种模态(RGB、Depth、Lidar、Event)和2类标签(semantic 和 instance)。(b) 是数据统计,共计 47,310 帧,大小为1042*1042 。其中 7,885 个前视图样本分为 3,983/2,005/1,897 分别用于训练/验证/测试。(c) 是 25 个语义类的数据分布。

在这里插入图片描述

4种模态

在这里插入图片描述
在这里插入图片描述

25个语义类

Building - 建筑物、Fence - 围栏、Other - 其他、Pedestrian - 行人、Pole - 杆、RoadLine - 路线、Road - 道路、SideWalk - 人行道、Vegetation - 植被、Cars - 汽车、Wall - 墙壁、TrafficSign - 交通标志、Sky - 天空、Ground - 地面、Bridge - 桥梁、RailTrack - 铁路轨道、GroundRail - 地面铁路、TrafficLight - 交通灯、Static - 静态、Dynamic - 动态、Water - 水、Terrain - 地形、TwoWheeler - 两轮车、Bus - 公共汽车、Truck - 卡车

提出了任意跨模态分割模型CMNeXt

下图为CMNeXt的整体架构图,该模型是编码器-解码器(Encoder-Decoder)架构。其中,编码器是一个双分支和四阶段的编码器,双分支分为RGB的主要分支和其他模态的次要分支,为了保持模态表示的一致性,Lidar、Event信息按照文章[ ISSAFE: Improving semantic segmentation in accidents by fusing event-based data.][Perception-aware multi sensor fusion for 3D LiDAR semantic segmentation]预处理为类似图像的表示形式。backbone遵循大多数的CNN/Transformer结构,以用于提取多尺度的金字塔特征,四阶段以下只详细标注第一阶段。采用Hub2Fuse范式和不对称分支设计,RGB图像通过多头注意力(MHSA)逐步处理[来自SegFormer],其他M种模态图像则通过本文提出的自查询中心(Self-Query Hub)和并行池化混合器(PPX)进行处理:在Hub步骤中,Self-Query Hub从辅助模态中选择出具有信息量的特征;在融合步骤中,特征修正模块(FRM)和特征融合模块(FFM)被用于特征融合[ CMX: Cross-modal fusion for RGB Xsemantic segmentation with transformers],各个阶段之间,融合后的特征会通过add的方式叠加到每种模态的特征而后进入下一阶段;经过四个阶段后,会得到四阶段特征,传递给MLP解码器分割头,进行预测。

在这里插入图片描述

自查询中心(Self-Query Hub,SQ-Hub)

为了执行任意模态融合,自查询中心(SQ-Hub)是一个关键设计,用于在与 RGB 特征融合之前选择补充模态的信息特征,简单的理解就是用一个类自注意力机制的模块将不同的模态信息进行融合输出。随后,该输出特征经过PPX模块进行进一步加工。
在这里插入图片描述

并行池化混合器(Parallel Pooling Mixer,PPX)

并行池化混合器作用是从上述 SQ-Hub 中的任意模态补充中高效灵活地获取判别线索。结构如下所示,先是7*7的DW-conv,再通过3种不同核尺度的池化层,残差连接; 最后通过FFN和SEnet的结构Squeeze-and-Excitation module 跨通道增强信息。
在这里插入图片描述

与基于卷积的MSCA [27]、基于池化的MetaFormer [86]、全注意力的FAN [99]相比,PPX包含两项创新:

  • (1) 在注意力部分使用并行池化层进行高效加权;
  • (2) 在特征混合部分进行通道级增强。

PPX模块的这两项特点有助于分别在空间和通道维度上突出跨模态融合特征。

实验部分

表 1 为 CMNeXt 与其它多模态融合领域的 SOTA 方法在六个多模态的分割数据集上的对比。实现结果表明,与HRFuser、TokenFusion以及CMX等众多前向研究相比,所提方法无论是在任意单模态或多模态下均能发挥出色的分割性能,具备很强的鲁棒性。

在这里插入图片描述

表 2 展示了 CMNeXt 与主流多模式融合范例在不同条件下的比较结果,包括恶劣天气和部分传感器故障场景。可以看出,先前的方法在两大挑战上均表现不加。受益于所提出的用于选择有效特征的自查询中心(SQ-Hub),方法显著提高了整体的分割性能,平均提升了 9.1 个点。

在这里插入图片描述

表 3 主要对本文所提的各个模块进行消融实验论证。

在这里插入图片描述

CMNeXt针对RGB-only SegFormer和RGB-X CMX的语义分割结果。可以看出,在曝光不足的黑夜中,仅 RGB 的 SegFormer 几乎无法分割近处的车辆,而基于 RGB-D 深度估计的 CMNeXt 明显优于SegFormer。另一方面,结合四种不同模态RGB-D-E-L的CMNeXt方法则进一步提高了性能并产生了更完整的分割效果。同时,在激光雷达抖动的部分传感器故障场景中,CMX产生了不好的雨景解析结果;而本文所提方法几乎不受传感数据未对齐的影响,CMNeXt进一步加强了全场景分割的性能。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.tpcf.cn/bicheng/84775.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

进程控制

一. 进程创建 1.fork的概念与使用 在 Linux 中 fork 可以在一个进程中创建一个新的进程。这个新进程称为子进程&#xff0c;原进程为父进程。使用前需要包含头文件 #include <unistd.h> 。在调用 fork 函数时&#xff0c;子进程与父进程会共享数据和代码&#xff0c;此…

造轮子系列:从0到1打造生产级HTTP客户端,优雅封装OkHttp/HttpClient,支持异步、重试与文件操作

TechZhi HTTP Client Starter 源码特性快速开始1. 添加依赖2. 配置3. 使用 主要功能支持的HTTP方法文件操作功能高级功能配置示例 API使用示例基本请求自定义请求异步请求文件操作示例错误处理 构建和测试依赖说明 本文将介绍一款本人开发的高性能Spring Boot HTTP客户端Starte…

Java过滤器的基本概念

概述 Java 过滤器是 Java EE (Jakarta EE) 中的一种组件&#xff0c;用于在请求到达 Servlet 或 JSP 之前对其进行预处理&#xff0c;或者在响应返回客户端之前对其进行后处理。过滤器主要应用于以下场景&#xff1a; 请求参数过滤和转换字符编码处理身份验证和授权日志记录压…

gbase8s数据库获取jdbc/odbc协议的几种方式

PROTOCOLTRACEFILED:\sqltrace1.log;PROTOCOLTRACE5 jdbc 参数 &#xff0c;明文协议&#xff0c;并发时 会错乱&#xff0c;适合单线程调试 SQLIDEBUGC:\Users\lenovo\Desktop\sqlidebug.log1 jdbc参数&#xff0c;密文协议&#xff0c;需使用解密工具解析&#xff0c;解析…

【android bluetooth 框架分析 04】【bt-framework 层详解 7】【AdapterProperties介绍】

前面我们提到了 蓝牙协议栈中的 Properties &#xff0c; 这篇文章是 他的补充。 【android bluetooth 框架分析 04】【bt-framework 层详解 6】【Properties介绍】 在 AOSP&#xff08;Android Open Source Project&#xff09;中&#xff0c;AdapterProperties 是一个 Java…

C盘瘦身?

突然发现回收站底部有横幅辣眼睛&#xff01; 点击深度清理跳转C盘瘦身 点击一键瘦身跳转支付 回收站右键还有菜单 回收站右键可以通过设置关闭 回收站底部横幅关不了&#xff01; 流氓没人管了吗&#xff1f;

用户通知服务,轻松实现应用与用户的多场景交互

用户在使用应用时&#xff0c;经常想要了解应用程序在执行的操作&#xff0c;如下载完成、新邮件到达、发布即时的客服支付通知等&#xff0c;这些通知除了携带基本的文本图片信息外&#xff0c;最好还可以支持文件上传下载进度场景下的进度条通知&#xff0c;以及点击通知栏可…

苹果获智能钱包专利,Find My生态版图或再扩张:钱包会“说话”还能防丢

苹果公司近日成功获批一项突破性专利&#xff0c;揭示了一种支持Find My网络的全新智能钱包设计方案。该钱包不仅能智能管理用户的信用卡、身份证等实体卡片&#xff0c;更具备了追踪定位和通过扬声器发声提醒的能力&#xff0c;有望成为苹果“查找”&#xff08;Find My&#…

当机床开始“思考”,传统“制造”到“智造”升级路上的法律暗礁

——首席数据官高鹏律师团队创作&#xff0c;AI辅助 一、被时代推着走的工厂&#xff1a;从“铁疙瘩”到“智能体”的阵痛 某汽车零部件厂的李厂长至今记得三年前的凌晨。为了赶上新能源车企的订单&#xff0c;厂里咬牙引进了两条智能生产线&#xff0c;可调试第三天&#xff…

概率基础——不确定性的数学

第05篇&#xff1a;概率基础——不确定性的数学 写在前面&#xff1a;大家好&#xff0c;我是蓝皮怪&#xff01;前几篇我们聊了统计学的基本概念、数据类型、描述性统计和数据可视化&#xff0c;今天我们要进入统计学的另一个重要基础——概率论。你有没有想过&#xff0c;为什…

爬虫遇到base64编码(非常规版)

一.特征 从 Base64 的核心特性入手&#xff0c;比如它的编码原理&#xff08;将二进制数据转换为 ASCII 字符集&#xff09;和字符集的组成&#xff08;A-Z、a-z、0-9、、/ 和 &#xff09;。这是 Base64 最基础的特点&#xff0c;几乎每个回答都应该包括这些内容。基于 64 个…

节拍定时器是什么?

节拍定时器是什么&#xff1f; 节拍定时器&#xff08;SysTick Timer&#xff09;是嵌入式系统中用于提供精确时间基准的核心硬件组件&#xff0c;尤其在ARM Cortex-M系列处理器中广泛应用。以下是其关键特性和应用的综合说明&#xff1a; ⚙️ 一、核心概念与工作原理 硬件基…

SDPA(Scaled Dot-Product Attention)详解

SDPA&#xff08;Scaled Dot-Product Attention&#xff09;详解 SDPA&#xff08;Scaled Dot-Product Attention&#xff0c;缩放点积注意力&#xff09;是 Transformer 模型的核心计算单元&#xff0c;最早由 Vaswani 等人在 2017 年的论文《Attention Is All You Need》提出…

java通过hutool工具生成二维码实现扫码跳转功能

实现&#xff1a; 首先引入zxing和hutool工具依赖 <dependency><groupId>com.google.zxing</groupId><artifactId>core</artifactId><version>3.5.2</version></dependency><dependency><groupId>com.google.zxi…

数据库数据导出到Excel表格

1.后端代码 第一步&#xff1a;UserMapper定义根据ID列表批量查询用户方法 // 批量查询用户信息List<User> selectUserByIds(List<Integer> ids); 第二步&#xff1a;UserMapper.xml写动态SQL&#xff0c;实现批量查询用户 <!--根据Ids批量查询用户-->&l…

Altera系列FPGA基于ADV7180解码PAL视频,纯verilog去隔行,提供2套Quartus工程源码和技术支持

目录 1、前言工程概述免责声明 2、相关方案推荐我已有的所有工程源码总目录----方便你快速找到自己喜欢的项目Altera系列FPGA相关方案推荐我这里已有的PAL视频解码方案 3、设计思路框架工程设计原理框图输入PAL相机ADV7180芯片解读BT656视频解码模块图像缓存架构输出视频格式转…

【教程】Windows安全中心扫描设置排除文件

转载请注明出处&#xff1a;小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你&#xff0c;欢迎[点赞、收藏、关注]哦~ 目录 背景说明 解决方法 背景说明 即使已经把实时防护等设置全都关了&#xff0c;但Windows还是会不定时给你扫描&#xff0c;然后把风险软件给删了…

OPenCV CUDA模块立体匹配------对立体匹配生成的视差图进行双边滤波处理类cv::cuda::DisparityBilateralFilter

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 cv::cuda::DisparityBilateralFilter 是 OpenCV CUDA 模块中的一个类&#xff0c;用于对立体匹配生成的视差图进行双边滤波处理。这种滤波方法可…

自然语言处理期末复习

自然语言处理期末复习 一单元 自然语言处理基础 两个核心任务&#xff1a; 自然语言理解&#xff08;NLU, Natural Language Understanding&#xff09; 让计算机“读懂”人类语言&#xff0c;理解文本的语义、结构和意图。 典型子任务包括&#xff1a;分词、词性标注、句法分…

黄仁勋在2025年巴黎VivaTech大会上的GTC演讲:AI工厂驱动的工业革命(上)

引言 2025年6月12日,在巴黎VivaTech大会上,英伟达创始人兼CEO黄仁勋发表了题为"AI工厂驱动的工业革命"的GTC主题演讲。这场持续约1小时35分钟的演讲不仅详细阐述了英伟达在AI基础设施、智能体技术、量子计算及机器人领域的最新突破,更系统性地勾勒出了人工智能如…