【提示学习论文】TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model

【提示学习论文】TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model

diannao/2025/11/7 7:34:42/文章来源:https://blog.csdn.net/weixin_51293984/article/details/138866110

TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model（CVPR2024）

基于文本的类感知提示调优的VLM
KgCoOp为baseline，进行改进，把 $w_{clip}$ 进行投影，然后与Learnable prompts进行结合。

Abstract

近年来，通过可学习的域共享或图像条件的文本tokens，促进生成适用于特定任务的分类器

问题：
这些textual tokens对unseen域具有有限的泛化能力，不能动态地适应测试类的分布

解决：
提出了新的基于文本的类感知提示调优（TCP，Textual-based Class-aware Prompt）。显式地结合关于类的先验知识，增强它们的可辨别性。利用文本知识嵌入（TKE），映射高泛化性的类级文本知识，到类感知文本tokens。通过无缝地将这些类感知提示集成到Text Encoder中，可以生成一个动态的类感知分类器，以增强对不可见域的可辨别性。
推断阶段，TKE动态地生成与unseen类相关的类感知提示，可作为即插即用的模型与现有方法轻松结合。

1 Introduction

图像条件文tokens封装了每个图像的特定知识，特别是测试图像，从而更容易泛化到unseen类。

3 方法

TKE将一般类级的textual embedding转化成类感知提示，然后与Learnable tokens 结合。

3.2 基于文本的类感知提示提示调优

TKE：投影class-level embedding $W^{clip}$ ，得到class-aware prompt T
![[TCPg2.png]]

![[TCPg3.png]]

![[TCPg4.png]]

![[TCPg1.png]]

TKE包括两层

下投影层
使用权重 $W_{down}$ 将 $W^{clip}$ 其投成低维特征
上投影层
使用权重 $W_{up}$ 将 $W^{dwon}$ 其投成高维特征
得到
![[TCPg5.png]]
再重塑成
![[TCPg6.png]]
插入到文本编码器的中间层

4 实验

作者将其分为tp、vp、dtp、dvp，比较了近年来的方法
在这里插入图片描述

消融实验

Prompt长度：M=8最好
不同模板的效果：可学习prompt最好
Dmid的作用：128时效果最好
类感知prompt拼接到哪：第8层最好

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.tpcf.cn/diannao/12496.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

树莓派|角速度和加速度传感器

树莓派|角速度和加速度传感器

角速度传感器和加速度传感器是常见的惯性传感器，常用于测量物体的旋转和线性运动。角速度传感器（Gyroscope）用于测量物体绕三个轴（X、Y、Z）的旋转速度或角速度。它可以提供关于物体在空间中的旋转方向和角度变化的信…

阅读更多...

时光知识付费系统,如何制定适合自己的课程？该如何做？

时光知识付费系统,如何制定适合自己的课程？该如何做？

在线教育平台的网课非常多，而且课程之间的相似度非常高，不同是教的老师不同。很多人在制定课程的时候，通常都是被广告吸引的，之后发现课程不是自己想要的，并不适合自己。想要制定适合自己的课程，首先要清楚…

阅读更多...

计算机视觉与深度学习实战：以Python为工具，基于特征匹配的英文印刷字符识别

计算机视觉与深度学习实战：以Python为工具，基于特征匹配的英文印刷字符识别

注意：本文的下载教程，与以下文章的思路有相同点，也有不同点，最终目标只是让读者从多维度去熟练掌握本知识点。下载教程：计算机视觉与深度学习实战-以MATLAB和Python为工具_基于特征匹配的英文印刷字符识别_项目开发案例教程.pdf 一、引言随着人工智能技术的飞速发展，计…

阅读更多...

用爬虫解决问题

用爬虫解决问题

使用爬虫解决问题是一个常见的技术手段，特别是在需要自动化获取和处理大量网页数据的情况下。以下是一个详细的步骤说明，包括如何使用 Python 和常用的爬虫库（如 requests 和 BeautifulSoup）来构建一个简单的爬虫，解决…

阅读更多...

matlab二次插值函数 interp2

matlab二次插值函数 interp2

在MATLAB中，interp2函数用于执行二维插值操作。该函数可以接受多种不同的插值方法，其中包括linear（线性插值）和nearest（最临近插值）。这两种插值方法的插值结果存在明显的差异。 linear（线性插值…

阅读更多...

引用存储复制属性

引用存储复制属性

当执行 this.tableDataSim.push(this.simForm) 时，将 this.simForm 对象添加到 this.tableDataSim 数组中。如果 this.simForm 是一个对象，并且 this.tableDataSim 数组中之前的对象是通过引用方式存储的，那么之前的对象会被改变，…

阅读更多...

使用 Python 和机器学习预测股票涨跌幅

使用 Python 和机器学习预测股票涨跌幅

使用 Tushare API 获取深圳股市历史数据引言这篇文章将会演示如何使用 Tushare Pro API 获取深圳股市的历史交易数据，并将数据保存到CSV文件中。Tushare 是一款提供实时和历史金融市场的数据服务，支持多种语言，具有丰富的数据源和强大的功…

阅读更多...

PXI/PXIe规格1553B总线测试模块

PXI/PXIe规格1553B总线测试模块

面向GJB5186测试专门开发的1553B总线适配卡，支持4Mbps和1Mbps总线速率。该产品提供2个双冗余1553B通道、1个测试专用通道、2个线缆测试通道。新一代的TM53x板卡除了支持耦合方式可编程、总线信号幅值可编程、共模电压注入、总线信号波形采集等功能外，又新…

阅读更多...

Python专题：十三、日期和时间（2）

Python专题：十三、日期和时间（2）

datetime 模块 today()函数 date类型 year month day

阅读更多...

二分法的时间复杂度是logN

二分法的时间复杂度是logN

对数函数： （a>0, a≠1， x>0） 当αe时，记为yln x 当α10时，记为ylg x 当α2时，记为ylog x 其中x是自变量，函数的定义域是（0，∞），…

阅读更多...

【Flask框架】

【Flask框架】

6.Flask轻量型框架 6.1Flask简介 python提供的框架中已经写好了一个内置的服务器，服务器中的回应response行和头已经写好，我们只需要自己写显示在客户端，的主体body部分。 ---------------------------------------------------------- Fla…

阅读更多...

Blob数据类型

Blob数据类型

Blob（Binary Large Object）是一种二进制大对象的数据类型，用于存储大量的二进制数据，比如图片、视频、音频等。Blob对象通常用于处理从网络上获取的数据或者在浏览器中生成的数据，例如通过用户上传的文件、从服务器下载…

阅读更多...

Android Studio无法使用Google翻译问题记录

Android Studio无法使用Google翻译问题记录

背景其实关于Google翻译不能用的问题已经出现很久了，之前Google关掉了很多国内的一些Google服务，但是Google翻译还是能用的，直到不知什么时候起，Google翻译也不能用呢。每次换电脑安装完AS后第一件事就是下载插件 Settings-Pl…

阅读更多...

探索智慧生活：百度Comate引领人工智能助手新潮流

探索智慧生活：百度Comate引领人工智能助手新潮流

文章目录百度Comate介绍1. 什么是百度Comate？主要特点 2. Comate的核心功能智能问答功能语音识别功能语音助手功能个性化服务 3. Comate 支持哪些语言？ 使用教程(以vscode为例)1. 下载和安装Comate3. 常用操作快捷键(windows) 使用体验自然语言生成代码…

阅读更多...

Gitlab、Redis、Nacos、Apache Shiro、Gitlab、weblogic相关漏洞

Gitlab、Redis、Nacos、Apache Shiro、Gitlab、weblogic相关漏洞

文章目录一、Gitlab远程代码执行（CVE-2021-22205）二、Redis主从复制远程命令执行三、Nacos认证绕过漏洞（CVE-2021-29441）四、Apache Shiro认证绕过漏洞（CVE-2020-1957）五、Gitlab任意文件读取漏洞&#xf…

阅读更多...

3.TCP的三次握手和四次挥手

3.TCP的三次握手和四次挥手

一、前置知识 TCP是一种面向连接的、可靠的、基于字节流的传输层通信协议。在传输数据前通信双方必须建立连接（所谓连接，是指客户端和服务端各自保存一份关于对方的信息，比如ip地址，端口号等）。TCP通过三次握手建立一个…

阅读更多...

从零开始：C++ String类的模拟实现

从零开始：C++ String类的模拟实现

文章目录引言1.类的基本结构2.构造函数和析构函数3.基本成员函数总结引言在C编程中，字符串操作是非常常见且重要的任务。标准库中的std::string类提供了丰富且强大的功能，使得字符串处理变得相对简单。然而，对于学习C的开发者来说&#x…

阅读更多...

C语言----斐波那契数列（附源代码）

C语言----斐波那契数列（附源代码）

各位看官们好，当我写了上一篇博客杨辉三角后，有一些看官叫我讲一下斐波那契数列。对于这个大家应该是有了解的。最简单的规律就是f(n)f(n-2)f(n-1)。就是当前是前两项之和，然后下标1和0都是1.从第三项开始计算的。那么我们知道规律&#xff0…

阅读更多...

位图（c++）

位图（c++）

文章目录 1.位图概念2.位图的实现3.应用（解决整形存在或次数问题）3.1存在问题3.2次数问题 5.搜索的方法对比： 1.位图概念和哈希一样，都是一个表来记录某个元素的个数或者存在与否；不同的是哈希使用的计算机定义的完整…

阅读更多...

旅游卡创业的机会在哪里？

旅游卡创业的机会在哪里？

在当今社会，旅游已经成为了人们休闲娱乐的重要方式之一。随着经济的发展和人们生活水平的提高，越来越多的人开始追求更高品质的旅游体验。因此，旅游卡创业应运而生，为游客提供了更加便捷、实惠的旅游服务。那么，旅游…

阅读更多...

最新文章