一文搞懂Transformer架构中的注意力机制QVK到底计算了什么？零基础小白收藏这一篇就够了！！

一文搞懂Transformer架构中的注意力机制QVK到底计算了什么？零基础小白收藏这一篇就够了！！

bicheng/2025/9/29 0:02:35/文章来源:href="https://blog.51cto.com/u_16163453/14125214" target="_blank"

前言

在Transformer架构主导的现代大模型中，QKV（Query、Key、Value）是注意力机制的核心组成部分。它们看似简单的线性变换与点积运算，实际上承载着模型对输入信息的动态筛选与关联建模。本文将从计算逻辑和数据存储逻辑方面，深入解析QKV的运作原理。

一、QKV的数学本质：从输入到特征空间的映射

1. 输入嵌入的线性变换

在Transformer中，每个输入token首先通过嵌入层转化为高维向量（如768维）。QKV的初始形态均来源于这些嵌入向量：

Query（查询） ：通过可学习的权重矩阵

一文搞懂Transformer架构中的注意力机制QVK到底计算了什么？零基础小白收藏这一篇就够了！！_#人工智能

，将输入映射到查询空间 Q=X * Wq
Key（键） ：通过权重矩阵

一文搞懂Transformer架构中的注意力机制QVK到底计算了什么？零基础小白收藏这一篇就够了！！_#架构_02

生成：K = X* Wk
Value（值） ：通过权重矩阵

一文搞懂Transformer架构中的注意力机制QVK到底计算了什么？零基础小白收藏这一篇就够了！！_#深度学习_03

生成 : V = X * W

这里肯定有读者会疑惑，QKV到底存的是什么？

其实还是用户输入的内容，假设用户输入 X = never give up

一文搞懂Transformer架构中的注意力机制QVK到底计算了什么？零基础小白收藏这一篇就够了！！_#深度学习_04

Wq 保存的就是用户当前输入的内容 never give up，图片缩减了维度，真实情况是，有上万个列（维度），每一个列保存的都是nerver单词在各种环境下的语义信息。

Wk 保存的是也是 never give up，也有上万个维度，只不过保存的是匹配 never give up 词汇的上下文语境含义，比如:

Wq( never give up)-> Wk(I have a dream)

Wv 没有什么含义，可以理解为简单把 never give up 变成词汇矩阵。

没错，大模型就是通过这样的暴力计算，得到了上下文的语义信息，QKV矩阵保存的语义信息，最初是初始化生成的，然后通过多轮训练，就会生成准确的语义信息。

维度解析：假设输入维度
=768，通常设置
。这种降维操作既减少计算量，又通过多头机制（Multi-Head）恢复表达能力。

2. 注意力分数的生成

QKV的核心交互通过点积实现，其计算流程如下：

一文搞懂Transformer架构中的注意力机制QVK到底计算了什么？零基础小白收藏这一篇就够了！！_#人工智能_07

相似度度量：
Attention Score=

一文搞懂Transformer架构中的注意力机制QVK到底计算了什么？零基础小白收藏这一篇就够了！！_#transformer_08

其中每个元素

一文搞懂Transformer架构中的注意力机制QVK到底计算了什么？零基础小白收藏这一篇就够了！！_#深度学习_09

表示第i个token对第j个token的关注强度。
概率化处理：
通过Softmax将分数归一化为概率分布：

一文搞懂Transformer架构中的注意力机制QVK到底计算了什么？零基础小白收藏这一篇就够了！！_#人工智能_10

，这一步是为了将数字转为0到1的概率数字，减少计算量和概率偏差（极大或极小值）
信息加权聚合：

一文搞懂Transformer架构中的注意力机制QVK到底计算了什么？零基础小白收藏这一篇就够了！！_#大模型入门_11

每个输出向量是Value矩阵的加权和，权重由Query与Key的相似度决定，这个加权计算过的V其实就是我们需要的注意力分数

什么是注意力分数？QKV经过计算后，需要选择出一个概率最大的词汇最为输出，这个得分就是注意力分数，得分越高，就会输出哪些词汇。
为什么要做矩阵的转置相乘？ 注意力计算本质是要获得一个矩阵，我们知道，Wq代表用户输入，Wk代表匹配用户输入，这两个如果直接相成是没有含义的，如果把Wk转置，就会生成一个行、列都是用户输入的语境矩阵，得到一个注意力分数。

二、QKV的变体与优化

1. 多头注意力（Multi-Head Attention）

通过并行多组QKV投影，模型能够：

捕捉不同特征空间的关联（如语法与语义）
增强鲁棒性（避免单点失效）

2. 稀疏注意力

为应对长序列计算瓶颈，衍生出：

局部注意力（Local Attention）
分块稀疏（Sparse Transformers）
线性化注意力（如Performer）

一文搞懂Transformer架构中的注意力机制QVK到底计算了什么？零基础小白收藏这一篇就够了！！_#架构_13

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.tpcf.cn/bicheng/93305.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【AI大模型搭建】6步闭环，从0到1搭建个人知识库：打造你的“第二大脑”，建议收藏！！

【AI大模型搭建】6步闭环，从0到1搭建个人知识库：打造你的“第二大脑”，建议收藏！！

前言近一年的实践，我最大的体验是，一个well-organized的知识库，不仅能帮我们管理知识，还能高效支撑工作、学习、生活。这篇文章，我想详细分享自己在搭建个人知识库方面的心得和方法。包含三部分内容：一、为什么要搭建个人知识库？二、搭建个人知识库的步骤（6步闭环）三、…

阅读更多...

全网疯传GPT-5泄露！首次统一GPT和o系列，编程实测demo抢先曝光，下周发布？

全网疯传GPT-5泄露！首次统一GPT和o系列，编程实测demo抢先曝光，下周发布？

前言GPT-5这回是真的要来了。现在，全网都在“偶遇”GPT-5。不仅是ChatGPT上有踪迹：而且在MacOS应用的模型列表中也发现了GPT-5。还有Cursor、微软Copilot以及OpenAI API平台上，也都被网友捉到已经悄悄接入/测试GPT-5。这一大波泄露，大家对GPT-5的热情和好奇再次被重新拉回高…

阅读更多...

那个MySQL大事务比你稳定，主从延迟低，为什么？ Look my eyes! 因为宋利兵宋老师

那个MySQL大事务比你稳定，主从延迟低，为什么？ Look my eyes! 因为宋利兵宋老师

上篇关于MySQL BUG多不靠谱的问题，吸引了1000多的读者，有读者私信咋办，公司就要用MySQL也切不到PostgreSQL上，可MySQL bug多指望ORACLE是没戏了，怎么才能用上靠谱的MySQL.今天咱们继续还是阿里云的宋利兵，宋老师解决了一个MySQL存在的大事务问题，今天我们来详细说说。说…

阅读更多...

【小白教程】一文讲清大模型数据分析和长文本处理两个重点应用方向，建议收藏！！

【小白教程】一文讲清大模型数据分析和长文本处理两个重点应用方向，建议收藏！！

前言“ 数据分析和长文本处理是大模型在企业应用中的两个最有价值，也最具落地场景的技术方向。”随着大模型技术和应用的不断发展，大模型应用场景不但越来越丰富，而且也越来越深化；但有两个应用场景可以说是现在2B场景中的重点场景——数据分析和长文本处理。在信息时代，数…

阅读更多...

Rider 2025.1 安装+激活教程全流程！.NET 开发者必看

Rider 2025.1 安装+激活教程全流程！.NET 开发者必看

JetBrains Rider 2025.1 是 JetBrains 公司推出的一款强大的跨平台 .NET 集成开发环境（IDE），专为 C#、VB.NET、ASP.NET、Xamarin、Unity 等技术栈打造，适用于 Windows、macOS 和 Linux 系统。名称：JetBrains Rider 2025.1类型：.NET 专用 IDE平台支持：Windows / macOS / …

阅读更多...

Rider 2025.1 安装+激活教程全流程！.NET 开发者必看

Rider 2025.1 安装+激活教程全流程！.NET 开发者必看

JetBrains Rider 2025.1 是 JetBrains 公司推出的一款强大的跨平台 .NET 集成开发环境（IDE），专为 C#、VB.NET、ASP.NET、Xamarin、Unity 等技术栈打造，适用于 Windows、macOS 和 Linux 系统。名称：JetBrains Rider 2025.1类型：.NET 专用 IDE平台支持：Windows / macOS / …

阅读更多...

【AI大模型】结合实际项目经验，梳理大模型落地分层技术体系：LLM＜RAG＜AI Agent＜Training

【AI大模型】结合实际项目经验，梳理大模型落地分层技术体系：LLM＜RAG＜AI Agent＜Training

前言AI领域每隔一段时间都有新的概念和技术出来：年初DeepSeek火热带动深度推理模型，五一前阿里推出的Qwen3就升级为混合推理模型；3月份manus展示号称全球首款通用型智能体，到现在OpenAI和阿里也都有类似的通用Agent；Anthropic去年11月提出MCP标准，今年逐渐得到各大厂商的…

阅读更多...

140页满分PPT | 大型制造业IT蓝图规划及实施路线

140页满分PPT | 大型制造业IT蓝图规划及实施路线

很多制造公司以前只装了财务软件、邮件、简单研发工具，数据各管各的，零件号、车型规格不统一，研发、采购、生产、销售互相找不到最新资料，常常重复建BOM，版本乱，导致改图、改工艺、改订单都要反复确认，周期长，库存高，成本高，客户交期难保。方案内容本方案的核心目标是…

阅读更多...

工业互联网与智能制造：从骨感现实到性感应用，路有多远？

工业互联网与智能制造：从骨感现实到性感应用，路有多远？

01 工业互联网的三大“骨感现实”1.1 数据有了，但80%是“暗数据”PPT原话：80%工厂数据是非结构化的视频、日志、声音。骨感真相：大部分企业连“数据目录”都没有。某头部汽车厂，3年攒了2PB设备日志，没人知道哪些字段有用。最后只能“拍脑袋”删库，硬盘省了几百万，机会成…

阅读更多...

基于CP2K的沸石吸附小分子的结构优化

基于CP2K的沸石吸附小分子的结构优化

关键词：CP2K；沸石；小分子吸附；结构优化沸石（Zeolite）是一类含铝硅酸盐微孔材料，兼具可调孔径、大比表面积与优异热稳定性，在离子交换、吸附分离及催化等工业领域占据重要地位。目前已鉴定出 200 余种不同的沸石骨架类型。在其晶体结构中，若四面体 SiO₄ 单元中的 Si 被…

阅读更多...

openai-python v1.98.0版本更新详解：功能新增、参数优化与多模态支持全面解析

openai-python v1.98.0版本更新详解：功能新增、参数优化与多模态支持全面解析

一、前言随着人工智能技术的快速发展，OpenAI的Python客户端库不断迭代升级，以满足开发者不断增长的需求。近期发布的openai-python v1.98.0版本为开发者带来诸多新特性和优化，特别是在API手动更新、多模态内容支持以及请求安全管理等方面进行了增强与完善。本文将基于官方发…

阅读更多...

在 Debian 系统上安装 Redis服务

在 Debian 系统上安装 Redis服务

在 Debian 系统上安装 Redis方法 1：通过 APT 安装（推荐，简单稳定）Debian 官方仓库提供了 Redis 软件包，适合大多数用户：# 1. 更新软件包列表 sudo apt update# 2. 安装 Redis sudo apt install redis-server# 3. 启动 Redis 服务 sudo systemctl start redis-server# 4. …

阅读更多...

内存取证不用愁！LovelyMem 可视化工具，小白也能轻松上手

内存取证不用愁！LovelyMem 可视化工具，小白也能轻松上手

0x01 工具简介LovelyMem是由Tokeii0师傅开发的一款基于 MemProcFS、Volatility2、Volatility3 的快捷内存取证工具。LovelyMem 提供了更快的取证速度和更便捷的功能：工具集成：集成了 MemProcFS、Volatility2、Volatility3 等多种内存取证工具。快速检查：提供常用取证功能的快…

阅读更多...

Spring系列之Spring AI入门

Spring系列之Spring AI入门

概述GitHub，官网，目前最新版是1.0.1。功能：跨AI提供商的可移植API：用于聊天、文本到图像和嵌入模型。支持同步和流API选项。还支持下拉访问模型特定功能。跨Vector Store提供商的可移植API，包括同样可移植的新颖的类似SQL的元数据过滤器API。支持8个矢量数据库函数调用。S…

阅读更多...

深夜炸弹，OpenAI官宣GPT-5！免费开放，人人可用，AI圈天变了！

深夜炸弹，OpenAI官宣GPT-5！免费开放，人人可用，AI圈天变了！

家人们，深夜炸弹！OpenAI毫无预警地直接放出了GPT-5！是的，你没看错，那个我们以为还要等上半年的超级AI，现在就能用了！这次发布会，简直就是科技圈的春晚。我熬夜看完了整场，这么说吧：AI的时代，又被OpenAI亲手翻开了新的一页。接下来，我给大家扒一扒，这个GPT-5，到底…

阅读更多...

Spring系列之Spring AI入门

Spring系列之Spring AI入门

概述GitHub，官网，目前最新版是1.0.1。功能：跨AI提供商的可移植API：用于聊天、文本到图像和嵌入模型。支持同步和流API选项。还支持下拉访问模型特定功能。跨Vector Store提供商的可移植API，包括同样可移植的新颖的类似SQL的元数据过滤器API。支持8个矢量数据库函数调用。S…

阅读更多...

图解MySQL日志篇

图解MySQL日志篇

前言围绕undo log、redo log、binlog有什么用展开。相比select语句，执行一条update语句会涉及到undo log（回滚日志）、redo log（重做日志）、binlog（归档日志）这三种日志：undo log（回滚日志）：是InnoDB存储引擎层生成的日志，实现了事务的原子性，主要用于事务回滚和MV…

阅读更多...

图解MySQL基础篇

图解MySQL基础篇

（1）执行一条select语句，期间发生了什么？连接器：建立连接，管理连接、校验用户身份；查询缓存：查询语句如果命中查询缓存则直接返回，否则继续往下执行。MySQL8.0已删除该模块；解析SQL：通过解析器对SQL查询语句进行词法分析、语法分析，然后构建语法树，方便后续模块读取…

阅读更多...

docker compose 部署 Magic 麦吉

docker compose 部署 Magic 麦吉

快速开始支持 macOS 和 Linux 操作系统。Windows 系统可以通过 docker compose 运行1. 克隆项目git clone https://github.com/dtyq/magic.git cd magic2. 配置环境变量配置 Magic 环境变量，必须配置任意一种大模型的环境变量才可正常使用 Magic。复制 .env.example 文件为 .e…

阅读更多...

Gitee在DevOps平台选型中的功能评估与适用性探讨

Gitee在DevOps平台选型中的功能评估与适用性探讨

Gitee：本土化DevOps平台如何助力中国企业高效协作在数字化转型浪潮中，软件开发效能已成为企业核心竞争力之一。随着企业对敏捷开发和持续交付需求的快速增长，DevOps工具链的选择成为技术决策的关键环节。作为国内领先的一站式DevOps平台，Gitee凭借其本土化优势和全流程支持…

阅读更多...

最新文章