前言

先看下Qwen3-Embedding 的表现,在好几个实际应用测试中都排到了行业最前面!

  • 尤其是它那个 8B 大小的版本,在最新的多语言榜单(MTEB)上直接拿了第一名(截止到 2025 年 6 月 6 日,得分 70.58),比很多收费的商业服务还要强!
  • 另外,这个系列的“排序”模型也特别给力,在各种需要查找文本的场景里效果都特别好,让搜出来的结果更准、更相关了

模型又更新了!阿里发布Qwen3-Embedding系列模型_大模型学习

模型又更新了!阿里发布Qwen3-Embedding系列模型_人工智能_02

而且还有其他的特性:

Qwen3-Embedding 系列设计得超级灵活!

  • 多种尺寸,按需选择: 它提供了三种不同大小的模型(0.6B、中等大小、一直到最大的 8B),就像有小杯、中杯、超大杯一样。你可以根据自己需要的速度和效率来挑选最合适的那一个。
  • 模块自由组合,功能更强大: 开发者还能把它的“理解文本”(表征)和“给结果排序”这两个核心模块像搭积木一样灵活组合,实现更复杂的功能。

而且,它还支持你“私人定制”:

  1. 压缩数据,省时省力: 你可以调整它生成的文本“特征向量”的大小。需要小巧高效就调小点,能有效降低使用成本;需要更精细就调大点。想怎么调就怎么调!
  2. 教它“说你的话”: 支持你设定自己专属的“指令模板”。比如告诉它“用医疗术语回答”或者“优先考虑中文结果”,这样它在处理你关心的特定任务、语言或场景时,表现就会更出色。

全球语言通吃:

  • 这个系列厉害的地方是,它精通超过 100 种语言!不管是日常用的主流语言,还是程序员写的各种代码语言,它都能搞定。

  • 它特别擅长在多语言环境下工作,无论是处理单一语言的资料,还是跨越不同语言查找信息(比如用中文搜英文内容),甚至是在一堆代码里找片段,它都能高效、准确地帮你把需要的数据找出来。

发布的模型,包括有下面具体的模型:

模型又更新了!阿里发布Qwen3-Embedding系列模型_embedding_03

模型架构:

基于Qwen3基础模型,Embedding模型和Reranker模型分别采用了双塔结构和单塔结构的设计。通过LoRA微调,我们最大限度地保留并继承了基础模型的文本理解能力。

模型又更新了!阿里发布Qwen3-Embedding系列模型_大模型入门_04

该系列模型已在 HuggingFace、ModelScope 和 GitHub 平台开源。

Hugging Face:

  • https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea
  • https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f

GitHub:

  • https://github.com/QwenLM/Qwen3-Embedding

而且现在可以在阿里百炼平台进行体验了!我们可以耍起来!

模型又更新了!阿里发布Qwen3-Embedding系列模型_人工智能_05