qwen大模型在进行词嵌入向量时,针对的词表中的唯一数字还是其他的?
Qwen大模型进行词嵌入向量时,针对的是词表中每个 Token 对应的唯一数字(Token ID) ,核心逻辑结合词表构建、嵌入过程展开
一、Qwen 词表与 Token ID
Qwen 用 BPE 分词器(基于 tiktoken,以 cl100k 为基础词库扩展 ),会把文本拆成一个个 Token(如中文、英文、数字、特殊符号的子词/字符 ),每个 Token 对应唯一数字编号(Token ID) ,存于 vocab.json 这类词表文件。
比如:
- 英文 “Q” 可能对应 Token ID
123 - 中文 “模” 可能对应 Token ID
4567 - 数字 “1” 可能对应 Token ID
89 - 特殊符号
Ġ(空格的特殊编码 )可能对应 Token ID0
词表本质是 {Tok