Transformer
谷歌提出,一组编码-解码器
可以同时处理,通过位置编码来处理单词
实质是token词语接龙(只是有不同的概率)
token对应向量
Transformer简述

文生图就需要用到transformer黑箱

token


内部层次
中间主要是embedding matrix嵌入矩阵、attention注意力模块、multilayer perception多层感知机(MLP)

attention注意力模块内部是互相交流的、multilayer perception多层感知机(MLP)内部是并行不交流的




本质就是线性代数





实质通过矩阵运算
有不同的矩阵
嵌入矩阵



如何推测的举例:1、男人之于女人≈国王之于王后

如何推测的举例:2、妈妈之于爸爸≈ 女人之于男人
3、希特勒+意大利-德国≈ 墨索里尼(从轴心国领导人/意大利两个角度找到)
4、寿司+德国-日本≈ 油煎香肠




点积是表达两个向量是否相近的方式,通过运算结果正负判断



![]()


context size就是一次处理向量的数量

所以当context size较少时,gpt会出现遗忘了之前说的

解嵌入矩阵




softmax





补充:另一个transformer介绍,不是很生动。所以只看了开头。




