没有合适的资源?快使用搜索试试~ 我知道了~
self_attention_schematic.pdf
需积分: 0 0 下载量 157 浏览量
2021-12-20
10:21:37
上传
评论
收藏 62KB PDF 举报
温馨提示
试读
1页
self_attention_schematic.pdf
资源详情
资源评论
资源推荐
bs, seqlen, dmodel
bs, seqlen, 512
linear(dmodel)
bs, seqlen, 512 bs, seqlen, 512
linear(dmodel) linear(dmodel)
bs, seqlen, h, dk
view
bs, seqlen, h, dk
view
bs, seqlen, h, dk
view
bs, h, seqlen, dk
transpose(1, 2)
bs, h, seqlen, dk
transpose(1, 2)
bs, h, seqlen, dk
transpose(1, 2)
matmul
Q K V
transpose(-1, -2)
bs, h, dk, seqlen
bs, h, seqlen, seqlen
scale by 1/sqrt(k)
bs, h, seqlen, seqlen
softmax(dim=-1)
matmul
scalar multiply
*
=
sum the results up
bs, h, seqlen, dk
bs, seqlen, h, dk
bs, seqlen, h * dk
bs, seqlen, dmodel
transpose(1, 2)
view
linear(dmodel, dmodel)
Input
Output
Attention Weights
mask (optional)
Detailed Schematic of a Self-attention Layer
dropout (optional)
weixin_40838991
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0