ViT-基于MNIST手写数字识别数据集训练Vision-Transformer模型-简单易上手-优质项目实战.zip

共7个文件

py：4个

png：2个

md：1个

1.该资源内容由用户上传，如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款（资源遇到问题，请及时私信上传者）

版权申诉

transformer

手写数字识别

优质项目

0 下载量 139 浏览量 2024-10-21 06:23:07 上传评论收藏 67KB ZIP 举报

温馨提示

ViT_基于MNIST手写数字识别数据集训练Vision-Transformer模型_简单易上手_优质项目实战

资源推荐

资源详情

资源评论

收起资源包目录

ViT_基于MNIST手写数字识别数据集训练Vision-Transformer模型_简单易上手_优质项目实战.zip （7个子文件）

ViT_基于MNIST手写数字识别数据集训练Vision-Transformer模型_简单易上手_优质项目实战

vit.py 2KB

dataset.py 727B

vit.png 56KB

inference.py 545B

5.png 8KB

train.py 1KB

README.md 648B

共 7 条

# mnist-vit vision transformer on mnist dataset 基于mnist手写数字集训练的vision transformer模型，用作学习用途，只能预测0~9 ## 模型 1x28x28图片输入，对每个1x4x4区域做conv转成16宽向量，整个图片变为7x7=49个16宽patch向量. * 所有patch向量做linear转patch embedding * cls embeeding可学习，直接拼到patch embedding序列头部 **vision transformer** ![](vit.png) ## 训练 python train.py 稍微训练一会，loss基本收敛到如下水平： ``` epoch:0 iter:0,loss:0.025252344086766243 ``` ## 推理 python inference.py ``` 正确分类: 5 预测分类: 5 ``` ![](5.png)

评论收藏

内容反馈

1.该资源内容由用户上传，如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款（资源遇到问题，请及时私信上传者）

版权申诉