# mnist-vit
vision transformer on mnist dataset
基于mnist手写数字集训练的vision transformer模型,用作学习用途,只能预测0~9
## 模型
1x28x28图片输入,对每个1x4x4区域做conv转成16宽向量,整个图片变为7x7=49个16宽patch向量.
* 所有patch向量做linear转patch embedding
* cls embeeding可学习,直接拼到patch embedding序列头部
**vision transformer**
![](vit.png)
## 训练
python train.py
稍微训练一会,loss基本收敛到如下水平:
```
epoch:0 iter:0,loss:0.025252344086766243
```
## 推理
python inference.py
```
正确分类: 5
预测分类: 5
```
![](5.png)
没有合适的资源?快使用搜索试试~ 我知道了~
ViT-基于MNIST手写数字识别数据集训练Vision-Transformer模型-简单易上手-优质项目实战.zip
共7个文件
py:4个
png:2个
md:1个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 139 浏览量
2024-10-21
06:23:07
上传
评论
收藏 67KB ZIP 举报
温馨提示
ViT_基于MNIST手写数字识别数据集训练Vision-Transformer模型_简单易上手_优质项目实战
资源推荐
资源详情
资源评论
收起资源包目录
ViT_基于MNIST手写数字识别数据集训练Vision-Transformer模型_简单易上手_优质项目实战.zip (7个子文件)
ViT_基于MNIST手写数字识别数据集训练Vision-Transformer模型_简单易上手_优质项目实战
vit.py 2KB
dataset.py 727B
vit.png 56KB
inference.py 545B
5.png 8KB
train.py 1KB
README.md 648B
共 7 条
- 1
资源评论
__AtYou__
- 粉丝: 3505
- 资源: 2172
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功