# DeepSpeech2 语音识别
本项目使用的环境:
- Python 3.7
- PaddlePaddle 2.2.0
- Windows or Ubuntu
## 更新记录
- 2021.11.26: 修改集束解码bug。
- 2021.11.09: 提供WenetSpeech数据集制作脚本。
- 2021.09.05: 提供GUI界面识别部署。
- 2021.09.04: 提供三个公开数据的预训练模型。
- 2021.08.30: 支持中文数字转阿拉伯数字,具体请看[预测文档](./docs/infer.md)。
- 2021.08.29: 完成训练代码和预测代码,同时完善相关文档。
- 2021.08.07: 支持导出预测模型,使用预测模型进行推理。使用webrtcvad工具,实现长语音识别。
- 2021.08.06: 将项目大部分的代码修改为PaddlePaddle2.0之后的新API。
## 模型下载
| 数据集 | 卷积层数量 | 循环神经网络的数量 | 循环神经网络的大小 | 测试集字错率 | 下载地址 |
| :---: | :---: | :---: | :---: | :---: | :---: |
| aishell(179小时) | 2 | 3 | 1024 | 0.084532 | [点击下载](https://download.csdn.net/download/qq_33200967/21773253) |
| free_st_chinese_mandarin_corpus(109小时) | 2 | 3 | 1024 | 0.170260 | [点击下载](https://download.csdn.net/download/qq_33200967/21866900) |
| thchs_30(34小时) | 2 | 3 | 1024 | 0.026838 | [点击下载](https://download.csdn.net/download/qq_33200967/21774247) |
**说明:** 这里提供的是训练参数,如果要用于预测,还需要执行[导出模型](./docs/export_model.md),使用的解码方法是集束搜索。
>有问题欢迎提 [issue](https://github.com/yeyupiaoling/PaddlePaddle-DeepSpeech/issues) 交流
## 文档教程
- [快速安装](./docs/install.md)
- [数据准备](./docs/dataset.md)
- [WenetSpeech数据集](./docs/wenetspeech.md)
- [合成语音数据](./docs/generate_audio.md)
- [数据增强](./docs/augment.md)
- [训练模型](./docs/train.md)
- [集束搜索解码](./docs/beam_search.md)
- [执行评估](./docs/eval.md)
- [导出模型](./docs/export_model.md)
- 预测
- [本地模型](./docs/infer.md)
- [长语音模型](./docs/infer.md)
- [Web部署模型](./docs/infer.md)
- [Nvidia Jetson部署](./docs/nvidia-jetson.md)
## 快速预测
- 下载作者提供的模型或者训练模型,然后执行[导出模型](./docs/export_model.md),使用`infer_path.py`预测音频,通过参数`--wav_path`指定需要预测的音频路径,完成语音识别,详情请查看[模型部署](./docs/infer.md)。
```shell script
python infer_path.py --wav_path=./dataset/test.wav
```
输出结果:
```
----------- Configuration Arguments -----------
alpha: 1.2
beam_size: 10
beta: 0.35
cutoff_prob: 1.0
cutoff_top_n: 40
decoding_method: ctc_greedy
enable_mkldnn: False
is_long_audio: False
lang_model_path: ./lm/zh_giga.no_cna_cmn.prune01244.klm
mean_std_path: ./dataset/mean_std.npz
model_dir: ./models/infer/
to_an: True
use_gpu: True
use_tensorrt: False
vocab_path: ./dataset/zh_vocab.txt
wav_path: ./dataset/test.wav
------------------------------------------------
消耗时间:132, 识别结果: 近几年不但我用书给女儿儿压岁也劝说亲朋不要给女儿压岁钱而改送压岁书, 得分: 94
```
- 长语音预测
```shell script
python infer_path.py --wav_path=./dataset/test_vad.wav --is_long_audio=True
```
- Web部署
![录音测试页面](./docs/images/infer_server.jpg)
- GUI界面部署
![GUI界面](./docs/images/infer_gui.jpg)
没有合适的资源?快使用搜索试试~ 我知道了~
基于PaddlePaddle实现的中文语音识别项目源代码+使用说明文档,支持Windows,Linux下训练和预测
共91个文件
py:50个
pyc:13个
md:13个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
5星 · 超过95%的资源 1 下载量 25 浏览量
2023-08-25
10:49:42
上传
评论
收藏 3.37MB ZIP 举报
温馨提示
基于PaddlePaddle实现的语音识别,中文语音识别。项目完善,识别效果好。支持Windows,Linux下训练和预测,支持Nvidia Jetson开发板预测 本项目使用的环境: Python 3.7 PaddlePaddle 2.2.0 Windows or Ubuntu
资源推荐
资源详情
资源评论
收起资源包目录
PaddlePaddle-DeepSpeech-master.zip (91个子文件)
PaddlePaddle-DeepSpeech-master
tools
generate_audio
generate_audio.py 7KB
generate_corpus.py 2KB
frontend.py 4KB
_init_paths.pyc 704B
tune.py 7KB
create_wenetspeech_data.py 4KB
eval.py 6KB
export_model.py 2KB
create_data.py 9KB
data_utils
__init__.py 0B
normalizer.py 5KB
augmentor
__init__.py 0B
base.pyc 2KB
augmentation.py 6KB
volume_perturb.pyc 2KB
speed_perturb.py 2KB
augmentation.pyc 5KB
noise_perturb.pyc 2KB
spec_augment.py 6KB
shift_perturb.pyc 2KB
shift_perturb.py 995B
resample.py 873B
speed_perturb.pyc 2KB
online_bayesian_normalization.pyc 2KB
noise_perturb.py 2KB
resample.pyc 2KB
__init__.pyc 140B
impulse_response.pyc 2KB
volume_perturb.py 1KB
base.py 935B
audio_process.py 2KB
speech.py 5KB
featurizer
__init__.py 0B
text_featurizer.py 2KB
audio_featurizer.py 4KB
speech_featurizer.py 3KB
utility.py 948B
data.py 13KB
audio.py 24KB
utils
__init__.py 0B
error_rate.py 6KB
audio_vad.py 5KB
predict.py 6KB
utility.py 2KB
__init__.pyc 125B
utility.pyc 2KB
decoders
__init__.py 0B
beam_search_decoder.py 3KB
swig_wrapper.py 4KB
ctc_greedy_decoder.py 2KB
dataset
test_vad.wav 3.5MB
test.wav 262KB
model_utils
__init__.py 0B
network.py 8KB
model.py 21KB
templates
index.html 6KB
docs
eval.md 1KB
beam_search.md 1KB
faq.md 985B
augment.md 2KB
dataset.md 3KB
wenetspeech.md 3KB
generate_audio.md 1KB
infer.md 6KB
train.md 4KB
install.md 3KB
images
wenetspeech.jpg 145KB
infer_server.jpg 32KB
infer_gui.jpg 32KB
export_model.md 773B
nvidia-jetson.md 2KB
infer_path.py 3KB
requirements.txt 270B
.gitignore 293B
infer_server.py 5KB
download_data
__init__.py 0B
utility.py 3KB
aishell.py 3KB
free_st_chinese_mandarin_corpus.py 2KB
thchs_30.py 2KB
noise.py 2KB
train.py 6KB
infer_gui.py 11KB
static
stop.png 3KB
recording.gif 4KB
record.png 5KB
player.png 2KB
record.js 8KB
index.css 2KB
conf
augmentation.json 1000B
README.md 3KB
共 91 条
- 1
资源评论
- juanjuan_0012024-03-23总算找到了想要的资源,搞定遇到的大问题,赞赞赞!
云哲-吉吉2021
- 粉丝: 4065
- 资源: 1128
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java源码ssm框架电影售票系统-毕业设计论文-期末大作业.rar
- MATLAB 距离变换源码
- 通信网理论基础:爱尔兰等待制系统的OMNeT++仿真
- Java源码ssm框架多人试卷批改考试命题系统-毕业设计论文-期末大作业.rar
- Java源码ssm框架多用户个人博客网站-毕业设计论文-期末大作业.rar
- Java源码ssm框架高校二手交易系统-毕业设计论文-期末大作业.rar
- Java源码ssm框架汽车在线销售系统-毕业设计论文-期末大作业.rar
- Java源码ssm框架旅游景点线路网站-毕业设计论文-期末大作业.rar
- Java源码ssm框架抗疫医疗用品销售系统-毕业设计论文-期末大作业.rar
- Java源码ssm框架人事员工考勤签到请假管理系统-毕业设计论文-期末大作业.rar
- Java源码ssm框架人事工资管理系统-毕业设计论文-期末大作业.rar
- Java源码ssm框架沙县小吃门店连锁点餐订餐系统-毕业设计论文-期末大作业.rar
- Java源码ssm框架社区生活超市进销存购物商城管理-毕业设计论文-期末大作业.rar
- Java源码ssm框架四六级英语报名系统-毕业设计论文-期末大作业.rar
- Java源码ssm框架水果销售网站-毕业设计论文-期末大作业.rar
- 多路径传播下基于Matlab的无源雷达数据分析及其运动物体监测
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功