# DeepSpeech2 语音识别
![License](https://img.shields.io/badge/license-Apache%202-red.svg)
![python version](https://img.shields.io/badge/python-3.7+-orange.svg)
![support os](https://img.shields.io/badge/os-linux-yellow.svg)
![GitHub Repo stars](https://img.shields.io/github/stars/yeyupiaoling/PaddlePaddle-DeepSpeech?style=social)
本项目是基于PaddlePaddle的[DeepSpeech](https://github.com/PaddlePaddle/DeepSpeech) 项目开发的,做了较大的修改,方便训练中文自定义数据集,同时也方便测试和使用。DeepSpeech2是基于PaddlePaddle实现的端到端自动语音识别(ASR)引擎,其论文为[《Baidu's Deep Speech 2 paper》](http://proceedings.mlr.press/v48/amodei16.pdf) ,本项目同时还支持各种数据增强方法,以适应不同的使用场景。支持在Windows,Linux下训练和预测,支持Nvidia Jetson等开发板推理预测,该分支为新版本,如果要使用旧版本,请查看[release/1.0分支](https://github.com/yeyupiaoling/PaddlePaddle-DeepSpeech/tree/release/1.0)。
**动态图版本使用更简单,支持Deepspeech2、Conformer、Squeezeformer模型:[PPASR](https://github.com/yeyupiaoling/PPASR)**
本项目使用的环境:
- Python 3.7
- PaddlePaddle 2.2.0
- Windows or Ubuntu
## 更新记录
- 2021.11.26: 修改集束解码bug。
- 2021.11.09: 提供WenetSpeech数据集制作脚本。
- 2021.09.05: 提供GUI界面识别部署。
- 2021.09.04: 提供三个公开数据的预训练模型。
- 2021.08.30: 支持中文数字转阿拉伯数字,具体请看[预测文档](./docs/infer.md)。
- 2021.08.29: 完成训练代码和预测代码,同时完善相关文档。
- 2021.08.07: 支持导出预测模型,使用预测模型进行推理。使用webrtcvad工具,实现长语音识别。
- 2021.08.06: 将项目大部分的代码修改为PaddlePaddle2.0之后的新API。
## 模型下载
| 数据集 | 卷积层数量 | 循环神经网络的数量 | 循环神经网络的大小 | 测试集字错率 | 下载地址 |
| :---: | :---: | :---: | :---: | :---: | :---: |
| aishell(179小时) | 2 | 3 | 1024 | 0.084532 | [点击下载](https://download.csdn.net/download/qq_33200967/21773253) |
| free_st_chinese_mandarin_corpus(109小时) | 2 | 3 | 1024 | 0.170260 | [点击下载](https://download.csdn.net/download/qq_33200967/21866900) |
| thchs_30(34小时) | 2 | 3 | 1024 | 0.026838 | [点击下载](https://download.csdn.net/download/qq_33200967/21774247) |
**说明:** 这里提供的是训练参数,如果要用于预测,还需要执行[导出模型](./docs/export_model.md),使用的解码方法是集束搜索。
>有问题欢迎提 [issue](https://github.com/yeyupiaoling/PaddlePaddle-DeepSpeech/issues) 交流
## 文档教程
- [快速安装](./docs/install.md)
- [数据准备](./docs/dataset.md)
- [WenetSpeech数据集](./docs/wenetspeech.md)
- [合成语音数据](./docs/generate_audio.md)
- [数据增强](./docs/augment.md)
- [训练模型](./docs/train.md)
- [集束搜索解码](./docs/beam_search.md)
- [执行评估](./docs/eval.md)
- [导出模型](./docs/export_model.md)
- 预测
- [本地模型](./docs/infer.md)
- [长语音模型](./docs/infer.md)
- [Web部署模型](./docs/infer.md)
- [Nvidia Jetson部署](./docs/nvidia-jetson.md)
## 快速预测
- 下载作者提供的模型或者训练模型,然后执行[导出模型](./docs/export_model.md),使用`infer_path.py`预测音频,通过参数`--wav_path`指定需要预测的音频路径,完成语音识别,详情请查看[模型部署](./docs/infer.md)。
```shell script
python infer_path.py --wav_path=./dataset/test.wav
```
输出结果:
```
----------- Configuration Arguments -----------
alpha: 1.2
beam_size: 10
beta: 0.35
cutoff_prob: 1.0
cutoff_top_n: 40
decoding_method: ctc_greedy
enable_mkldnn: False
is_long_audio: False
lang_model_path: ./lm/zh_giga.no_cna_cmn.prune01244.klm
mean_std_path: ./dataset/mean_std.npz
model_dir: ./models/infer/
to_an: True
use_gpu: True
use_tensorrt: False
vocab_path: ./dataset/zh_vocab.txt
wav_path: ./dataset/test.wav
------------------------------------------------
消耗时间:132, 识别结果: 近几年不但我用书给女儿儿压岁也劝说亲朋不要给女儿压岁钱而改送压岁书, 得分: 94
```
- 长语音预测
```shell script
python infer_path.py --wav_path=./dataset/test_vad.wav --is_long_audio=True
```
- Web部署
![录音测试页面](./docs/images/infer_server.jpg)
- GUI界面部署
![GUI界面](./docs/images/infer_gui.jpg)
## 打赏作者
<br/>
<div align="center">
<p>打赏一块钱支持一下作者</p>
<img src="https://yeyupiaoling.cn/reward.png" alt="打赏作者" width="400">
</div>
## 相关项目
- 基于PaddlePaddle实现的声纹识别:[VoiceprintRecognition-PaddlePaddle](https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle)
- 基于PaddlePaddle动态图实现的语音识别:[PPASR](https://github.com/yeyupiaoling/PPASR)
- 基于Pytorch实现的语音识别:[MASR](https://github.com/yeyupiaoling/MASR)
没有合适的资源?快使用搜索试试~ 我知道了~
基于PaddlePaddle实现的语音识别,中文语音识别 项目完善,识别效果好 支持Windows,也可以linux
共92个文件
py:50个
pyc:13个
md:13个
需积分: 5 0 下载量 158 浏览量
2024-08-29
12:32:45
上传
评论
收藏 3.41MB ZIP 举报
温馨提示
基于PaddlePaddle实现的语音识别,中文语音识别。项目完善,识别效果好。支持Windows,_PaddlePaddle-DeepSpeech.zip 基于PaddlePaddle实现的语音识别,中文语音识别。项目完善,识别效果好。支持Windows,_PaddlePaddle-DeepSpeech.zip 基于PaddlePaddle实现的语音识别,中文语音识别。项目完善,识别效果好。支持Windows,_PaddlePaddle-DeepSpeech.zip基于PaddlePaddle实现的语音识别,中文语音识别。项目完善,识别效果好。支持Windows,_PaddlePaddle-DeepSpeech.zip
资源推荐
资源详情
资源评论
收起资源包目录
基于PaddlePaddle实现的语音识别,中文语音识别。项目完善,识别效果好。支持Windows,_PaddlePaddle-DeepSpeech.zip (92个子文件)
PaddlePaddle-DeepSpeech-master
tools
generate_audio
generate_audio.py 7KB
generate_corpus.py 2KB
frontend.py 4KB
_init_paths.pyc 704B
tune.py 7KB
create_wenetspeech_data.py 4KB
eval.py 6KB
export_model.py 2KB
create_data.py 9KB
data_utils
__init__.py 0B
normalizer.py 5KB
augmentor
__init__.py 0B
base.pyc 2KB
augmentation.py 6KB
volume_perturb.pyc 2KB
speed_perturb.py 2KB
augmentation.pyc 5KB
noise_perturb.pyc 2KB
spec_augment.py 6KB
shift_perturb.pyc 2KB
shift_perturb.py 995B
resample.py 873B
speed_perturb.pyc 2KB
online_bayesian_normalization.pyc 2KB
noise_perturb.py 2KB
resample.pyc 2KB
__init__.pyc 140B
impulse_response.pyc 2KB
volume_perturb.py 1KB
base.py 935B
audio_process.py 2KB
speech.py 5KB
featurizer
__init__.py 0B
text_featurizer.py 2KB
audio_featurizer.py 4KB
speech_featurizer.py 3KB
utility.py 948B
data.py 13KB
audio.py 24KB
LICENSE 11KB
utils
__init__.py 0B
error_rate.py 6KB
audio_vad.py 5KB
predict.py 6KB
utility.py 2KB
__init__.pyc 125B
utility.pyc 2KB
decoders
__init__.py 0B
beam_search_decoder.py 3KB
swig_wrapper.py 4KB
ctc_greedy_decoder.py 2KB
dataset
test_vad.wav 3.5MB
test.wav 262KB
model_utils
__init__.py 0B
network.py 8KB
model.py 21KB
templates
index.html 6KB
docs
eval.md 1KB
beam_search.md 1KB
faq.md 985B
augment.md 2KB
dataset.md 3KB
wenetspeech.md 3KB
generate_audio.md 1KB
infer.md 6KB
train.md 4KB
install.md 3KB
images
wenetspeech.jpg 145KB
infer_server.jpg 32KB
infer_gui.jpg 32KB
export_model.md 773B
nvidia-jetson.md 2KB
infer_path.py 3KB
requirements.txt 270B
.gitignore 293B
infer_server.py 5KB
download_data
__init__.py 0B
utility.py 3KB
aishell.py 3KB
free_st_chinese_mandarin_corpus.py 2KB
thchs_30.py 2KB
noise.py 2KB
train.py 6KB
infer_gui.py 11KB
static
stop.png 3KB
recording.gif 4KB
record.png 5KB
player.png 2KB
record.js 8KB
index.css 2KB
conf
augmentation.json 1000B
README.md 5KB
共 92 条
- 1
资源评论
好家伙VCC
- 粉丝: 1966
- 资源: 9137
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 1而长期无人称其为率请问去
- 而是根深蒂固很多水果和时代光华士大夫
- 2023-04-06-项目笔记 - 第三百零九阶段 - 4.4.2.307全局变量的作用域-307 -2025.11.06
- android studio原生开发的一个联接打印机的程序,实际应用的,打便携蓝牙打印机打印地磅单子的程序
- fmDrive-win-v1.2.3.exe
- 2023-04-06-项目笔记 - 第三百零九阶段 - 4.4.2.307全局变量的作用域-307 -2025.11.06
- 基于ssm框架+Spring boot+Mybatis整合实现增删改查(适合初学者入门必备也可以做脚手架开发)
- python实现DES算法
- 基于php+html实现的成绩管理系统【源码+数据库】
- 大模型实战教程:从理论到实践的全面指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功