# 基于深度学习的中文语音识别系统
[![GPL-3.0 Licensed](https://img.shields.io/badge/License-GPL3.0-blue.svg?style=flat)](https://opensource.org/licenses/GPL-3.0) [![TensorFlow Version](https://img.shields.io/badge/Tensorflow-1.4+-blue.svg)](https://www.tensorflow.org/) [![Keras Version](https://img.shields.io/badge/Keras-2.0+-blue.svg)](https://keras.io/) [![Python Version](https://img.shields.io/badge/Python-3.x-blue.svg)](https://www.python.org/)
### 基于python的中文语音识别系统.
包含声学模型和语言模型两个部分组成,两个模型都是基于神经网络。
- 声学模型 - `acoustic_model`文件夹下,**建议直接运行**`cnn_with_full.py`
- 该项目实现了GRU-CTC中文语音识别声音模型,所有代码都在`gru_ctc_am.py`中,包括:
- 增加了基于科大讯飞DFCNN的CNN-CTC结构的中文语音识别模型`cnn_ctc_am.py`,与GRU相比,对网络结构进行了稍加改造。
- 完全使用DFCNN框架搭建声学模型,稍加改动,将部分卷积层改为inception,使用时频图作为输入,`cnn_with_fbank.py`。
- 新增使用pluse版数据集的模型,`cnn_with_full.py`,建议直接训练这个模型。
- 语言模型 - `language_model`文件夹下
- 新增基于CBHG结构的语言模型`language_model\CBHG_lm.py`,该模型之前用于谷歌声音合成,移植到该项目中作为基于神经网络的语言模型。
参考了一个大佬的输入法的项目:[https://github.com/crownpku/Somiao-Pinyin](https://github.com/crownpku/Somiao-Pinyin)
- 数据集
- 增加stc、primewords、Aishell、thchs30四个数据集,整理为相同格式,放于`acoustic_model\data`中,调用四个数据集的脚本在`acoustic_model\extra_utils`中,将四个数据集下载后放到data目录下直接运行`acoustic_model\cnn_with_full.py`就可以使用所有数据进行训练了。
- 共计约430小时,相关链接:[http://www.openslr.org/resources.php](http://www.openslr.org/resources.php)
|Name | train | dev | test
|- | :-: | -: | -:
|aishell | 120098| 14326 | 7176
|primewords | 40783 | 5046 | 5073
|thchs-30 | 10000 | 893 | 2495
|st-cmd | 10000 | 600 | 2000
- 实验结果
- 其中声学模型得到带有声调的拼音,如:
```python
识别结果:jin1 zi1
```
- 语言模型由拼音是别为汉字,如:
```python
请输入测试拼音:ta1 mei2 you3 duo1 shao3 hao2 yan2 zhuang4 yu3 dan4 ta1 que4 ba3 ai4 qin1 ren2 ai4 jia1 ting2 ai4 zu3 guo2 ai4 jun1 dui4 wan2 mei3 de tong3 yi1 le qi3 lai2
她没有多少豪言壮语但她却把爱亲人爱家庭爱祖国爱军队完美地统一了起来
请输入测试拼音:chu2 cai2 zheng4 bo1 gei3 liang3 qian1 san1 bai3 wan4 yuan2 jiao4 yu4 zi1 jin1 wai4 hai2 bo1 chu1 zhuan1 kuan3 si4 qian1 wu3 bai3 qi1 shi2 wan4 yuan2 xin1 jian4 zhong1 xiao3 xue2
除财政拨给两千三百万元教太资金外还拨出专款四千五百七十万元新建中小学
请输入测试拼音:ke3 shi4 chang2 chang2 you3 ren2 gao4 su4 yao2 xian1 sheng1 shuo1 kan4 jian4 er4 xiao3 jie3 zai4 ka1 fei1 guan3 li3 he2 wang2 jun4 ye4 wo4 zhe shou3 yi1 zuo4 zuo4 shang4 ji3 ge4 zhong1 tou2
可是常常有人告诉姚先生说看见二小姐在咖啡馆里和王俊业握着族一坐坐上几个钟头
```
[我的github: https://github.com/audier](https://github.com/audier)
[我的github博客: audier.github.io](https://audier.github.io)
[我的csdn博客: https://blog.csdn.net/chinatelecom08](https://blog.csdn.net/chinatelecom08)
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
包含声学模型和语言模型两个部分组成,两个模型都是基于神经网络。 声学模型 - acoustic_model文件夹下,建议直接运行cnn_with_full.py 该项目实现了GRU-CTC中文语音识别声音模型,所有代码都在gru_ctc_am.py中,包括: 增加了基于科大讯飞DFCNN的CNN-CTC结构的中文语音识别模型cnn_ctc_am.py,与GRU相比,对网络结构进行了稍加改造。 完全使用DFCNN框架搭建声学模型,稍加改动,将部分卷积层改为inception,使用时频图作为输入,cnn_with_fbank.py。 新增使用pluse版数据集的模型,cnn_with_full.py,建议直接训练这个模型。 包含声学模型和语言模型两个部分组成,两个模型都是基于神经网络。 声学模型 - acoustic_model文件夹下,建议直接运行cnn_with_full.py 该项目实现了GRU-CTC中文语音识别声音模型,所有代码都在gru_ctc_am.py中,包括: 增加了基于科大讯飞DFCNN的CNN-CTC结构的中文语音识别模型cnn_ctc_am.py,与GRU相比,对网
资源推荐
资源详情
资源评论
收起资源包目录
my_ch_speech_recognition.zip (89个子文件)
my_ch_speech_recognition
acoustic_model
gru_ctc_am.py 11KB
cnn_with_full_data.py 9KB
data
primewords
dev.wav.lst 436KB
test.wav.lst 443KB
train.wav.lst 3.44MB
test.syllabel.txt 552KB
dev.syllabel.txt 547KB
train.syllabel.txt 4.29MB
st-cmds
dev.wav.lst 39KB
test.wav.lst 129KB
train.wav.lst 6.29MB
test.syllabel.txt 145KB
dev.syllabel.txt 44KB
train.syllabel.txt 7.06MB
thchs30
dev.wav.lst 31KB
test.wav.lst 91KB
train.wav.lst 371KB
test.syllabel.txt 420KB
dev.syllabel.txt 151KB
train.syllabel.txt 1.64MB
aishell
dev.wav.lst 909KB
test.wav.lst 463KB
train.wav.lst 7.67MB
test.syllabel.txt 638KB
dev.syllabel.txt 1.22MB
train.syllabel.txt 10.3MB
cnn_ctc_am.py 12KB
cnn_with_fbank.py 14KB
extra_utils
__init__.py 0B
feature_extract.py 2KB
commons.py 516B
FSMNCell.py 3KB
GetData.py 20KB
新建文本文档.txt 0B
.gitattributes 66B
some_expriment
lm_develop
eval.py 2KB
data_load.py 4KB
hyperparams.py 600B
build_corpus.py 3KB
modules.py 13KB
prepro.py 3KB
train.py 4KB
README.md 3KB
gen_data
gen_aishell_lable.py 2KB
gen_thchs_lable.py 3KB
linshi.py 13KB
keras_test.py 2KB
train.wav.lst 3.45MB
my_develop.py 14KB
data_process
read_data_prime.py 23KB
gen_dict.py 13KB
aishell_pre.py 5KB
datalist
primewords
dev.wav.lst 436KB
test.wav.lst 443KB
train.wav.lst 3.44MB
test.syllabel.txt 552KB
dev.syllabel.txt 547KB
train.syllabel.txt 4.29MB
read_prim_data.py 2KB
st-cmds
test.wav.txt 129KB
train.wav.txt 6.29MB
test.syllabel.txt 145KB
dev.syllabel.txt 44KB
dev.wav.txt 39KB
train.syllabel.txt 7.06MB
thchs30
dev.wav.lst 31KB
test.wav.lst 91KB
train.wav.lst 371KB
test.syllabel.txt 423KB
dev.syllabel.txt 151KB
train.syllabel.txt 1.65MB
.st-cmds.swp 12KB
aishell
dev.wav.lst 909KB
test.wav.lst 463KB
train.wav.lst 7.67MB
test.syllabel.txt 638KB
dev.syllabel.txt 1.22MB
train.syllabel.txt 10.3MB
read_data_aishell.py 22KB
dict.txt 32KB
read_prim_data.py 2KB
.gitignore 433B
README.md 4KB
language_model
CBHG_lm.py 16KB
model_layers.py 13KB
hyperparams.py 600B
data
vocab.pkl 158KB
lable.txt 11.84MB
zh.tsv 23.69MB
共 89 条
- 1
资源评论
0仰望星空007
- 粉丝: 4260
- 资源: 597
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 【andorid毕业设计】Android奇艺高清UI界面源代码.zip
- 【andorid毕业设计】Android腾讯微薄客户端源代码.zip
- 【andorid毕业设计】android通话时间统计器[实例,源代码].zip
- 欧姆龙安全开关D4NL-1HFG-B4用户手册
- jfpz11-25.zip
- 【andorid毕业设计】Android系统原理与开发要点详解_培训课件.zip
- 【andorid毕业设计】android网络视频播放器(完整可运行).zip
- 【andorid毕业设计】Android下拉刷新控件(ListView好ScrollView版).zip
- 【andorid毕业设计】Android项目之——漂亮的平台书架.zip
- 【andorid毕业设计】Android项目之——页面特效集合(附源码).zip
- 【andorid毕业设计】Android音量seekbar制作.zip
- 【andorid毕业设计】Android异步加载图像小结 (含线程池,缓存方法).zip
- 基于MATLAB的人体姿态检测识别(完整项目代码)
- 【andorid毕业设计】Android应用框架原理与程序设计.zip
- Android远程登录含有loading登录效果~~完整代码和超级详细注释.zip
- ARM实验.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功