# ASRT: A Deep-Learning-Based Chinese Speech Recognition System
ASRT是一个基于深度学习的中文语音识别系统,如果您觉得喜欢,请点一个 **"Star"** 吧~
[![GPL-3.0 Licensed](https://img.shields.io/badge/License-GPL3.0-blue.svg?style=flat)](https://opensource.org/licenses/GPL-3.0)
[![TensorFlow Version](https://img.shields.io/badge/Tensorflow-1.13+-blue.svg)](https://www.tensorflow.org/)
[![Keras Version](https://img.shields.io/badge/Keras-2.3+-blue.svg)](https://keras.io/)
[![Python Version](https://img.shields.io/badge/Python-3.5+-blue.svg)](https://www.python.org/)
**ReadMe Language** | 中文版 | [English](https://github.com/nl8590687/ASRT_SpeechRecognition/blob/master/README_EN.md) |
[**ASRT项目主页**](https://asrt.ailemon.me/) |
[**发布版下载**](https://asrt.ailemon.me/download) |
[**查看本项目的Wiki文档**](https://asrt.ailemon.me/docs/) |
[**实用效果体验Demo**](https://asrt.ailemon.me/demo) |
[**打赏作者**](https://github.com/nl8590687/ASRT_SpeechRecognition/wiki/donate)
如果程序运行期间或使用中有什么问题,可以及时在issue中提出来,我将尽快做出答复。本项目作者交流QQ群:**894112051**
提问前请仔细查看[项目文档](https://asrt.ailemon.me/docs/)、
[常见问题](https://asrt.ailemon.me/docs/issues)
以及[Issues](https://github.com/nl8590687/ASRT_SpeechRecognition/issues) 避免重复提问
以下问题AI柠檬博主和群友可能会拒绝回答,包括但不限于:
* 询问已经写在 **ASRT语音识别项目文档** 和 **Issues** 上解决过的已知重复问题。
* 找不到重点、不知所云的提问内容,但是不给出任何其他信息。
* 跟ASRT项目没有直接相关的问题
* “伸手党”类的问题
```
请注意,开发者并没有义务回复您的问题,也没用义务免费给你打工,您应该具备基本的提问技巧,并善用搜索引擎,
每个人的时间都是宝贵的。
```
有关AI柠檬ASRT语音项目的相关信息亦可使用[AI柠檬站内搜索引擎](https://s.ailemon.me/)进行相关信息的搜索。
## ASRT相关资料
ASRT的原理请查看本文:
* [ASRT:一个中文语音识别系统](https://blog.ailemon.me/2018/08/29/asrt-a-chinese-speech-recognition-system/)
ASRT训练和部署教程请看:
* [教你如何使用ASRT训练中文语音识别模型](<https://blog.ailemon.me/2020/08/20/teach-you-how-use-asrt-train-chinese-asr-model/>)
* [教你如何使用ASRT部署中文语音识别API服务器](<https://blog.ailemon.me/2020/08/27/teach-you-how-use-asrt-deploy-chinese-asr-api-server/>)
关于经常被问到的统计语言模型原理的问题,请看:
* [统计语言模型:从中文拼音到文本](https://blog.ailemon.me/2017/04/27/statistical-language-model-chinese-pinyin-to-words/)
* [统计N元语言模型生成算法:简单中文词频统计](https://blog.ailemon.me/2017/02/20/simple-words-frequency-statistic-without-segmentation-algorithm/)
关于CTC的问题请看:
* [[翻译]使用CTC进行序列建模](<https://blog.ailemon.me/2019/07/18/sequence-modeling-with-ctc/>)
更多内容请访问作者的博客:[AI柠檬博客](https://blog.ailemon.me/)
或使用[AI柠檬站内搜索引擎](https://s.ailemon.me/)进行相关信息的搜索
## Introduction 简介
本项目使用Keras、TensorFlow基于深度卷积神经网络和长短时记忆神经网络、注意力机制以及CTC实现。
This project uses Keras, TensorFlow based on deep convolutional neural network and long-short memory neural network, attention mechanism and CTC to implement.
* **操作步骤**
首先通过Git将本项目克隆到您的计算机上,然后下载本项目训练所需要的数据集,下载链接详见[文档末尾部分](https://github.com/nl8590687/ASRT_SpeechRecognition#data-sets-%E6%95%B0%E6%8D%AE%E9%9B%86)。
```shell
$ git clone https://github.com/nl8590687/ASRT_SpeechRecognition.git
```
或者您也可以通过 "Fork" 按钮,将本项目Copy一份副本,然后通过您自己的SSH密钥克隆到本地。
通过git克隆仓库以后,进入项目根目录;并创建子目录 `dataset/` (可使用软链接代替),然后将下载好的数据集直接解压进去
注意,当前版本中,Thchs30和ST-CMDS两个数据集都必须下载使用,缺一不可,并且使用其他数据集需要修改代码。
```shell
$ cd ASRT_SpeechRecognition
$ mkdir dataset
$ tar zxf <数据集压缩文件名> -C dataset/
```
然后需要将datalist目录下的文件全部拷贝到 `dataset/` 目录下,也就是将其跟数据集放在一起。
```shell
$ cp -rf datalist/* dataset/
```
目前可用的模型有24、25和251
运行本项目之前,请安装必要的[Python3版依赖库](https://github.com/nl8590687/ASRT_SpeechRecognition#python-import)
本项目开始训练请执行:
```shell
$ python3 train_mspeech.py
```
本项目开始测试请执行:
```shell
$ python3 test_mspeech.py
```
测试之前,请确保代码中填写的模型文件路径存在。
ASRT API服务器启动请执行:
```shell
$ python3 asrserver.py
```
请注意,开启API服务器之后,需要使用本ASRT项目对应的客户端软件来进行语音识别,详见Wiki文档[ASRT客户端Demo](https://asrt.ailemon.me/docs/client-demo)。
如果要训练和使用模型251,请在代码中 `import SpeechModel` 的相应位置做修改。
## Model 模型
### Speech Model 语音模型
CNN + LSTM/GRU + CTC
其中,输入的音频的最大时间长度为16秒,输出为对应的汉语拼音序列
* 关于下载已经训练好的模型的问题
可以在Github本仓库下[releases](https://github.com/nl8590687/ASRT_SpeechRecognition/releases)里面的查看发布的各个版本软件的压缩包里获得包含已经训练好模型参数的完整源程序。
发布的成品软件可以在此下载:[ASRT下载页面](https://asrt.ailemon.me/download)
### Language Model 语言模型
基于概率图的最大熵隐马尔可夫模型
输入为汉语拼音序列,输出为对应的汉字文本
## About Accuracy 关于准确率
当前,最好的模型在测试集上基本能达到80%的汉语拼音正确率
不过由于目前国际和国内的部分团队能做到98%,所以正确率仍有待于进一步提高
## Python Import
Python的依赖库
* python_speech_features
* TensorFlow (1.13+)
* Keras (2.3+)
* Numpy
* wave
* matplotlib
* math
* Scipy
* h5py
* http
* urllib
[程序运行依赖环境详细说明](https://asrt.ailemon.me/docs/dependent-environment)
## Data Sets 数据集
[几个最新免费开源的中文语音数据集](https://blog.ailemon.me/2018/11/21/free-open-source-chinese-speech-datasets/)
* **清华大学THCHS30中文语音数据集**
data_thchs30.tgz
[OpenSLR国内镜像](<http://openslr.magicdatatech.com/resources/18/data_thchs30.tgz>)
[OpenSLR国外镜像](<http://www.openslr.org/resources/18/data_thchs30.tgz>)
test-noise.tgz
[OpenSLR国内镜像](<http://openslr.magicdatatech.com/resources/18/test-noise.tgz>)
[OpenSLR国外镜像](<http://www.openslr.org/resources/18/test-noise.tgz>)
resource.tgz
[OpenSLR国内镜像](<http://openslr.magicdatatech.com/resources/18/resource.tgz>)
[OpenSLR国外镜像](<http://www.openslr.org/resources/18/resource.tgz>)
* **Free ST Chinese Mandarin Corpus**
ST-CMDS-20170001_1-OS.tar.gz
[OpenSLR国内镜像](<http://openslr.magicdatatech.com/resources/38/ST-CMDS-20170001_1-OS.tar.gz>)
[OpenSLR国外镜像](<http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz>)
* **AIShell-1 开源版数据集**
data_aishell.tgz
[OpenSLR国内镜像](<http://openslr.magicdatatech.com/resources/33/data_aishell.tgz>)
[OpenSLR国外镜像](<http://www.openslr.org/resources/33/data
没有合适的资源?快使用搜索试试~ 我知道了~
ASRT_SpeechRecognition:基于深度学习的中文语音识别系统
共47个文件
py:24个
txt:13个
md:4个
需积分: 35 23 下载量 122 浏览量
2021-02-05
11:51:39
上传
评论 1
收藏 6.5MB ZIP 举报
温馨提示
ASRT:基于深度学习的中文语音识别系统 ASRT是一个基于深度学习的中文语音识别系统,如果您觉得喜欢,请点一个“ Star”吧〜 自述语言|中文版| | |||| 如果程序运行期间或使用中有什么问题,可以及时在issue中提出来,我将尽快进行响应。本项目作者交流QQ群: 894112051 提问前请仔细查看,以及避免重复提问 以下问题AI柠檬博主和群友可能会拒绝回答,包括但不限于: 询问已经写在ASRT语音识别项目文档和问题上解决过的已知重复问题。 找不到重点,不知所云的问题,但不声明任何其他信息。 跟ASRT项目没有直接相关的问题 “伸手党”类的问题 请注意,开发者并没有义务回复您的问
资源推荐
资源详情
资源评论
收起资源包目录
ASRT_SpeechRecognition-master.zip (47个子文件)
ASRT_SpeechRecognition-master
SpeechModel261.py 17KB
log.md 4KB
README_EN.md 8KB
SpeechModel251_p.py 16KB
testClient.py 520B
datalist
st-cmds
dev.wav.txt 39KB
dev.syllable.txt 44KB
train.wav.txt 6.29MB
test.syllable.txt 145KB
test.wav.txt 129KB
train.syllable.txt 7.06MB
thchs30
test.wav.lst 91KB
train.wav.lst 371KB
cv.syllable.txt 151KB
test.syllable.txt 423KB
cv.wav.lst 31KB
train.syllable.txt 1.65MB
SpeechModel24.py 14KB
LanguageModel.py 7KB
general_function
gen_func.py 514B
muti_gpu.py 4KB
file_dict.py 2KB
__init__.py 166B
file_wav.py 9KB
test.py 2KB
model_language
dic_pinyin.txt 1.94MB
language_model2.txt 4.97MB
language_model1.txt 47KB
SpeechModel25.py 15KB
.github
FUNDING.yml 510B
donate.md 786B
SpeechModel251.py 16KB
LICENSE 34KB
readdata24.py 9KB
readdata24_limitless.py 9KB
dict.txt 32KB
SpeechModel261_p.py 16KB
speech_recorder.py 3KB
SpeechModel251_limitless.py 17KB
.gitignore 187B
train_mspeech.py 1KB
asrserver.py 3KB
README.md 10KB
LanguageModel2.py 8KB
SpeechModel26.py 16KB
SpeechModel252.py 16KB
test_mspeech.py 2KB
共 47 条
- 1
资源评论
鑨鑨
- 粉丝: 30
- 资源: 4653
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功