**首先声明 本系统语音识别模块采用了AI柠檬博主的开源项目 ASRT 进行语音识别
ASRT 项目地址 :https://gitee.com/ailemon/ASRT_SpeechRecognition?_from=gitee_search
希望大家可以向ASRT作者点star**
只需将项目git至本地,运行ASRT文件下的GUI.py即可
以下为系统说明书
一、系统设计目标
根据实训安排,设计并实现噪声抑制实验与语音合成系统。需要充分考虑用户体验,要求界面简洁明朗,操作简单快捷,功能实用,内容丰富。其中,噪声抑制系统支持录入使用者的音频。为达到显著效果,会对音频先进性加噪而进行降噪处理。语音合成系统可将用户输入的文字朗诵并转换成音频文件,且提供两段文字的合成转换。
二、问题描述
1、在语音合成技术中,主要分为语言分析部分和声学系统部分,也称为前端部分和后端部分,语言分析部分主要是根据输入的文字信息进行分析,生成对应的语言学规格书,想好该怎么读;声学系统部分主要是根据语音分析部分提供的语音学规格书,生成对应的音频,实现发声的功能。
2、在图像的生成、传输过程中,不可避免会受到噪声的干扰,而且有些图像噪声非常严重,图像中的噪声往往和信号交织在一起,会使图像本身的细节如边界轮廓、线条等变得模糊不清。我们需要对图像进行降噪处理,便于更高层次的图像分析与理解。如何既对图像中噪声进行合理的抑制、衰减以及去除不需要的信息,又能使有用的信息得到加强,从而便于目标或对象解释,是去噪研究的主要任务。
三、需求分析
1、噪声抑制系统:
(1)提供对音频进行转换成频谱图,让用户分析起来更加直观。
(2)可以进行录音,并将录进的音频内容保存到指定的文件夹中。
(3)同时可以对录进的音频进行添加噪音,添加研究内容。
(4)可以对录制的音频进行降噪处理,使录进的音频听起来更加清晰。
(5)可以将处理后的音频播放出来。
2、语音合成系统:
(1)提供对用户想输入的两段文字的编辑功能。
(2)可以将用户输入的两段文字合成为一段文字并将文字转换为音频信息。
(3)可以存取转换后的音频,也可以存取任意一段文字所转换的音频。
(4)可以将存取的音频播放出来
3、语音识别系统:
(1)提供对于用户输入的音频进行录制。
(2)可以将用户录入的音频存储到指定路径中并进行播放。
(3)将存储的音频识别成文字的方式进行输出。
以下为系统使用说明
一、主界面
1,当用户进入主界面时,主界面如图所示,我们的题目为噪声抑制实验与语音合成系统,主界面标题为语音识别系统,我们的功能主要围绕语音合成和降噪而展开,主界面有四个按钮,分别为语音识别、FFT降噪、语音降噪和语音合成。点击按钮后,会触发监听事件,并分别进入相应的界面。
二、语音识别
当用户点击语音识别按钮后,程序会自动进入语音识别界面,如图所示,此界面共有三个按钮,分别为开始录音、播放录音和开始识别,当用户点击开始录音后,程序会自动将音频文件自动存储在audio文件夹中,存储完成后,会自动跳出存储成功界面。再次点击播放语音,程序会将存储在audio文件夹中的音频文件播放出来。当用户点击开始识别,程序会将存储的音频文件输出为文字,显示在界面中,如图所示。
三、FFT降噪
当用户点击FFT降噪按钮后,程序会自动进入FFT降噪界面,如图所示,界面共有六个按钮,分别为开始录音、添加白噪、FFT降噪、播放原音频、播放降噪音频、播放加噪音频。此界面主要添加了两个主要功能,分别为添加白噪和FFT降噪,录音后,点击添加白噪,程序会在原音频中添加幅度分布服从高斯分布、而功率密度又是均匀分布的高斯白噪声。添加高斯白噪后频谱图如图所示,点击播放加噪音频后,会自动播放加噪完成后的音频。点击FFT降噪后,程序将使用傅里叶变换进行图像去噪。FFT降噪频谱图如图所示,点击播放降噪音频后,会自动播放降噪完成后的音频。
四、语音降噪
当用户点击语音降噪后,程序会自动进入语音降噪界面,如图所示,当用户点击开始录音后,会将音频文件存储到audio文件夹中,点击播放原音频后,程序会自动将存储在audio文件夹中的音频文件播放出来。点击加噪处理后,程序会将原音频中加入噪声,点击播放加噪音频会将经过加噪处理的音频播放出来。点击降噪处理后,程序会使用维纳滤波器,将信号与噪声信号分离,以达到降噪效果,点击播放降噪音频后会将经过降噪处理的音频播放出来。
五、语音合成
当用户在主界面点击语音合成按钮后,程序会自动进入语音合成界面,界面如图所示,语音合成界面由两个文字框、五个按钮组成,五个按钮分别为合成语音、存取合成音频、存取1号音频、存取2号音频、播放合成音频组成。在两个文字框分别输入文字后,点击合成语音按钮,会将两段文字合称为一段文字并转换为音频。点击播放合成音频后,会将音频播放出来,点击存取合成音频后,会将合成的音频存取起来,存取成功后,会自动弹出存取成功界面,如图所示,点击存取1号音频会将左边文字框中文字转换的音频存取起来。点击存取2号音频会将右边文字框中文字框中文字转换的音频存取起来。
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
【探索人工智能的宝藏之地】 无论您是计算机相关专业的在校学生、老师,还是企业界的探索者,这个项目都是为您量身打造的。无论您是初入此领域的小白,还是寻求更高层次进阶的资深人士,这里都有您需要的宝藏。不仅如此,它还可以作为毕设项目、课程设计、作业、甚至项目初期的立项演示。 【人工智能的深度探索】 人工智能——模拟人类智能的技术和理论,使其在计算机上展现出类似人类的思考、判断、决策、学习和交流能力。这不仅是一门技术,更是一种前沿的科学探索。 【实战项目与源码分享】 我们深入探讨了深度学习的基本原理、神经网络的应用、自然语言处理、语言模型、文本分类、信息检索等领域。更有深度学习、机器学习、自然语言处理和计算机视觉的实战项目源码,助您从理论走向实践,如果您已有一定基础,您可以基于这些源码进行修改和扩展,实现更多功能。 【期待与您同行】 我们真诚地邀请您下载并使用这些资源,与我们一起在人工智能的海洋中航行。同时,我们也期待与您的沟通交流,共同学习,共同进步。让我们在这个充满挑战和机遇的领域中共同探索未来!
资源推荐
资源详情
资源评论
收起资源包目录
基于傅里叶变换的降噪与基于深度学习的语音识别的多功能系统.zip (79个子文件)
资料总结
sim.py 714B
ASRT
download_default_datalist.py 4KB
train_speech_model.py 2KB
asrserver.py 4KB
evaluate_speech_model.py 2KB
speech_features
__init__.py 923B
speech_features.py 9KB
sigproc.py 7KB
__pycache__
speech_features.cpython-38.pyc 6KB
sigproc.cpython-38.pyc 6KB
base.cpython-38.pyc 12KB
__init__.cpython-38.pyc 261B
base.py 13KB
predict_speech_file.py 2KB
utils
ops.py 2KB
ops_test.py 2KB
__pycache__
ops.cpython-38.pyc 1KB
config.cpython-38.pyc 1KB
config.py 2KB
data_loader.py 3KB
5.gif 158KB
.idea
ASRT_v1.1.0.iml 441B
inspectionProfiles
Project_Default.xml 424B
profiles_settings.xml 174B
modules.xml 274B
.gitignore 235B
speech_recorder.py 4KB
save_models
SpeechModel251.model.h5 5.67MB
SpeechModel251.model.base.h5 5.67MB
2.gif 245KB
dict.txt 32KB
LanguageModel2.py 10KB
speech_model.py 11KB
requirements.txt 904B
GUI.py 3KB
3.gif 604KB
asrt_config.json 5KB
client.py 1KB
denoise_input_IterativeWiener.wav 312KB
1.gif 162KB
__pycache__
predict_speech_file.cpython-38.pyc 1KB
speechRecGUI2.cpython-38.pyc 3KB
LanguageModel2.cpython-38.pyc 4KB
speech_model.cpython-38.pyc 7KB
speech_model_zoo.cpython-38.pyc 6KB
data_loader.cpython-38.pyc 3KB
speechRecGUI2.py 3KB
4.gif 886KB
speech_model_zoo.py 18KB
model_language
language_model1.txt 47KB
language_model2.txt 4.97MB
dic_pinyin.txt 1.94MB
ttsGUI.py 3KB
denoGUI.py 5KB
speech-recognition-system
denoise.py 2KB
5.gif 158KB
.idea
tts.iml 395B
misc.xml 196B
inspectionProfiles
Project_Default.xml 424B
profiles_settings.xml 174B
modules.xml 258B
.gitignore 227B
2.gif 245KB
FFTGUI.py 6KB
mic.py 831B
alg_denoise.py 11KB
3.gif 604KB
1.gif 162KB
__pycache__
alg_tts.cpython-38.pyc 840B
denoGUI.cpython-38.pyc 4KB
denoise.cpython-38.pyc 789B
FFTGUI.cpython-38.pyc 5KB
alg_denoise.cpython-38.pyc 7KB
ttsGUI.cpython-38.pyc 3KB
alg_tts.cpython-36.pyc 815B
mic.cpython-38.pyc 929B
4.gif 886KB
README.md 6KB
alg_tts.py 853B
共 79 条
- 1
资源评论
妄北y
- 粉丝: 1w+
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功