毕业设计-基于pytorch深度学习的声纹识别源码(动漫、游戏)+代码注释+部署说明.zip

共23个文件

py：10个

png：5个

wav：2个

版权申诉

毕业设计

期末大作业

python开发

深度学习

声纹识别

5星 · 超过95%的资源 119 浏览量 2023-08-31 15:49:58 上传评论 5 收藏 941KB ZIP 举报

【资源说明】毕业设计-基于pytorch深度学习的声纹识别源码(动漫、游戏)+代码注释+部署说明.zip 声纹识别项目-游戏/动漫声优识别注意，本项目经过测试，只能用于无背景音乐下的声纹识别，背景音乐会对结果有很大影响数据集准备数据集地址：https://github.com/fighting41love/zhvoice 自己下载下来后，把里面所有的压缩文件都进行解压，解压后结构如下，test_list.txt 和 train_list.txt 是后面生成的，先不管，注意这些训练数据要放到 data 文件夹下。 ├── info ├── metadata.csv ├── readme.md ├── sample ├── test_list.txt ├── text ├── train_list.txt ├── zhaidatatang ├── zhaishell ├── zhbznsyp ├── zhmagicdata ├── zhprimewords ├── zhspeechocean ├── zhstcmds └── zhthchs30 然后我们可以输入 python create_data.py 来对数据集进行处理，这里主要会进行两个操作，第一个是把mp3转换为wav的格式（这个操作比较耗时，可能需要几天），并生成对应的训练数据集文本和测试数据集的文本。第二个是会把一些没用的音频数据删除。数据集训练所有的配置信息都在 train.py 里面，自己看着改就可以了，默认情况下不需要改动。使用 python train.py 就可以开始训练了（RTX3060大概要训练6天时间）计算使用 python eval.py 可以计算阈值信息，因为我们是通过余铉距离来计算的进行对比时会得出一个分数，当大于这个分数的时候才可以认为是同一个人。运行后输出的结果如下：当阈值为0.660000, 准确率最大，为：0.999952 运行 python main.py 安装可能遇到的问题 1. error: portaudio.h: No such file or directory 参考：https://stackoverflow.com/questions/48690984/portaudio-h-no-such-file-or-directory ubuntu20.4 可以参考 sudo apt install portaudio19-dev python3-pyaudio 【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用，也适合小白学习进阶，当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可直接用于毕设、课设、作业等。欢迎下载，沟通交流，互相学习，共同进步！

资源推荐

资源详情

资源评论

收起资源包目录

毕业设计-基于pytorch深度学习的声纹识别源码(动漫、游戏)+代码注释+部署说明.zip （23个子文件）

eval.py 2KB

说明文档.txt 4KB

create_data.py 3KB

main.py 104B

audio_db

可莉.wav 322KB

utils

__init__.py 0B

reader.py 2KB

resnet.py 4KB

arcmargin.py 2KB

web

__init__.py 1KB

templates

content.html 4KB

static

row.wav 509KB

core

__init__.py 2KB

Dockerfile 280B

requirements.txt 137B

images

2022-05-11-09-14-50.png 191KB

2022-05-11-08-56-17.png 25KB

2022-05-11-09-24-04.png 9KB

2022-05-11-09-24-15.png 65KB

2022-05-11-08-56-47.png 14KB

train.py 7KB

.drone.yml 467B

study.md 20KB

声纹识别项目-游戏/动漫声优识别注意，本项目经过测试，只能用于无背景音乐下的声纹识别，背景音乐会对结果有很大影响数据集准备数据集地址：https://github.com/fighting41love/zhvoice 自己下载下来后，把里面所有的压缩文件都进行解压，解压后结构如下，test_list.txt 和 train_list.txt 是后面生成的，先不管，注意这些训练数据要放到 data 文件夹下。 ├── info ├── metadata.csv ├── readme.md ├── sample ├── test_list.txt ├── text ├── train_list.txt ├── zhaidatatang ├── zhaishell ├── zhbznsyp ├── zhmagicdata ├── zhprimewords ├── zhspeechocean ├── zhstcmds └── zhthchs30 然后我们可以输入 python create_data.py 来对数据集进行处理，这里主要会进行两个操作，第一个是把mp3转换为wav的格式（这个操作比较耗时，可能需要几天），并生成对应的训练数据集文本和测试数据集的文本。第二个是会把一些没用的音频数据删除。数据集训练所有的配置信息都在 train.py 里面，自己看着改就可以了，默认情况下不需要改动。使用 python train.py 就可以开始训练了（RTX3060大概要训练6天时间）计算使用 python eval.py 可以计算阈值信息，因为我们是通过余铉距离来计算的进行对比时会得出一个分数，当大于这个分数的时候才可以认为是同一个人。运行后输出的结果如下：开始提取全部的音频特征... 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5332/5332 [02:02<00:00, 43.48it/s] 开始两两对比音频特征... 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5332/5332 [01:52<00:00, 47.41it/s] 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:05<00:00, 19.94it/s] 当阈值为0.660000, 准确率最大，为：0.999952 运行 python main.py 安装可能遇到的问题 1. error: portaudio.h: No such file or directory 参考：https://stackoverflow.com/questions/48690984/portaudio-h-no-such-file-or-directory ubuntu20.4 可以参考 sudo apt install portaudio19-dev python3-pyaudio

评论收藏

内容反馈

版权申诉