# 基于ASR的语音词频提取云平台(python)
# **摘要**
随着互联网的发展,语音文件成为了人们接触得越来越多文件。如何高效的从一段录音中提取出关键信息,提取出其中人们感兴趣的内容,直观的呈现给人门。而搭建一个语音词频提取的云平台可以很好的解决这些问题。从需求出发,学习阿里云平台的使用,搭建出了一个基于ASR的语音词频提取云平台。面向日常应用为商业、教育等领域提供关键信息提取的解决方案。
**关键字:**云计算;语音识别;自然语言分词;
# 1.Introduction
## 1.1.概述
随着互联网的发展,诸如微信、soul等语音聊天软件的普及,人们接触到的语音文件的机会也越来越多。录音文件的途径也越来越多,应用场景也越来越方丰富。下面我们从以下几个不同的行业不同的场景进行需求分析。
![](http://www.writebug.com/myres/static/uploads/2021/10/19/61c1df8ddfd74448dc8577dd4d4a3efb.writebug)
## 1.2.商务
语音文件在商务领域可作为会议记录。会议的录音文件通常是作为会议的留档。企业可以通过会议录音文件的关键字提取从而对会议进行大致总结方便会议记录人员的工作。而一场会议的录音文件通常具有一下几个特点
- **录音时长长**: 企业会议时间都比较长,企业需要在会议中讨论和交代重要的商业战略,以及对过去的总结和未来规划,这需要花费相当长的篇幅进行梳理和总结。自然其对应的录音文件就比较长。
- **录音质量高**: 企业会议往往有有序的组织发言,不会出现多个人同时发言或者争论。会议环境也相对较好,安静的会议环境,
- **高度可概括**: 企业会议发言通常有事先组织草稿,并且进行结构的梳理。
具体场景: A公司B部门定期开办总结会议,会议内容会以录音的形式保存下来。部门领导需要秘书C进行会议的总结和梳理以方便部门领导进行后期的进程安排和项目指定。秘书C需要对语音文件进项处理,从中提取出关键要点信息。
## 1.3.教育
教育领域中,可以使用授课录音对教师教学的内容进行评估。教学录音通常具有一下几个特点。
- **时长固定**。一堂课的时间都是确定。
- **语音质量一般**。课堂中存在互动或者学生纪律不行会对录音文件的质量产生干扰。
具体场景:学校需要对教师的授课能能力进行评估。学校需要对教师的录音进行关键词提取作为教学质量的评测的估计。
## 1.4.刑侦
语音文件在刑侦领域通常是作为录音文件的取证。司法部门需要从审讯录音中获得关键信息,或者需要对一段语音通话文件分析其中的关键内容。这些可以获取词频,查看关键词进行预览。而司法取证的文件具有一下几个特点:
- **语音时长不确定**。由于取证的来源语音文件并没有确定的时长,可能长达几个小时,也可能只有几分钟。
- **语音质量没有保障**。由于通话或者录音的环境难以确定和保证,在刑侦领域接触到的语音质量不能得到很好的确认。可能包含干扰杂音或者受采集设备的限制,人声并不突出都是有可能的。
- **干扰项较多**。取证通常来自于日常的对话,存咋大量的无意义或者说没有价值的内容,关键信息并不能很方便的从里面提取出来。
具体场景:警方需要对犯罪嫌疑人A的进一个月的通话记录进行取证确认犯罪嫌疑人A的活动轨迹,对犯罪嫌疑人A进行刻画。警方需要对一个月采集到的通话录音进行大致关键信息的提取和判断。
## 1.5.国家安全
在国家安全领域,语音文件通常的应用场景为对可疑人员或者敏感单位的语音通话监听或者保密检查对音频文件的预处理。
- **信息量大**。如果是对一个敏感单位的所有人的语音通话进行监听而得到的语音文件内容量是十分庞大的。
- **不一定可读**。对于间谍可能采用内部的隐语进行交流。提取的结果并不一定是可读的。
- **语音时长不确定**。同样的录音时长并不能实现进行估计
- **干扰项较多**。来自生活录音的内容垃圾信息比较多,有很多我们并不关心的内容,高价值内容比较少。
具体场景:保密单位需要对单位内的电话机进行录音和定期进行保密检查。单位得到的数据量非常庞大,采取人工的方式进行检查效率很低。保密单位需要对庞大的文件进行大致的预处理,以便筛选出含有敏感内容的录音文件。
1.6.总结
![](http://www.writebug.com/myres/static/uploads/2021/10/19/430796c24e3945a9c5b7b01fd5171c1c.writebug)
综上在商业、教育、刑侦、国家安全等四个领域中对于语音的不同的应用环境都需要对语音文件提取关键信息作为预处理,或者为其他行动做参考。由此可见语音关键字提取需求是广大的。
# 2.Implementation
## 2.1.实现的功能
我们做的该云计算的项目是一个集云存储,云计算,以及网络通信于一体的项目,在客户端我们实现了可以从本地上传一个音频文件到云服务器上,存储在云服务器中。同时我们也实现了通过这个用这个上传到云服务器上的文件进行语音识别,返回语音识别的结果,并且在服务器中完成中文分词再进行绘制词云。通过通讯服务器与客户端的TCP连接,将词云图片发送给客户端。将转码的录音文件(采样率为16000或者是8000)上传至阿里云所提供oss平台(面向对象存储),并返回文件的URL,再用自己的服务器去阿里云的录音文件识别模块发出请求,识别录音文件,将文件的内容进行分词,生成一张词云返回至本地。
## 2.2.使用的环境
- **服务器端**:Linux:CentOS,阿里云服务器,轻量应用服务器
- **客户端**:Windows10,笔记本电脑
- **使用的语言**:Python 3
- **IDE**:VisualStdio Code,
- **调用的第三方库**:aliyun-core,jieba,matplotlib,wordcloud
## 2.3.环境配置
- **服务器端的配置**:在阿里云上购买轻量应用服务器,将系统镜像导入服务器中。通过SSH与该服务器远程相连,开放服务器的某些端口用于TCP/UDP访问,通过Linux系统中的命令下载python安装包,并且通过pip命令安装必要的python第三方库。通过VIM写python代码。用python xxx命令运行py程序
- **客户端配置**:pip install PyQt5:安装qt5
- **pip install oss2**:安装阿里云oss
## 2.4.文件上传
阅读阿里云文档:
<https://help.aliyun.com/product/31815.html?spm=5176.7933691.744462.c2.76576a56K0PaMH>
其中有相当丰富oss(面向对象存储)的SDK介绍和环境配置,包括文件的上传,文件的下载,文件的管理,文件url的获取有详细的代码介绍。
## 2.5.通信
### 2.5.1.文件上传通信
### 2.5.2.通信服务器和客户端通信
通信服务器和客户端通信使用的是Socket套接字进行的通信,目的地址的ip为客户端选择的,如果服务器1的访问量过大,则选择备用服务器进行访问,提升了服务器的弹性。同时,在服务器端,我们使用的是多线程的Socket编程进行的通信,当连接完成时自动创建一个线程,当连接断开时自动释放该线程,尽可能的将能同时连接的客户端数量提高。
在图片的传输时,也是通过该连接进行的传递,先将文件的大小和名称打包传给客户端,让后将图片的各个KB依次传给客户端,客户端将其命名为new+原名称存储在本地的与工程文件相同的目录下,当然为了保证文件名称的不同,采用了一
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![7z](https://img-home.csdnimg.cn/images/20210720083312.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
收起资源包目录
![package](https://csdnimg.cn/release/downloadcmsfe/public/img/package.f3fc750b.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/DOC.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/JPG.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/PNG.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
共 27 条
- 1
资源评论
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/efa50bd0b9924b728ac8bf795a9d17d9_u010918911.jpg!1)
工具盒子
- 粉丝: 61
- 资源: 1313
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
最新资源
- 数据库管理工具:dbeaver-ce-23.3.4-amd64.deb
- 数据库管理工具:dbeaver-ce-23.3.3-amd64.deb
- 数据库管理工具:dbeaver-ce-23.3.2-amd64.deb
- 数据库管理工具:dbeaver-ce-23.3.1-amd64.deb
- 深度学习记录,训练集?
- 数据库管理工具:dbeaver-ce-23.3.0-amd64.deb
- 数据库管理工具:dbeaver-ce-23.2.5-amd64.deb
- 数据库管理工具:dbeaver-ce-23.2.4-amd64.deb
- 数据库管理工具:dbeaver-ce-23.2.3-amd64.deb
- 数据库管理工具:dbeaver-ce-23.2.2-amd64.deb
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback-tip](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)