## AudioSer介绍
AudioSer是一个先进的深度学习语音识别API服务系统,它可以将上传的.wav格式的语音文件进行转换为文本,并返回给客户端支持多种语言和口音识别,语音转换为文本支持大规模并发请求通过缓存机制避免重复处理相同的文件。
### 技术细节
API使用了sherpa_ncnn库作为深度学习框架,使用了递归神经网络模型和长短时记忆网络模型对声学特征进行建模,对语音信号序列进行处理,实现语音信号的文字转换,我使用了Flask作为 Web 服务框架,通过RESTful API的方式与客户端交互,让其性能发挥最优。
### 目录结构
```python
AudioSer
├───model
│ ├───decoder_jit_trace-pnnx.ncnn.bin
│ ├───...
│ └───tokens.txt
│───cache
│ │───log
│ └───voice
│───sox
│ └───ffmpeg.exe
│───static
│ ├───css
│ ├───...
│ └───src
│───templates
│ └───index.html
└─── AudioSer.py
|requirements.txt
│README.md
|config.py
└───
```
### 使用说明
安装模块:
```python
pip install -r requirements.txt
```
运行服务:
```python
python AudioSer.py
```
<table style="width:100%">
<tr>
<th>AudioSer web</th>
</tr>
<tr>
<td><img src="/python-api-examples/AudioSer/web.png" alt="VITS at training" height="400"></td>
</tr>
</table>
```python
http://127.0.0.1:5620
```
运行后可以访问WEB界面进行体验测试。
### AP调用
向服务器发送HTTP POST请求,音频以提交字节流方式提交仅支持wav格式。
```pytohn
POST http://127.0.0.1:5620/voice
Content-Type: audio/wav
file:1.wav
```
### curl
```python
curl -F "file=@E:\Desktop\1.wav" http://127.0.0.1:5620/voice
```
### Python
```python
import requests
url = 'http://127.0.0.1:5620/voice'
file = open('E:/Desktop/1.wav', 'rb')
files = {'file': ('2.wav', file)}
response = requests.post(url, files=files).json()
print(response)
file.close()
```
响应示例:
服务器将返回一段JSON格式的文本。
```json
{
"status": 200,
"message": "helloworld"
}
```
```json
{
"status": 200,
"message": "你好世界"
}
```
没有合适的资源?快使用搜索试试~ 我知道了~
(源码)基于Sherpancnn框架的实时语音识别系统.zip
共283个文件
h:40个
cc:38个
sh:23个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 63 浏览量
2024-11-13
18:59:15
上传
评论
收藏 2.59MB ZIP 举报
温馨提示
# 基于Sherpancnn框架的实时语音识别系统 ## 项目简介 本项目是一个基于Sherpancnn框架的实时语音识别系统,支持多种平台(如Linux、macOS、Windows、Android等),并且可以在嵌入式设备上运行。该项目利用ncnn深度学习框架进行高效的语音识别,不依赖于PyTorch等其他推理框架。 ## 项目的主要特性和功能 1. 多平台支持支持Linux、macOS、Windows、Android等多种操作系统。 2. 实时语音识别能够进行实时语音转文字处理。 3. 多语言支持支持多语言(如中文、英文)的语音识别。 4. 端点检测支持语音的开始和结束检测。 5. 模型自定义用户可以下载和使用预训练模型,也可以根据需要自定义模型。 6. 静态链接所有组件都可以静态编译,生成的可执行文件仅依赖于系统库。 ## 安装使用步骤 ### 1. 下载项目源码 bash cd yourrepository
资源推荐
资源详情
资源评论
收起资源包目录
(源码)基于Sherpancnn框架的实时语音识别系统.zip (283个子文件)
gradlew.bat 3KB
decode-file-c-api.c 5KB
generate-int8-scale-table.cc 34KB
sherpa-ncnn-ffmpeg.cc 29KB
jni.cc 14KB
zipformer-model.cc 14KB
resample.cc 13KB
conv-emformer-model.cc 10KB
lstm-model.cc 9KB
alsa.cc 9KB
model.cc 8KB
recognizer.cc 7KB
modified-beam-search-decoder.cc 6KB
sherpa-ncnn-microphone.cc 6KB
c-api.cc 6KB
features.cc 5KB
sherpa-ncnn-alsa.cc 5KB
wave-reader.cc 5KB
sherpa-ncnn.cc 4KB
endpoint.cc 4KB
test-resample.cc 4KB
recognizer.cc 3KB
tensorasstrided.cc 3KB
stream.cc 3KB
model.cc 3KB
symbol-table.cc 3KB
greedy-search-decoder.cc 3KB
poolingmodulenoproj.cc 3KB
stack.cc 3KB
simpleupsample.cc 3KB
hypothesis.cc 3KB
endpoint.cc 3KB
meta-data.cc 2KB
features.cc 1KB
sherpa-ncnn.cc 1KB
decoder.cc 1KB
microphone.cc 1KB
stream.cc 1KB
decoder.cc 1KB
display.cc 1KB
CPPLINT.cfg 519B
CPPLINT.cfg 44B
ios.toolchain.cmake 41KB
ncnn.cmake 5KB
portaudio.cmake 3KB
kaldi-native-fbank.cmake 2KB
pybind11.cmake 1KB
arm-linux-gnueabihf.toolchain.cmake 690B
aarch64-linux-gnu.toolchain.cmake 634B
riscv64-linux-gnu.toolchain.cmake 630B
RealtimeSpeechRecognitionDlg.cpp 15KB
RealtimeSpeechRecognition.cpp 3KB
pch.cpp 684B
sherpa-ncnn.cs 8KB
Program.cs 8KB
WaveReader.cs 7KB
DecodeFile.cs 4KB
microphone.csproj 475B
decode-file.csproj 455B
font-awesome.css 39KB
font-awesome.min.css 30KB
style.css 3KB
fontawesome-webfont.eot 162KB
RealtimeSpeechRecognition.vcxproj.filters 2KB
on.flac 43KB
.gitignore 7KB
.gitignore 250B
.gitignore 98B
.gitignore 46B
.gitignore 38B
.gitignore 28B
.gitignore 19B
.gitignore 13B
.gitignore 13B
.gitignore 10B
.gitignore 6B
.gitignore 6B
.gitkeep 0B
.gitkeep 0B
.gitkeep 0B
.gitkeep 0B
.gitkeep 0B
.gitkeep 0B
.gitkeep 0B
main.go 9KB
main.go 8KB
sherpa_ncnn.go 6KB
build.gradle 1KB
settings.gradle 343B
build.gradle 301B
gradlew 6KB
c-api.h 9KB
resample.h 7KB
model.h 5KB
lstm-model.h 5KB
zipformer-model.h 4KB
conv-emformer-model.h 4KB
hypothesis.h 4KB
recognizer.h 3KB
math.h 3KB
共 283 条
- 1
- 2
- 3
资源评论
t0_54coder
- 粉丝: 3054
- 资源: 5640
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于微信小程序的外卖点餐系统设计与实现ssm.zip
- java项目,毕业设计-小学家校一体“作业帮”的设计与实现
- 外卖小程序ssm.zip
- 数端子PIN数裁切后叠设备sw12可编辑全套技术开发资料100%好用.zip
- 垃圾分类小程序ssm.zip
- 微信小程序书店springboot.zip
- 食堂校园预约就餐小程序ssm.zip
- 教育培训微信小程序ssm.zip
- 将qt编写的应用程序,通过nssm做成windows服务
- 微信社团小程序ssm.zip
- 食堂订餐小程序ssm.zip
- 微信小程序的高校党费收缴系统ssm.zip
- C# Aspose.Word数据写入和表格合并.zip
- 基于微信小程序的跳蚤市场设计与实现ssm.zip
- 流浪动物救助微信小程序springboot.zip
- 基于微信小程序的网约巴士订票平台的设计与实现ssm.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功