没有合适的资源?快使用搜索试试~ 我知道了~
Taris:基于TensorFlow 2的基于变压器的在线语音识别系统
共37个文件
py:23个
wav:2个
png:2个
需积分: 12 1 下载量 181 浏览量
2021-05-26
14:31:59
上传
评论
收藏 5.37MB ZIP 举报
温馨提示
塔里斯 基于TensorFlow 2的基于变压器的在线语音识别系统 关于 Taris是[1]中描述的一种在线语音识别方法。 该系统通过学习计算其中的口头单词数来动态地分割口头句子。 解码以段的动态窗口为条件,而不是像原始序列到序列体系结构中的整个发音那样。 该存储库还维护了当前使用Transformer堆栈而不是原始循环网络[4]实施的视听对齐和融合策略AV Align [2,3]。 概述 为了进行在线解码,Taris学会计算口头句子中的单词数。 正如我们在[1]中所展示的,该任务有助于将语音输入划分为可以Swift解码的段。 但是,为了匹配脱机系统的准确性,需要更长的上下文。 下图说明了一个示例,其中解码器使用两个回溯段和超前段来调节输出模态中给定单词内的所有字符。 一旦中的所有字符decision处理和系统预测空格令牌,通过一个多段的注意分配的进步,并且在计算音频上下文向量以用于
资源推荐
资源详情
资源评论
收起资源包目录
Taris-master.zip (37个子文件)
Taris-master
.gitignore 86B
LICENSE 16KB
extract_faces.py 2KB
.github
FUNDING.yml 69B
README.md 4KB
optuna_search.py 2KB
avsr
noise_data
street_noise_downtown.wav 2.57MB
notice 196B
cafeteria_babble.wav 2.45MB
experiment.py 3KB
video.py 5KB
dataset_writer.py 14KB
__init__.py 86B
utils.py 6KB
awgn.py 3KB
metrics.py 3KB
avsr.py 17KB
loss.py 2KB
io_utils.py 12KB
audio.py 1KB
misc
labels_boundaries_lrs2 2.81MB
phoneme_list 99B
viseme_list 24B
labels_boundaries_libri_testclean 357KB
character_list 56B
optimiser.py 3KB
visualise
segmentation.py 3KB
transformer
utils.py 8KB
attention_layer.py 11KB
embedding_layer.py 3KB
beam_search.py 28KB
model.py 33KB
write_records.py 2KB
run_audiovisual.py 2KB
run_audio.py 2KB
img
taris.png 19KB
taris2.png 19KB
共 37 条
- 1
资源评论
weixin_42166626
- 粉丝: 20
- 资源: 4530
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功