带有注意力机制的Seq2seq机器翻译.zip_Seq2seq机器翻译实验资源-CSDN文库

共12个文件

py：8个

ipynb：2个

txt：1个

机器翻译

神经网络

需积分: 5 61 浏览量 2023-07-26 22:50:36 上传评论收藏 900KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

带有注意力机制的Seq2seq 机器翻译.zip （12个子文件）

带有注意力机制的Seq2seq 机器翻译

代码

German_English

German_English.ipynb 31KB

Chinese_English

eval.py 3KB

src

preprocess.py 5KB

loss.py 2KB

preprocess

seq2seq.py 8KB

dataset.py 2KB

seq2seq2.py 14KB

cmn_zhsim.txt 1.22MB

config.py 2KB

main2.ipynb 12KB

train.py 3KB

实验报告.docx 365KB

题目：带有注意力机制的 Seq2seq 机器翻译

本文基于华为云《深度学习》课程，参考论文 Neural machine translation

by joinly learning to align and translate 对模型进行优化，并计算 BLEU 得分

对模型进行评估，使用 Multi30K 数据集，实现德语和英语的翻译

关键词：Seq2Seq 模型，注意力机制，BLEU 得分，Multi30K

1 绪言..............................................................1

1.1 参考资料 ........................................................1

1.2 工作 ............................................................1

2 理论基础..........................................................3

2.1 编码器 ..........................................................2

2.2 注意力层 ........................................................2

2.2 解码器 ..........................................................2

2.2SEQ2SEQ 模型 ....................................................3

3 系统功能设计......................................................3

4 系统设计..........................................................4

5 实践结果与分析....................................................4

5.1 实验结果 ........................................................5

5.2 分析 ............................................................6

6 使用说明 .........................................................6

6.1 数据 ............................................................6

6.2 模型训练 ........................................................6

6.3 模型验证 ........................................................7

6.4 BLEU 得分 ........................................................7

7 主要工作 .........................................................8

7.1 模型优化 ........................................................9

7.2 模型评估 .......................................................10

8 关键代码.........................................................11

8.1 SEQ2SEQ 构建 ....................................................11

8.2 TRAIN...........................................................21

8.3 BLEU 得分 ......................................................23

1 绪论

1.1 参考资料

1.华为云《深度学习》课程机器翻译

https://connect.huaweicloud.com/courses/learn/course-v1:HuaweiX+CBUCNXE129+

Self-paced/about……

2. DZMITRY B, CHO K, YOSHUA B. Neural machine translation by jointly

learning to align and translate.[J]. arXiv preprint arXiv:1409.0473, 2014

1.2 工作

原课程实验采用传统的无注意力机制的 Seq2Seq 模型实现中英文翻译，更偏

向于关注句子中的最后一个词，为了进一步优化模型，我阅读论文 Neural machine

translation by joinly learning to align and translate.，引入注意力机制，利用 BLEU 得

分进行评估对比，并使用 Multi30K 数据集，实现德语和英语的翻译。

2 理论基础

序列到序列模型（sequence to sequence model），又名 Seq2Seq 模型。它

是一种循环神经网络（Recurrent Neural Network，RNN）的变种，突破了原本 RNN

模型对于输入和输出序列长度的限制，做到将输入序列映射到另一个长度不同的

输出序列，因此常用于机器翻译的任务。

Seq2Seq 模型一般结构为编码器（encoder）+ 解码器（decoder），前者负

责把输入序列编码成一个固定长度的向量，后者将这个向量转化为可变长度的向

量。

2.1 编码器（Encoder）

在编码器中，我们输入一个序列

{

𝑥

,……,

𝑥

𝑇

}

，在 embedding 层将其转

化为向量，循环计算隐藏状态

{

ℎ

,……,

ℎ

𝑇

}

，并在最后的隐藏状态中返回上

下文向量

𝑍

ℎ

𝑇

。

使用门控循环单元模型（Gated Rrecurrent Units, GRU）。它在原始 RNN 的

基础上引入了门机制（gate mechanism），用以控制输入隐藏状态和从隐藏状态

输出的信息。其中，更新门（update gate，又称记忆门，一般用

𝑍

𝑡

表示）用于

控制前一时刻的状态信息

ℎ

𝑡

―

被带入到当前状态

ℎ

𝑡

中的程度。重置门（reset

gate，一般用

𝑟

𝑡

表示）控制前一状态

ℎ

𝑡

有多少信息被写入到当前候选集

𝑛

𝑡

上。

ℎ

𝑡

𝑅𝑁𝑁(𝑒(

𝑥

𝑡

ℎ

𝑡

―

)

2. 2 注意力层（Attention）

在机器翻译中，每个生成的词可能对应源句子中不同的词，而传统的无注意

力机制的 Seq2Seq 模型更偏向于关注句子中的最后一个词。为了进一步优化模型，

引入注意力机制。

注意力机制便是赋予源句子和目标句子中对应的词以更高的权重，它整合了

我们目前为止编码与解码的所有信息，并输出一个表示注意力权重的向量

𝑡

，用

来决定在下一步的预测

𝑦

𝑡

中应该给予哪些词更高的关注度。

图 2-1 注意力层图示

首先，明确编码器中的每一个隐藏状态和解码器中上一个时刻隐藏状态之间

的匹配程度

𝐸

𝑡

。截止到当前的时刻𝑡，编码器（encoder）中的所有信息为全部前

向和后向 RNN 的隐藏状态的组合 H，是一个有𝑇个张量的序列；解码器

（decoder）中的所有信息为上一时刻的隐藏状态

𝑠

𝑡

―

，是一个单独的张量。为

了统一二者的维度，我们需要将解码器中上一时刻的隐藏状态

𝑠

𝑡

―

重复𝑇次，接

着把处理好的解码器信息与编码器信息堆叠起来，并输入到线性层

𝑎𝑡𝑡𝑛

t 和激活

函数

𝑡𝑎𝑛ℎ

中，计算编码器与解码器隐藏状态之间的能量

𝐸

𝑡

。

𝐸

𝑡

𝑡𝑎𝑛ℎ(𝑎𝑡𝑡𝑛(

𝑠

𝑡

―

𝐻

))

当前

𝐸

𝑡

的每个 batch 中 tensor 的形状为[dec hid dim, src len]，但是注意最终

的注意力权重是需要作用在源序列之上的，所以注意力权重的维度也应该与源句

子的维度[src len]相对应。为此，我们引入了一个可学习的张量𝑣。

评论收藏

内容反馈

别管我啦就是说

粉丝: 2564
资源: 5

带有注意力机制的Seq2seq 机器翻译.zip

torch-seq2seq-attention, GRU递归和注意的seq2seq机器翻译的Torch 实现.zip

NLP：基于Seq2Seq架构实现翻译.zip

seq2seq.zip

NLP：使用s2s+注意力机制完成中英机器翻译.zip

基于seq2seq模型的风功率预测.zip

seq2seq模型和基于注意力机制的seq2seq模型

pytorch实现seq2seq和transformer机器翻译

RNN+Attention实现Seq2Seq中英文机器翻译（pytorch）实现

深度学习入门-4（机器翻译，注意力机制和Seq2seq模型，Transformer）

谷歌开源神经机器翻译模型底层框架seq2seq.zip

seq2seq-translation.zip

【48】2017年深度学习项目实战视频课程-Seq2Seq序列生模型视频教程 .txt

基于Seq2Seq模型关于NLP的问答机器人.zip

pytorch实现task4——机器翻译及相关技术；注意力机制与Seq2seq模型；Transformer

《动手学深度学习》机器翻译及相关技术；注意力机制与Seq2seq模型；Transformer

基于seq2seq模型的的字典发音预测.zip

nmt-master.zip_DEMO_nmt_seq2seq_神经 翻译_神经机器翻译

stable-diffusion部署需要的包

大规模语言模型：从理论到实践

21个免费无限制免登录chatgpt资源， OpenAI GPT-4\3.5 模型的智能对话链接

人工智能大模型介绍.pptx

ChatGPT智能AI机器人微信小程序源码-带部署教程

diabetes糖尿病数据集

LM Studio windows版本安装

transformer代码

线性代数-同济大学第七版

llama3-中文微调训练集，让llama3更懂中文

《ChatGPT中文版提示词手册，学完工作效率提升百倍！.pdf》

最新资源

nmt-master.zip_DEMO_nmt_seq2seq_神经翻译_神经机器翻译