《动手学深度学习——机器翻译及相关技术，注意力机制与seq2seq模型，Transformer》笔记

26 浏览量 2021-01-20 11:54:26 上传评论收藏 355KB PDF 举报

动手学深度学习：机器翻译及相关技术，注意力机制与seq2seq模型，Transformer 初次学习机器翻译相关，把课程的概念题都记录一下。目录： 1、机器翻译及相关技术 2、注意力机制与seq2seq模型 3、Transformer 1、机器翻译以及相关技术 1、机器翻译以及相关技术 1、关于Sequence to Sequence模型说法错误的是： A 训练时decoder每个单元输出得到的单词作为下一个单元的输入单词。 B 预测时decoder每个单元输出得到的单词作为下一个单元的输入单词。 C 预测时decoder单元输出为句子结束符时跳出循环。 D 每个batch训练时encode 【机器翻译及相关技术】机器翻译（Machine Translation, MT）是自然语言处理领域的重要研究方向，其目标是将文本从一种语言自动转换成另一种语言。神经机器翻译（Neural Machine Translation, NMT）是近年来发展迅速的技术，它利用神经网络模型处理输入和输出的序列数据。在NMT中，模型通常采用Sequence to Sequence（Seq2Seq）架构，由一个Encoder负责理解源语言句子的含义，而Decoder则生成目标语言的翻译。 Seq2Seq模型在训练和预测阶段有不同的行为。训练时，Decoder的输入是Encoder的输出和上一时间步的Decoder隐藏状态，而在预测时，Decoder的输入是上一时间步自己生成的单词。当Decoder输出句子结束符时，预测过程结束。在每个batch的训练过程中，Encoder和Decoder的输入长度需要保持一致，以便于计算损失函数和反向传播。【注意力机制与seq2seq模型】注意力机制（Attention Mechanism）是Seq2Seq模型的一个重要改进，它模仿人类的注意力模式，允许Decoder在生成目标序列时动态关注源序列的不同部分。这解决了标准Seq2Seq模型中编码器信息压缩丢失的问题。注意力机制包括几种类型，如点积注意力（Dot-Product Attention）和MLP注意力等，其中点积注意力要求key和query的维度相同，并通过除以d的平方根来归一化。加入注意力机制的seq2seq模型，每个时间步Decoder产生的语境向量（context vector）会根据源序列的不同部分调整，从而提供更丰富的上下文信息。然而，注意力机制并不能加速模型训练，因为内部的RNN（如LSTM或GRU）仍然需要按顺序处理序列。【Transformer模型】 Transformer是Google在2017年提出的一种新型的Seq2Seq模型，它完全基于自注意力（Self-Attention）机制，抛弃了传统的RNN或CNN结构，提高了并行计算能力，大大加快了训练速度。Transformer由多个编码器（Encoder）和解码器（Decoder）堆叠而成，每个编码器和解码器都包含多层自注意力层和前馈神经网络。 Transformer中的自注意力机制允许模型同时考虑整个输入序列的信息，而不再受限于单个时间步的上下文。此外，Transformer还引入了Masking技术，以防止在解码过程中直接看到未来的信息，保证了生成过程的因果性。数据预处理在机器翻译中至关重要，包括获取数据生成器、建立词典、分词以及将单词转化为词向量。分词（Tokenization）是将文本拆分为单词或子词的步骤，为后续的模型处理做好准备。词向量（Word Embedding）则将每个单词转化为固定维度的向量，这些向量能够捕捉词汇之间的语义关系。总结来说，机器翻译涉及多种技术，如Seq2Seq模型、注意力机制和Transformer，这些技术不断推动着自然语言处理领域的进步，使得机器翻译的准确性和效率得到了显著提升。

资源详情

资源评论

资源推荐