论文研究-基于BERT的德语社交媒体文本情感分析 .pdf

所需积分/C币:50 2019-08-24 17:46:25 1.41MB .PDF
收藏 收藏
举报

基于BERT的德语社交媒体文本情感分析,李澜,叶勇超,德语语法复杂,语序多变,造成其社交媒体文本情感分析难度较大,相关研究较少。为解决以上研究难点,本文分析了德语及其社交媒体文本��
国利技论文在线 http://www.paper.edu.cn 1.标示符“RT”,是单词 retweet的缩写,表示此条 tweet非本人所写而是转发于其他账号 2.“@ jessica”表示特定的 Twitter账号,不同的是,如果“@账号名”出现在”RT”之后则 表小此条内容转发自该账号,否则表示此条内容提及该账号 3.蓝色“ Twitter”表示网络链接,多出现在涉及内容分亨的 Tweet中。在纯文本格式下, Twet中出现的链接多为短链接形式,形如htt:t.co/ SJHIXOA9f 4.“<3”表示亲吻,是常见的 Emotion表情之一。 Emotion表情一般由字符和标点组成象形 图案,通常表示含有特定情绪的面部动作,在社交媒体文本中大量出现,常见的 Emotion表 情符号如表1所示: 表1:常见的 Emotion表情 Emotion含义 Emotion示例 笑 D D )) 亲吻 吐舌头与俏皮P:P>:P=p:T:T 眨眼 ;D;∧) 吃惊 0:-0>-0o_0o.08-0 皱眉与伤心:(:(:<:<:c 哭 恼火 5.“”为面带微笑的脸,一般表示心情愉悦,是常见的Emo表情之一。Emo表情最早 由日本人 Shigetaka Kurita创作,后随着智能移动设备的普及流行全球,通常由具体的图 像表情来表示情绪,常见的Emoj表情如表2所示 表2:常见的Emoj表情及解释 Pmoj表情 表情解释 Grinning Face with smil-- Face with floor Upside- Winking ace ing eyes laughing Down face face FmOj表情⑥ 表情解释 Face blow-| Face savoring Squinting face Loudly cry-|Dizy ing a kiss food with tongue ing face face Bmo表情 表情解释 Streaming Downcast face Face with steam Tired face Angry face with sweat fr roir nose face 国利技论文在线 http://www.paper.edu.cn 除了以上特点,部分文本中还会出现重复单词,比如“Oh, Nein Neinnein, das glaube ich nicht!”,或者单词中出现重复字符,如“ Die katze ist soooooooooooo sur!”,这种重复通常表 示对某个事物或者某种情绪的强调。在对文本进行分析之前,需要结合以上特点对文本进行预 处理,具体包括:(1)删除重复字母或者单词中的多余部分;(2)删除标示符“RT”;(3)考 虑到特定用户名对情感分析无实际作用,所以消除“@用户名”;(4)因为无法通过网络链接直 接分析其指向的内容,所以删除网络链接;(5) Emotion表情不需要进行删除,但进行分词吋 不能将其拆分;(6)Fmoj表情在文本中有着对应的编码方式,如果情感分析模型支持Fmoj表 情编码,则不需要进行改动,否则需要将表情替换为对应的常用文字解释。 2基于BERT的情感分析模型 为了解决德语社交媒体文本分析的难点,我们建立了基于BERI的情感分类樸型,该模型 主要分为两部分,一部分为BERT层,主要用来提取文本的语言特征,第二部分为分类层,用 于在语言特征的基础上对文本情感进行分类,整个模型的具体结构如图2所示 BERT全称为 Bidirectional Encoder Representations from Transformers,即它是一种基 于 Transformer模型的深度双向编码器图,可以强有力地提取语言特祉,在多种自然语言(NLP) 处理任务上取得∫最佳成绩εBER中使用的 Transformer模型来自文献⑨,与使用循环神经 网络(RNN)和卷积神经网络(CNN)作为 encoder- decoder的其他大多数模型不同,它完全基 于 Attention机制,可以并行处理单词与符号,同吋也可以结合上下文中较远的关键信息,很 大稈度上提高了训练速度与性能,其结构如图3所示。双向 Transfrom深度结构的使用,使 得BERT能够联合调节所有层中的上下文对语言总体特征进行深度双向表示,极人增强了模型 的语言表征能力,可以更好地应对德语灵活多变的语序和复杂的语法。 在本模型中,BE层的句子输入主要分为三部分。第一部分为句子分词,分词使用的 是 WordPiecet入方法,包含了30000个分词词汇,并且用##来表示被分割的单词;第二部分 为位置嵌入,对分割后的单词在句子中的位置进行表示,支持的最大句子长度为512个分词; 第三部分为句子分割嵌入,表示该单词在第几个句子中,对于本文的情感分类任务只有单个 句子的分割嵌入。对于分类仟务,句子输入的首个分词是句子的类别。 BERT是多任务模型,针对情感分析这种分类任务,BERT模型对应的训练方法主要是随 机遮盖所选分词。在训练过程中,首先会在训练集中的某一个句子中选择15%的分词作为备选 遮盖词,然后把句子多次输入到模型中进行参数学习。每一次输入句子时,不是每次都完全遮 盖所有备选的分词,而是其中80%的比例用MASK标识符替换备选词,10%的比例用随机的单 词替换分词,最后10%保持分词不变,将原始句子输入。这样的训练方法,会使得模型无法预 测哪些分词会被随机遮盖或替换,因而迫使模型学习每个分词的上下文分布表征,同吋小比例 的随机遮盖和替换并不会显著影响模型的语言表征能力。以句子“ Hab einen guten Traum!” 为例,若随机选择的备选遮盖分词是“Trau”,则训练过程的句子处理如表3所示。 BE模型最后一层输出的隐状态的首个向量对应句子的类别,在此基础上可构建分类层 对文本进行情感分类。这里记该向量为C∈R,并且引入新的参数为W∈RAxH,其中K为 山国利技论文在线 http://www.paper.edu.cn Class label Classification softmax layer T1 T 2 T3 T 14 T Trm Trm Trm Trm Trm Trm BERT Trm Trm Trm Trm Trm Trm E max Token CLS elnen Traum E ! Embedding Segment A A Embedding Position 1 Ez Ea E max Embedding positive Hab gutenTraum 图2:基于BERT的情感分析模型 表3:训练时句子遮盖小例 原句 Hab einen guten Traum! 80%的训练次数 Hab einen guten [ MASK]! 10%的训练次数 Hab einen guten Katze! 10%的训练次数 Hab einen guten Traum 文本情感总的类别数。在此基础上,文本属于各个类别的概率为 P=softmax(Cw 山国利技论文在线 http://www.paper.edu.cn Output Probabilities sof tmax Linear Add norm Fe Forward I OrⅡ Feed Forward Attention Add Add norm Multi-head Masked Attention Position P Encoding Input ng Embedding Embedding Input Outputs (shifted right) 图3: Transformer结构 得益于BERT预训练模型,这里我们仅需要固定BERT模型的网络参数固定不动,而对新引入 的参数进行少量训练 3实验与结论 本文使用了文献10中的德语 Twitter语料库进行模型验证,该语料库采用人工方法将每条 wet进行情感分类,共分成情感积极(Pω sitive)、情感消极( Negative)和情感中性( atural 三类。依照Twet文本特点对该语料库进行预处理,删除重复数据,得到了共96824条文本,将 国利技论文在线 http://www.paper.edu.cn 其随机分为训练集和测试集两部分,具体构成如表4所示。对预处理后的 Twitter文本进行句 表4:训练集和验证集的数据构成 训练集 验证集 Positive Negative Neutral Positive Negative Neutra. 条数比例条数比例条数比例条数比例|条数比例条数比例 25129273%1791019.4949108533%139429.8%10452.3%223847.9% 长统计,统计结果如图4所示,可以看到处理后的 Tweet句长大多在140个分词以内,最大句长 为145。 2000 出现频次 ⊥500 500 80 100 20 140 Tweet分词长度 图4:预处理后 Twitter文本长度统计 在进行训练时,我们使用了谷歌公司发布的BERⅠ预训练模型[1,该模型具有12层网络, 参数大小为10M,支持包括德语在内的104种语言,同时也支持Emoj表情。在该预训练模型 的基础上构建' witter情感分类模型,然后利用语料库对模型进行微调。微调阶段的计算机配 置为 Intel Core i7-9700KCPU和 Nvidia geForce rtx2080Ti,耗费吋间约为10小时,训练采 用的参数如表5所小。 表5:微调(fne- tunning)阶段训练参数 最大句长学习率 batc size epoches 14 2e-5 26 50 对模型进行训练后,我们在验证集上对模型准确度进行了验证,模型训练结果和验证准确 国利技论文在线 http://www.paper.edu.cn 率如表6所 表6:模型训练与验证结果 accuracy precision reca F OSS 0.80180.89880.91990.90921.1922 最后,为了说明模型的有效性,我们将上述结果与文献[0的结果进行了对比。该文献考 虑到中性 Twitter内容所占的比例最大,在计算F1时只考虑了积极和消极 Twitter分类结果, 具体计算方式如下: F=Fi(Positive)+ Fi(Negative 2 其中F是某分类 recal和 precision的调和平均数。文献中采用的是 TwoPlanesvmbin分类器,在 同样的德语 Twitter语料库下得到的情感分类F1平均值为0.5270,而本模型的F值为0.953,远 远优于文献中的结果。以上实验数据和对比结果说明,本文提出的德语社交媟体文本情感分类 模型是有效和可靠的 本文阐述了社交媒体文本的特点,以德语为研究对象,建立了基于BERT的情感分类模型, 并通过实验证明了文本数据处理方法和模型的有效性。不足的是,本文采用的是支持多语言 的BER预训练模型,该模型能够表征多语言特性的冋时,也在一定程度上弱化∫对特定语言 进行深入建模的能力。减小模型训练时间,只利用德语语料进行模型训练,更有针对性的设计 分类层,是进·步提高本文情感分类模型的性能的可能方向。 参考文献( References) 1]刘坤林.短文本情感分析D].上海:上海交通大学,2014 2 J ansen B Zhang M, Sobel K, et al. Micro-Blogging as online word of mouth Branding Proceedings of CHI09 Extended Abstracts on Human Factors in Computing Systems 2009:3859-3864. 3 Jansen B J, Zhang M, Sobel K, et al. Twitter power: Tweets as electronic word of nouthJ Journal of the American Society for information science and Technology, 2009, 60(11) 2169-2188 4 Yue S, Xuecheng Y. The potential marketing power of microblog. Proceeding of 2010 Second International Conference on CoInlnunication SysteIns, Networks and Applica tions(ICCSNA), volume 1, 2010: 164-167 郑士梁.基于社交媒体的热点发现与情感分析研究D].南京:南京理工大学,2018 ]姜杰.社交媒体文本情感分析[D].南京:南京理工大学,2016 7崔安颀微博热点事件的公众情感分析研究[D].北京:清华大学,2013. 国利技论文在线 http://www.paper.edu.cn [8 Devlin J, Chang M, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J ar Xiv: Computation and Language, 20 9 Vaswani A, Shazeer N, Parmar N, et al. Attention is All you Need J neural information processing systems, 2017: 5998-6008 [10 I. Mozeti, L. Torgo, V. Cerqueira and J. Smailovi. Ilow to evaluate sentiment classifiers for Twitter time-ordered data? J, PLOS ONE, vol(13), no(3), 2018 11"tensorFlowcodeandpre-trainedmodelsforBertoNlinE.avAilable:https://github com/google-research/bert(2019/ 5 /6)

...展开详情
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    上传资源赚积分,得勋章
    最新推荐