文本分类问题不需要ResNet？小夕解析DPCNN设计原理（下）.rar_dpcnn讲解资源-CSDN文库

共1个文件

pdf：1个

需积分: 5 51 浏览量 2023-10-13 18:16:48 上传评论收藏 607KB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

文本分类问题不需要ResNet？小夕解析DPCNN设计原理（下）.rar （1个子文件）

文本分类问题不需要ResNet？小夕解析DPCNN设计原理（下）.pdf 691KB

⽂本分类问题不需要ResNet？⼩⼣解析DPCNN设计原理（下）

原创

⼣⼩瑶

2018-04-07⼣⼩瑶的卖萌屋

来⾃专辑

卖萌屋@⾃然语⾔处理

哎呀呀，说好的不拖稿的⼜拖了两天T_T，⼩⼣过⼀阵⼦分享给你们这两天的开⼼事哦。后台催稿调参系列的⼩伙伴们不要急，

下⼀篇就是第⼆篇调参⽂啦。

好啦，接着上⼀篇⽂章，直接搬来DPCNN、ShallowCNN、ResNet的对⽐图。

从图中的a和c的对⽐可以看出，DPCNN与ResNet差异还是蛮⼤的。同时DPCNN的底层貌似保持了跟TextCNN⼀样

的结构，这⾥作者将TextCNN的包含多尺⼨卷积滤波器的卷积层的卷积结果称之为Region embedding，意思就是对

⼀个⽂本区域/⽚段（⽐如3gram）进⾏⼀组卷积操作后⽣成的embedding。

对⼀个3gram进⾏卷积操作时可以有两种选择，⼀种是保留词序，也就是设置⼀组size=3*D的⼆维卷积核对3gram进

⾏卷积（其中D是word embedding维度）；还有⼀种是不保留词序（即使⽤词袋模型），即⾸先对3gram中的3个词

的embedding取均值得到⼀个size=D的向量，然后设置⼀组size=D的⼀维卷积核对该3gram进⾏卷积。显然

TextCNN⾥使⽤的是保留词序的做法，⽽DPCNN使⽤的是词袋模型的做法，DPCNN作者argue前者做法更容易造成

过拟合，后者的性能却跟前者差不多（其实这个跟DAN⽹络（Deep averaging networks）中argue的原理和结论差

不多，有兴趣的可以下拉到下⼀部分的知乎传送⻔中了解⼀下）。

产⽣region embedding后，按照经典的TextCNN的做法的话，就是从每个特征图中挑选出最有代表性的特征，也就

是直接应⽤全局最⼤池化层（max-over-time-pooling layer），这样就⽣成了这段⽂本的特征向量（假如卷积滤波器

的size有3，4，5这三种，每种size包含100个卷积核，那么当然就会产⽣3*100幅特征图，然后将max-over-time-

pooling操作应⽤到每个特征图上，于是⽂本的特征向量即3*100=300维）。

但是显然TextCNN这样做会有很严重的问题诶，这样做的意义本质上与词袋模型（含

ngram）+weighting+NB/MaxEnt/SVM的经典⽂本分类模型没本质区别，只不过one-hot表⽰到word embedding表⽰

的转变避免了词袋模型遭遇的数据稀疏问题罢了。可以说，TextCNN本质上收益于词向量的引⼊带来的“近义词有相

近向量表⽰”的bonus，同时TextCNN恰好可以较好的利⽤词向量中的知识（近义关系）罢了。这意味着，经典模型

⾥难以学习的远距离信息（如12gram）在TextCNN中依然难以学习。那么这些⻓距离复杂模式如何让⽹络学习到

呢？

显然，要么加深全连接层，要么加深卷积层。加深哪个更好呢？⼩⼣埋下了⼀个伏笔哦，答案就在⼩⼣这个知乎回

答⾥：

传送⻔： https://www.zhihu.com/question/270245936

在得到Region embedding后，为了避免后续想象太抽象，我们不妨还是把Region embedding看成word

embedding，假想为交给⽹络后⾯的就是word embedding序列哦。

⾸先交代⼀下卷积的⼀个基本概念——等⻓卷积。我们在⽂本分类⾥最常⽤的可能是窄卷积，输⼊序列⻓度为

seq_len，卷积核⼤⼩为n的话，窄卷积后的输出序列的⻓度就是seq_len-n+1。⽽等⻓卷积顾名思义就是输出序列的

⻓度等于输⼊序列⻓度seq_len。没有想像出来的同学⾃⾏Google⼀下哦，就不展开讲啦。

那么对⽂本，或者说对word embedding序列进⾏等⻓卷积的意义是什么呢？

既然输⼊输出序列的位置数⼀样多，我们将输⼊输出序列的第n个embedding称为第n个词位，那么这时size为n的卷积核产

⽣的等⻓卷积的意义就很明显了，那就是将输⼊序列的每个词位及其左右((n-1)/2)个词的上下⽂信息压缩为该词位

的embedding，也就是说，产⽣了每个词位的被上下⽂信息修饰过的更⾼level更加准确的语义。

好，回到DPCNN上来。我们想要克服TextCNN的缺点，捕获⻓距离模式，显然就要⽤到深层CNN啦。那么直接等⻓

卷积堆等⻓卷积可不可以呢？

显然这样会让每个词位包含进去越来越多，越来越⻓的上下⽂信息，但是这样效率也太低了喂，显然会让⽹络层数

变得⾮常⾮常⾮常深，这样笨拙的操作怎么能有呢哼。不过，既然等⻓卷积堆等⻓卷积会让每个词位的embedding

描述语义描述的更加丰富准确，那么当然我们可以适当的堆两层来提⾼词位embedding的表⽰的丰富性。

所以region embedding层（这⾥假想为word embedding层，对应序列为 “⼩娟姐姐带来的抹茶⻘团好好吃哦” ）

之上就可以如图2这样设计啦：

内容反馈

QuietNightThought

粉丝: 1w+
资源: 633

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip