文本分类问题不需要ResNet？小夕解析DPCNN设计原理（上）.rar_DPCNN资源-CSDN文库

共1个文件

pdf：1个

版权申诉

5星 · 超过95%的资源 172 浏览量 2023-10-18 17:28:38 上传评论收藏 438KB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

文本分类问题不需要ResNet？小夕解析DPCNN设计原理（上）.rar （1个子文件）

文本分类问题不需要ResNet？小夕解析DPCNN设计原理（上）.pdf 487KB

⽂本分类问题不需要ResNet？⼩⼣解析DPCNN设计原理（上）

原创

⼣⼩瑶

2018-04-04⼣⼩瑶的卖萌屋

来⾃专辑

卖萌屋@⾃然语⾔处理

历史回顾

回顾⼀下图像和⽂本的发展史，似乎这就是⼀场你追我赶的游戏。在上⼀阶段的⽃争中，朴素⻉叶斯、最⼤熵、条

件随机场这些理论完备的统计机器学习模型使得⽂本分类、中⽂分词、NER等诸多⾃然语⾔处理问题取得了差强⼈

意（释义：基本使⼈满意。顺带嘲讽⼀波误⽤该词的媒体们(￣∇￣)）的性能，⽽这些理论完备的模型却在图像分类这种基本的

计算机视觉问题上都严重碰壁。

如今深度学习，或者具体点说卷积神经⽹络（CNN），为图像分类、⽬标检测等计算机视觉问题带来了蜕变式发

展。从LeNet、AlexNet等，到Resnet、DenseNet，深层CNN⼀次次的刷新图像分类的极限，直⾄超越⼈类。但是

在⽂本分类这个简单的问题上却迟迟未能等到深层CNN带来的惊喜。甚⾄都已经2017年了，依然有paper在讨论⽂

本分类问题有没有必要⽤深度CNN⽹络的问题，并且最后的主要结论是没啥必要，⼀层就够了[1][2]。

猜想

出现这个现象的原因有三种，⼀种是⽂本分类问题真的已经做的⾜够好了（喂喂，真的要这样欺骗记⼏吗），⼀种是深度

CNN⽹络确实不适合⽂本分类问题（emmmm这就⽐较忧伤了），还有⼀种是NLP领域还没有出现何恺明男神研究出⼀种

适合学习⾃然语⾔⽂本的深度CNN⽹络。

其实第⼆种可能性确实让⼈⽐较沮丧，⼀旦有⼈说出来，可能就会出现恶性循环，直到有⼈做出有效的模型才能结

束这个sad story。⽽冷静看的话，第三种则是很有可能的，最优化理论⾥有个经典的no-free-lunch（NFL）定理，暗

⽰我们不要试图找⼀个解决所有AI问题的通⽤模型，⽽要根据具体问题来设计具体的算法和模型。⽽现有的很多

paper的研究却貌似在忽略这个问题，从⽽得出⼀些不太靠谱的经验性结论，甚⾄包括⼀些顶会paper。

no-free-lunch延伸出的公平性⽐较问题

⽐如[1]试图说明⽂本分类问题⾥，word-level的模型（注：word-level模型是指以词为单位，character-level是指以字⺟/字符为单

位）没必要做深，作者却拿TextCNN这个专⻔为⽂本分类问题设计的浅卷积模型与DenseNet这个为图像分类问题设

计的深卷积模型做⽐较，发现DenseNet不如TextCNN于是结论说⽂本分类问题没什么必要⽤深层模型的呢，费⼒不

讨好的呢。可是亲爱的，你可知道no-free-lunch？你可知道⼀个模型不针对数据集精调超参可有多⼤性能损失？

同样的，[2]也是做了⼀个没有什么意义的尝试，其作者精⼼为⽂本分类问题设计了⼀个character-level的深度卷积

⽹，包括为其精调参数，却直接将设计完成的⽹络⽤在word-level的问题上，然后结果发现word-level的模型性能很

差，显得好像word-level的模型是真的不能⽤深度CNN的哦，如果要⽤，请切换为char-level哦。看似让word-level和

char-level保持同样的⽹络结构、层数和超参数是为了单⼀变量，实则恰好⽆视了no-free-lunch，私以为这样的⽐较

结果是没有什么意义的。当然，这篇⽂章带来的数据资源以及其他贡献还是值得肯定的。

在no-free-lunch衍伸出的公平⽐较问题上，[3]是⼀篇做的不错的⽂章。其通过多维度⽐较word-level的精⼼设计的

TextCNN模型与char-level的精⼼设计的VDCNN模型，从⽽相对谨慎的得出char-level的模型确实没有word-level模

型⾼效的结论。表1是测试集性能⽐较。

内容反馈

版权申诉

lijian0088

2024-05-22

资源很实用，对我启发很大，有很好的参考价值，内容详细。

QuietNightThought

粉丝: 1w+
资源: 633

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip