⽂本分类问题不需要ResNet?⼩⼣解析DPCNN设计原理(上)
原创
⼣⼩瑶
2018-04-04⼣⼩瑶的卖萌屋
来⾃专辑
卖萌屋@⾃然语⾔处理
历史回顾
回顾⼀下图像和⽂本的发展史,似乎这就是⼀场你追我赶的游戏。在上⼀阶段的⽃争中,朴素⻉叶斯、最⼤熵、条
件随机场这些理论完备的统计机器学习模型使得⽂本分类、中⽂分词、NER等诸多⾃然语⾔处理问题取得了差强⼈
意(释义:基本使⼈满意。顺带嘲讽⼀波误⽤该词的媒体们( ̄∇ ̄))的性能,⽽这些理论完备的模型却在图像分类这种基本的
计算机视觉问题上都严重碰壁。
如今深度学习,或者具体点说卷积神经⽹络(CNN),为图像分类、⽬标检测等计算机视觉问题带来了蜕变式发
展。从LeNet、AlexNet等,到Resnet、DenseNet,深层CNN⼀次次的刷新图像分类的极限,直⾄超越⼈类。但是
在⽂本分类这个简单的问题上却迟迟未能等到深层CNN带来的惊喜。甚⾄都已经2017年了,依然有paper在讨论⽂
本分类问题有没有必要⽤深度CNN⽹络的问题,并且最后的主要结论是没啥必要,⼀层就够了[1][2]。
猜想
出现这个现象的原因有三种,⼀种是⽂本分类问题真的已经做的⾜够好了(喂喂,真的要这样欺骗记⼏吗),⼀种是深度
CNN⽹络确实不适合⽂本分类问题(emmmm这就⽐较忧伤了),还有⼀种是NLP领域还没有出现何恺明男神研究出⼀种
适合学习⾃然语⾔⽂本的深度CNN⽹络。
其实第⼆种可能性确实让⼈⽐较沮丧,⼀旦有⼈说出来,可能就会出现恶性循环,直到有⼈做出有效的模型才能结
束这个sad story。⽽冷静看的话,第三种则是很有可能的,最优化理论⾥有个经典的no-free-lunch(NFL)定理,暗
⽰我们不要试图找⼀个解决所有AI问题的通⽤模型,⽽要根据具体问题来设计具体的算法和模型。⽽现有的很多
paper的研究却貌似在忽略这个问题,从⽽得出⼀些不太靠谱的经验性结论,甚⾄包括⼀些顶会paper。
no-free-lunch延伸出的公平性⽐较问题
⽐如[1]试图说明⽂本分类问题⾥,word-level的模型(注:word-level模型是指以词为单位,character-level是指以字⺟/字符为单
位)没必要做深,作者却拿TextCNN这个专⻔为⽂本分类问题设计的浅卷积模型与DenseNet这个为图像分类问题设
计的深卷积模型做⽐较,发现DenseNet不如TextCNN于是结论说⽂本分类问题没什么必要⽤深层模型的呢,费⼒不
讨好的呢。可是亲爱的,你可知道no-free-lunch?你可知道⼀个模型不针对数据集精调超参可有多⼤性能损失?
同样的,[2]也是做了⼀个没有什么意义的尝试,其作者精⼼为⽂本分类问题设计了⼀个character-level的深度卷积
⽹,包括为其精调参数,却直接将设计完成的⽹络⽤在word-level的问题上,然后结果发现word-level的模型性能很
差,显得好像word-level的模型是真的不能⽤深度CNN的哦,如果要⽤,请切换为char-level哦。看似让word-level和
char-level保持同样的⽹络结构、层数和超参数是为了单⼀变量,实则恰好⽆视了no-free-lunch,私以为这样的⽐较
结果是没有什么意义的。当然,这篇⽂章带来的数据资源以及其他贡献还是值得肯定的。
在no-free-lunch衍伸出的公平⽐较问题上,[3]是⼀篇做的不错的⽂章。其通过多维度⽐较word-level的精⼼设计的
TextCNN模型与char-level的精⼼设计的VDCNN模型,从⽽相对谨慎的得出char-level的模型确实没有word-level模
型⾼效的结论。表1是测试集性能⽐较。