# 新闻上的文本分类:机器学习大乱斗 2017.05.05
查看完整文档: https://zhuanlan.zhihu.com/p/26729228
### 目标
1. 从头开始实践中文短文本分类,记录一下实验流程与遇到的坑
2. 运用多种机器学习(深度学习 + 传统机器学习)方法比较短文本分类处理过程与结果差别
### 工具
深度学习:keras
传统机器学习:sklearn
参与比较的机器学习方法
1. CNN 、 CNN + word2vec
2. LSTM 、 LSTM + word2vec
3. MLP(多层感知机)
4. 朴素贝叶斯
5. KNN
6. SVM
7. SVM + word2vec 、SVM + doc2vec
第 1-3 组属于深度学习方法,第 4-6 组属于传统机器学习方法,第 7 组算是种深度与传统合作的方法,画风清奇,拿来试试看看效果
### 数据集
搜狗实验室 搜狐新闻数据 下载地址:http://www.sogou.com/labs/resource/cs.php
### 先上结果
![](https://git.oschina.net/uploads/images/2017/0724/105517_0327b8f1_1452419.png "")
### 实验结论
1. 引入预训练的 word2vec 模型会给训练带来好处,具体来说:(1)间接引入外部训练数据,防止过拟合;(2)减少需要训练的参数个数,提高训练效率
2. LSTM 需要训练的参数个数远小于 CNN,但训练时间大于 CNN。CNN 在分类问题的表现上一直很好,无论是图像还是文本;而想让 LSTM 优势得到发挥,首先让训练数据量得到保证
3. 将单词在 word2vec 中的词向量加和求平均获得整个句子的语义向量的方法看似 naive 有时真挺奏效,当然仅限于短句子,长度 100 以内应该可以
4. 机器学习方法万千,具体选择用什么样的方法还是要取决于数据集的规模以及问题本身的复杂度,对于复杂程度一般的问题,看似简单的方法有可能是坠吼地
免责声明:
1.本资源仅供学习和交流使用,不保证其准确性、完整性、及时性或适用性。
2.本资源仅包含一般信息,不构成专业建议。在使用本资源时,请务必自行研究并谨慎决策。
3.我已尽力确保本资源的正确性和合法性,但不对其准确性、完整性和及时性做出保证。
4.本资源不应用于商业用途。
5.在使用本资源的过程中,用户应自行承担所有风险和责任,并遵守相关法律法规。
6.对于因使用本资源而产生的任何损失或损害,我概不负责。
请确保在使用本资源时仔细阅读并遵守以上免责声明。如果您有任何疑问或需要进一步帮助,请联系我。
武昌库里写JAVA
- 粉丝: 7230
- 资源: 3329
最新资源
- 基于stm32F1的气体监测.zip
- stm32f407 硬件SPI TFT 1.44 st7735.rar
- STM32F407核心板资料(型号FK407M1).rar
- ADI的ADC采集芯片AD7190驱动,主控IC STM32F407,通过外使SPI进行读写
- java-jsp毕业生论文管理系统计算机毕业设计程序.zip
- java-jsp毕业生信息管理系统计算机毕业设计程序.zip
- 基于java的毕业设计(源代码+论文)3套(14)
- 500kW三相光伏并网逆变器的仿真模型: 1. DC DC采用MPPT最大功率点跟踪控制; 2. DC AC采用功率外环电流内环的双闭环控制,有功功率和无功功率解耦控制+前馈补偿,SVPWM空间电压矢
- 基于java的毕业设计(源代码+论文)3套(12)
- 1_6020222704吕锡振-实验五代码.ipynb
- 台达AS228T实际案例伺服步进程序 六个步进,昆仑通态触摸屏, FB功能块实用,多次调用 注释清洗,逻辑实用
- readslc代码需要的数据文件
- 基于can总线的dsp28335升级方案 包括bootloader源码,app源码,上位机 上位机用c#,vs2013 升级过程见视频 示例工程为62kb
- jh_flutter_demo.apk
- 半桥LLC仿真模型,基于MATLAB Simulink建模仿真 可以进行LLC暂态、稳态仿真,仿真zvs特性、软启动等 仿真模型使用MATLAB 2017b搭建
- 西门子1200PLC博图自动称重配料系统程序例程,组态画面采用KTP1200触摸屏 具体为1200和变频器Modbus RTU 通 讯,托利多电子称modbus RTU通讯,带 PID 温度控制程序
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈