# text-classification
“达观杯”文本智能处理挑战赛python代码示例,逻辑回归方法
# 达观杯介绍:
类似kaggle的数据科学比赛,任何人可以参加
网址:http://www.dcjingsai.com/
可以用支付宝实名注册
# 项目名称:
“达观杯”文本智能处理挑战赛
安装Python,运行test.py代码。可以得到一个分数
# 项目代码说明:
在Python3中运行代码就可以
导入库函数
读取文件,并且删除无关东西
获取特征向量
进行训练,测试
保存文件为可以提交的CSV格式
# 输入说明
注意修改自己的路径
train_set.csv 1.5G, 普通电脑打开很吃力,随意阅读也吃力,谨慎打开;
第一行有:ID,article, Word_seg, class;
id:文章数量编号102277个文本; article:文章内容,是一些数字; Word_seg:也是一些数字; class:文本对应的类别从1到20
test_set.csv 1.38Gb,
第一行有:ID,article, Word_sequence,内容和训练集一样,只是没有了类别标签
result.csv 865 KB,
第一行有ID, class;也就是预测每一个文档的类别
# 输出内容:
```
start
/usr/local/lib/python3.7/site-packages/sklearn/externals/joblib/externals/cloudpickle/cloudpickle.py:47: DeprecationWarning: the imp module is deprecated in favour of importlib; see the module's documentation for alternative uses
import imp
/usr/local/lib/python3.7/site-packages/sklearn/linear_model/logistic.py:432: FutureWarning: Default solver will be changed to 'lbfgs' in 0.22. Specify a solver to silence this warning.
FutureWarning)
/usr/local/lib/python3.7/site-packages/sklearn/linear_model/logistic.py:459: FutureWarning: Default multi_class will be changed to 'auto' in 0.22. Specify the multi_class option to silence this warning.
"this warning.", FutureWarning)
/usr/local/lib/python3.7/site-packages/sklearn/svm/base.py:922: ConvergenceWarning: Liblinear failed to converge, increase the number of iterations.
"the number of iterations.", ConvergenceWarning)
end
[Finished in 1315.7s]
```
# 提升成绩的方法
方法
得分:0.73
数据预处理:这里的数据比较完整,不用担心
特征工程
这里技巧很足,需要不断的积累
机器学习算法
不同算法都有对应的任务类型。但是xgboost很厉害
lightboard微软开发的工具,适合大部分的情况,属于西瓜书第八章的内容。
数据增强:
给了1万条数据,变成10万条数据。
辣椒种子
- 粉丝: 4245
- 资源: 5837
最新资源
- 网上书城系统(Struts+Hibernate+Mysql).rar
- 网上书店(struts+hibernate+css+mysql).rar
- 网上书店系统(论文+jsp源程序)130220.rar
- 网上书店系统(论文+jsp源程序).rar
- 网上书店(struts+hibernate+css+mysql)130223.rar
- 系统详细配置方法.rar
- 文本编辑器.rar
- 项目申报系统(Struts2+Spring+Hibernate+Jsp+Mysql5).rar
- 纯电动汽车再生制动策略,Cruise和Simulink联合仿真,提供Cruise整车模型和simuink策略模型,有详细解析文档,可运行
- 学生成绩管理系统(SSH+MYSQL)130221.rar
- 学生成绩管理系统(SSH+MYSQL).rar
- 项目申报系统(Struts2+Spring+Hibernate+Jsp+Mysql5)130223.rar
- 移动ssh项目(struts+spring+hibernate+oracle).rar
- 阳光酒店管理系统(javaapplet+SQL)130425.rar
- 移动ssh项目(struts+spring+hibernate+oracle)130222.rar
- 音乐网站(JSP+SERVLET)130222.rar
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈