# “神策杯”2018高校算法大师赛第二名代码
> 队伍:发SCI才能毕业
## 比赛信息
比赛链接:http://www.dcjingsai.com/common/cmpt/“神策杯”2018高校算法大师赛_竞赛信息.html
数据集issues里面有百度网盘链接
任务:训练出一个”关键词提取”的模型,提取10万篇资讯文章的关键词。
数据:1) all\_docs.txt,108295篇资讯文章数据,数据格式为:ID 文章标题 文章正文,中间由\\001分割。2) train\_docs_keywords.txt,1000篇文章的关键词标注结果,数据格式为:ID 关键词列表,中间由\\t分割。
## 目录说明
- jieba:修改过的jieba库。
- 字典:存放jieba词库。PS:词库来源于搜狗百度输入法词库、爬虫获取的明星词条和LSTM命名实体识别结果。
- all_docs.txt: 训练语料库
- train_docs_keywords.txt:我把明显错误的一些关键词改回来了,例如D039180梁静茹->贾静雯、D011909泰荣君->泰容君等
- classes_doc2vec.npy:gensim默认参数的doc2vec+Kmeans对语料库的聚类结果。
- my_idf.txt:计算得来的语料库的idf文件。
- lgb_sub_9524764012949717.npy LGB的某一次预测值,用于特征生成
- stopword.txt:停用词
- Get_Feature.ipynb:特征生成notebook,对训练集和测试集生成对应的文件
- lgb_predict.py:预测并输出结果的脚本。需要train_df_v7.csv和test_df_v7.csv。
- train_df_v7.csv,test_df_v7.csv:Get_Feature.ipynb 跑出来的结果,notebook有详细特征说明
- word2vec模型下载地址:https://pan.baidu.com/s/1krH0ThIqvldmF5gfOZ6s7A 提取码:tw0m。
- doc2vec模型下载地址:链接:https://pan.baidu.com/s/17ZYAbTeqsXXq-hE3z3QqmA 提取码:0ciw.
## 运行说明
1. 运行Get_Feature.ipynb获取train_df_v7.csv和test_df_v7.csv.
2. 运行lgb_predict.py 获取结果sub.csv。
## 依赖包
```
numpy 1.14.0rc1
pandas 0.23.0
sklearn 0.19.0
lightgbm 2.0.5
scipy 1.0.0
```
## 解题思路方案说明
1. 利用jieba的tfidf方法筛选出Top20的候选关键词
2. 针对每条样本的候选关键词提取相应的特征,把关键词提取当作是普通二分类问题。特征可以分为以下两类:1)样本文档自身特征:例如文本的长度、句子数、聚类结果等;2)候选关键词自身特征:关键词的长度、逆词频等;3)样本文本和候选关键词的交互特征:词频、头词频、tfidf、主题相似度等;4)候选关键词之间的特征:主要是关键词之间的相似度特征。5)候选关键词与其他样本文档的交互特征:这里有两个非常强的特征,第一是在整个数据集里被当成候选关键词的频率,第二个与点击率类似,算在整个文档中预测为正样本的概率结果大于0.5的数量(在提这个特征的时候我大概率以为会过拟合,但是效果出乎意料的好,所以也没有做相应的平滑,或许是因为结果只选Top2的关键词,这里概率选0.5会有一定的平滑效果,具体操作请看lgb_predict.py的31-42行)。
3. 利用LightGBM解决上述二分类问题,然后根据LightGBM的结果为每条文本选出预测概率Top2的词作为关键词输出即可。
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
【目标受众】: 本项目适合IT相关专业各种计算机技术的源代码和项目资料,如计科、人工智能、通信工程、自动化和电子信息等的在校学生、老师或者企业员工下载使用。 也适合小白学习进阶,可以用作比赛项目、可以进行项目复刻去参加同赛道比赛。 【资源内容】: 源码与竞赛资料:教育部认可的大学生竞赛备赛资料代码、源码、竞赛总结。 功能与质量保证:这个资源库是一个宝贵的学习平台,有助于他们深入了解计算机技术的原理和应用。这些源码经过测试和验证,可以直接运行,方便学生快速上手并开始实践。 【应用场景】: 竞赛准备:适用于各种教育部认可的竞赛,如全国电子设计大赛、全国大学生智能汽车竞赛等,他们可以借助这些资料了解竞赛的规则、要求和技巧。 学习与项目开发:可以用作毕设、课设、作业和竞赛项目的开发基础,可以使用这些源码作为项目开发的基础,快速构建出具有竞争力的作品。 【互动与交流】: 资料鼓励下载和使用这些资源,并欢迎学习者进行沟通交流、互相学习、共同进步。这种互动式的学习方式有助于形成良好的学习氛围,促进知识的共享和传播,为计算机相关专业的学习者提供了一个全面的学习和发展平台。
资源推荐
资源详情
资源评论
收起资源包目录
神策杯2018高校算法大师赛(中文关键词提取)第二名代码方案.zip (76个子文件)
资料总结
lgb_sub_9524764012949717.npy 16.27MB
神策杯答辩PPT.pptx 152KB
字典
电视剧.txt 226KB
自定义词典.txt 10KB
明星.txt 60KB
歌手.txt 38KB
流行歌.txt 2KB
漫漫看_明星.txt 299KB
篮球.txt 31KB
出现的作品名字.txt 890KB
person.txt 48KB
NBA.txt 8KB
显卡.txt 634B
FIFA.txt 129KB
足球.txt 129KB
实体名词.txt 4.15MB
动漫.txt 260KB
网络流行新词.txt 151KB
手机型号.txt 18KB
创造101.txt 1KB
美食.txt 84KB
百度热点人物+手机+软件.txt 5KB
origin_zimu.txt 12KB
电影.txt 905KB
val_keywords.txt 27KB
百度明星.txt 18KB
my_idf.txt 17.74MB
lgb_predict.py 8KB
classes_doc2vec.npy 423KB
stopword.txt 13KB
Get_Feature.ipynb 38KB
README.md 3KB
jieba
__init__.py 18KB
analyse
__init__.py 501B
textrank.py 4KB
idf.txt 5.91MB
tfidf.py 4KB
analyzer.py 1KB
__pycache__
tfidf.cpython-36.pyc 4KB
analyzer.cpython-36.pyc 2KB
__init__.cpython-36.pyc 651B
textrank.cpython-36.pyc 4KB
_compat.py 1KB
finalseg
__init__.py 3KB
prob_start.py 93B
prob_emit.py 1.26MB
prob_trans.p 260B
prob_start.p 109B
prob_trans.py 241B
__pycache__
prob_trans.cpython-36.pyc 398B
prob_emit.cpython-36.pyc 868KB
prob_start.cpython-36.pyc 269B
__init__.cpython-36.pyc 3KB
prob_emit.p 1.22MB
dict.txt.big.txt 8.19MB
dict.txt 4.84MB
__main__.py 2KB
posseg
__init__.py 9KB
char_state_tab.p 2.02MB
prob_start.py 7KB
prob_emit.py 3.8MB
prob_trans.p 138KB
viterbi.py 2KB
prob_start.p 8KB
prob_trans.py 242KB
char_state_tab.py 1.54MB
__pycache__
prob_trans.cpython-36.pyc 202KB
prob_emit.cpython-36.pyc 2.24MB
char_state_tab.cpython-36.pyc 1.28MB
prob_start.cpython-36.pyc 9KB
__init__.cpython-36.pyc 8KB
viterbi.cpython-36.pyc 2KB
prob_emit.p 3.08MB
__pycache__
__main__.cpython-36.pyc 2KB
_compat.cpython-36.pyc 2KB
__init__.cpython-36.pyc 15KB
共 76 条
- 1
资源评论
妄北y
- 粉丝: 2w+
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于springboot+vue的养老院管理系统源码+数据库脚本(高分毕业设计)
- 2000-2023年上市公司异质性分组、实证论文异质性检验、上市公司行业分组检验-最新出炉.zip
- DirectX 11 Bloom 后期处理.zip
- Mif精灵/coe(mif)文件生成器
- 离心泵机械密封损坏的原因及处理方法 离心泵密封损坏的原因有如下六项,每项的具体内容及处理方法如下: 一、离心泵用水水质差,含颗粒 由于水质差,含有小颗粒及介质中盐酸盐含量高,形成磨料磨损离心泵机封
- linux下Qt编程 使用Google Breakpad捕获异常的使用步骤
- 控制学智能控制-模糊PID控制器与C语言实现
- 封装组件-G2绘制 雷达图及保姆级注解
- DirectX 1-7 包装器项目,用于使旧游戏在新硬件上运行.zip
- DirectX + MFC 对话框基础 + VS2015.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功