## sohu2019校园算法大赛
> 队名:我想去北京。\
> 名次 初赛6,决赛10。\
> 这是我做的lightgbm单模的代码,实体初赛分数大概至少56+。详细的方案介绍在ppt里。\
> [比赛网址](https://biendata.com/competition/sohu2019/)\
> 如果对大家有帮助,帮忙点:star::star:\
> 队友github:tianjialai、[zs](https://github.com/Zessay)、[lhx](https://github.com/hogking)
- 运行mian.py就可以直接按顺序运行全部代码,**但请慎重运行,在步骤中会开启多进程并且耗费非常长的时间,建议按顺序略读代码即可。**
- 事情比较多,代码只是稍微整理了一下,没跑过,如果跑不通可以提issue
环境:
- python3.7
- linux
- 内存128gb
- 依赖包:tqdm、pandas、numpy、lightgbm、joblib、re、sklearn、collections、imblearn、jieba、gensim、scipy
各文件及其作用介绍:
1. /data 存放词典,停用词,以及分词等数据
2. /features 存放计算好的特征,里面的all_classes.csv来源于朱帅计算的类别特征
3. /models 存放训练好的模型
4. /results 存放预测的结果
5. /utils
- features_ents.py 特征计算代码,所有特征计算代码都在这个文件下
- nerdict.py 一些分词时用的代码,有加载词典、分词等方法,被features_ents.py调用
- find_threshold.py 阈值搜索代码,设置了5个阈值,可以在验证集找到合适的阈
值,并且在预测时使用,可以根据模型预测分数来控制实体数目
6. 其他的代码
- features_cal.py调用features_ents计算特征(多进程,两个16进程,所以慎重运行),特征存入/features
- cut.py 分词,结果存入data/
- tfidf.py 训练tfidf模型,存到models/
- d2v_w2v.py 训练doc2vec和word2vec模型,模型存到models/
- ners_select_features.py 计算概率相关特征 ,结果存入/features
- train.py 选择特征,并训练模型,结果存入/models
- test.py 预测,得到结果并输入到,结果存入/results_final
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
【资源说明】 1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等专业的竞赛项目学习资料,作为参考学习借鉴。 3、本资源作为“参考资料”如果需要实现其他功能,需要能看懂代码,并且热爱钻研,自行调试。 2019搜狐校园算法大赛解决方案源码+项目说明+ppt(实体lgb单模).zip
资源推荐
资源详情
资源评论
收起资源包目录
2019搜狐校园算法大赛解决方案源码+项目说明+ppt(实体lgb单模).zip (45个子文件)
code_20105
我想去北京-搜狐赛答辩(最终版).pptx 592KB
ner_select_per.py 4KB
features_cal.py 7KB
data
bert10fold.txt 18.42MB
bert10train.txt 9.82MB
user_nerdict
电视剧.txt 226KB
bertcibiao.txt 3.56MB
实体词典.txt 556KB
final_bertcibiao.txt 6.45MB
自定义词典.txt 10KB
明星.txt 60KB
歌手.txt 38KB
流行歌.txt 2KB
漫漫看_明星.txt 299KB
篮球.txt 31KB
出现的作品名字.txt 890KB
person.txt 48KB
NBA.txt 8KB
显卡.txt 649B
FIFA.txt 129KB
足球.txt 129KB
实体名词.txt 4.15MB
动漫.txt 260KB
网络流行新词.txt 151KB
手机型号.txt 18KB
创造101.txt 1KB
美食.txt 84KB
百度热点人物+手机+软件.txt 5KB
实体词典2.txt 400KB
origin_zimu.txt 12KB
电影.txt 905KB
nerDict.txt 3.6MB
val_keywords.txt 27KB
百度明星.txt 18KB
stopwords.txt 18KB
utils
find_threshold.py 3KB
nerdict.py 5KB
features_ents.py 18KB
d2v_w2v.py 2KB
mian.py 286B
cut.py 7KB
tfidf.py 568B
train.py 3KB
test.py 7KB
README.md 2KB
共 45 条
- 1
资源评论
土豆片片
- 粉丝: 1841
- 资源: 5690
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Python字符串去重的多种实现方式及性能分析
- 20241125易支付PHP网站源码
- Ansible 角色 - Java.zip
- 使用 Python 绘制爱心图形(高级版)
- 基于LQR实现的车辆轨迹跟踪matlab源码+超详细代码注释(高分项目)
- Android 和 Java 字节码查看器.zip
- android java 和 javascript bridge,灵感来自微信 webview jsbridge.zip
- Amplitude 的 JavaScript SDK.zip
- Allen Downey 和 Chris Mayfield 编写的 Think Java 支持代码 .zip
- 23种设计模式 Java 实现.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功