* 5月10日更新,初赛结束,总分排名6,应该进决赛了,比赛结束后会放出一个分数55+实体的单模代码
* 决赛lgb代码:https://github.com/lmhgithi/2019-sohu-competition
# SOHU-baseline
# 搜狐算法大赛(实体抽取+情感预测)的baseline~
* 没有用深度模型,用的传统的lgb当成分类做的,这里的代码只用了一个非常基本的tfidf特征,模型搭建好了,大家可以自己按照自己的想法构建特征。
* 想先做实体的部分,就没做情感,可以加一个文件features/emo_features.py继续做,因为情正面感比例较大,可以直接全预测为POS。
* 跑代码前先把训练集和测试集放到/data文件夹里
* 文件说明
- 先跑1.main_train_lmh.ipynb 再跑 1.main_test_lmh.ipynb
- models文件里是放训练好的lgb(也可以别的)模型的
- features里是放计算好的特征的
- results 提交的结果会放到这里,**提交前打开答案,替换全部"为空就可以直接提交了**
* 运行环境
- python3.7
- linux (有同学说在windows上运行会出现编码问题,暂时还不知道怎么回事~)
- jupyter notebook
如果想用传统(当做分类)的方法做,可以基于我的代码继续写下去,祝好运!心情好就点个star:star:啦~
* ps:我现在的分数是0.33(0.44 0.22)左右,不知道这样的传统方法能做到多少,大家一起努力,感觉是有潜力的~~
- 不过不知道这个repo里的代码能到多少分~我没跑过,这是我前几天的代码,大家稍微思考一下也可以很容易上分,比如添加textrank、词性等特征
更新:有群友跑了一下,实体分是0.237
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
【项目资源】: 包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。 包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、python、web、C#、EDA、proteus、RTOS等项目的源码。 【项目质量】: 所有源码都经过严格测试,可以直接运行。 功能在确认正常工作后才上传。 【适用人群】: 适用于希望学习不同技术领域的小白或进阶学习者。 可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【附加价值】: 项目具有较高的学习借鉴价值,也可直接拿来修改复刻。 对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。 【沟通交流】: 有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 鼓励下载和使用,并欢迎大家互相学习,共同进步。
资源推荐
资源详情
资源评论
收起资源包目录
搜狐算法大赛(实体+情感)简单baseline(比较容易理解)(使用lgb模型做二分类) (2).zip (16个子文件)
资料总结
features
x1.joblib 24KB
y1.joblib 5KB
1.main_train_lmh.ipynb 5KB
data
stopwords.txt 18KB
nerDict.txt 3.6MB
utils
ner.py 1KB
__pycache__
ner.cpython-36.pyc 2KB
ner.cpython-37.pyc 2KB
features_ents.cpython-37.pyc 2KB
features_ents.cpython-36.pyc 2KB
features_ents.py 1KB
1.main_test_lmh.ipynb 4KB
models
model1.joblib 4KB
results
result_1.txt 412B
result_sample.txt 1.19MB
README.md 2KB
共 16 条
- 1
资源评论
妄北y
- 粉丝: 1w+
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于图像的三维模型重建C++源代码+文档说明(高分课程设计)
- 基于聚焦法的工件立体测量方案,根据数据进行三维重建 使用HALCON处理图像,MATLAB拟合数据+源代码+数据集+效果图
- 锄战三国村 修改:货币使用不减 v1.10(2) 原创 (中文).apk
- 基于python实现的单目双目视觉三维重建+源代码+图像图片(高分课程设计)
- 基于C+++OPENCV的全景图像拼接源码(课程设计)
- 基于Python+OpenCV对多张图片进行全景图像拼接,消除鬼影,消除裂缝+源代码+文档说明+界面截图(高分课程设计)
- 基于C++实现的全景图像拼接源码(课程设计)
- 基于SIFT特征点提取和RASIC算法实现全景图像拼接python源码+文档说明+界面截图+详细注释(95分以上课程大作业)
- 基于matlab实现眼部判别的疲劳检测系统+源代码+全部数据+文档说明+详细注释+使用说明+截图(高分课程设计)
- 基于Matlab的异常姿势识别系统+源代码+全部数据+文档说明+详细注释+使用说明+截图(高分课程设计)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功