# ESIM-pytorch
![高校大数据挑战赛(字节跳动)](https://github.com/dyywinner/ESIM-pytorch/blob/master/img/fm.jpg)
## 中国高校计算机大赛--大数据挑战赛(字节跳动)
比赛链接:https://www.kesci.com/home/competition/5cc51043f71088002c5b8840
### 正式赛题——文本点击率预估(5月26日开赛)
搜索中一个重要的任务是根据query和title预测query下doc点击率,本次大赛参赛队伍需要根据脱敏后的数据预测指定doc的点击率,结果按照指定的评价指标使用在线评测数据进行评测和排名,得分最优者获胜。
#### 比赛数据
| 列名 | 内容 | 样例 |
| :----: | :----: | :----: |
| query_id | int,一个query的唯一标识 | 1 |
| query | 字符string,term空格分割 | "字节跳动" |
| title | 字符string,term空格分割 | "字节跳动-百科" |
| label | int,取值{0, 1},有点击为1,无点击为0 | 1 |
*Note*: 文本数据是脱敏的,呈现方式是数字序列,所以没有现成子向量文本可用,需要自己重新训练词向量矩阵
#### 比赛评价指标: Qauc
选手提交结果的评估指标是qAUC,qAUC为不同query下AUC的平均值,计算如下:
![rank](https://github.com/dyywinner/ESIM-pytorch/blob/master/img/ps2bm1iwq.png)
其中AUCi为同一个query_id下的AUC(Area Under Curve)
### 队伍最终成绩
![rank](https://github.com/dyywinner/ESIM-pytorch/blob/master/img/finalrank_26.jpg)
## 文件结构
```
.
├── ESIM
│ ├── data
| | ├── checkpoints
│ │ └── train_data.sample
│ ├── esim
│ │ ├── data.py
| | ├── utils.py
│ │ ├── layers.py
│ │ └── models.py
│ └── utils.py
|—— 复赛ESIM线下测试版.ipynb
|__ ReadMe.md
```
**注**:data文件中的train_data.sample数据文件是官方给参赛选手线下调整模型用的样例文件,仅作测试用只有几千case。真实的比赛环境全在和鲸线上,数据量有超过10亿,所以本项目的数据文件仅是参考,模型效果与真实比赛成绩会有不同。
## ESIM 模型与结构
- A. Input encoding
+ a. 双输入query与title, 分别接入embeding层 + BiLSTM。
- B. Local inference modeling
+ a. soft_align_attention
+ b. local inference
+ c. Enhancement of local inference information
- C. Inference composition
+ a. 再一次用 BiLSTM 提取上下文信息
+ b. MaxPooling 和 AvgPooling
+ c. 全连接层,输出时经过softmax
- Key Idea:
+ a. 共享参数到参数交互的进步
+ b. 精细的设计序列式的推断结构。
+ c. 用句子间的注意力机制实现局部推断,并进一步实现全局推断。
## 复赛实验结果
在比赛中,使用ESIM模型训练query与title对,训练的数据量的增大会带来明显的提升
- 训练5kw对后,可以得到0.5750
- 训练1e对后,可以得到0.5850
- 训练1.5e对后,可以得到0.5880
- 训练2e对后,可以得到0.5882
## PS
小伙伴有什么想问的或者想要的功能接口可以提在issues里
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
【资源说明】 1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等专业的课程设计、期末大作业和毕设项目,作为参考资料学习借鉴。 3、本资源作为“参考资料”如果需要实现其他功能,需要能看懂代码,并且热爱钻研,自行调试。 中国高校计算机大赛--大数据挑战赛参赛源码+项目说明.zip
资源推荐
资源详情
资源评论
收起资源包目录
中国高校计算机大赛--大数据挑战赛参赛源码+项目说明.zip (14个子文件)
code_20105
img
ps2bm1iwq.png 24KB
exp.md 1B
fm.jpg 58KB
finalrank_26.jpg 3KB
复赛ESIM线下测试版.ipynb 64KB
ESIM
utils.py 5KB
esim
utils.py 6KB
__init__.py 0B
layers.py 8KB
model.py 8KB
data.py 14KB
data
train_data.sample 1.7MB
.gitignore 1KB
README.md 3KB
共 14 条
- 1
资源评论
土豆片片
- 粉丝: 1573
- 资源: 5636
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- VerilogVHDL\FPGA入门教程FPGA器件边练边学-快速入门Verilogvhdl
- 基于C++的mfc的仿QQ聊天系统(高分课程设计期末大作业)
- 基于Java web的学生管理系统(源码+数据库+报告)高分项目
- 基于Java web的学生管理系统(源码+数据库+报告)期末大作业&课程设计
- FM1702SL芯片13.56MHZ NFC读卡器开发板PROTELPCB图+FM1702SL中文说明书+FM1715编程指南
- 期末大作业交通数据分析与应用期末作业程序源码+实验报告.zip
- 期末大作业基于Java web的图书销售管理系统(源码+数据库)高分项目
- python-leetcode面试题解之第274题H指数.zip
- python-leetcode面试题解之第270题最接近二叉搜索树值.zip
- python-leetcode面试题解之第267题回文排列II.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功