# DiGIX-2020
2020 华为DIGIX 比赛文档
# Usage
1. 首次使用直接`git clone到本地即可`
1. 在自己文件夹创建`.gitignore`,将数据等文件夹写入`.gitignore`,不要同步数据,只同步代码。
1. 在每次写代码前要`git pull`,拉取一下队友的代码再开始写。
1. 写完代码后,使用`git add .`添加到本地缓存区,提交代码前使用`git commit -m '日志内容...'`,添加本次代码内容的日志,使用`git push`提交到GitHub,若出现merge冲突可能需要手工解决代码合并冲突。
# Introduction
```bash
$ cd zlh
$ tree -L 1
.
├── base
├── ctb_baseline0913.ipynb
├── data_reprocess_step1.py # 得到最原始的特征one-hot特征,data_reprocess要依次运行
├── data_reprocess_step2.ipynb
├── data_reprocess_step3.ipynb
├── data_reprocess_step3.py
├── data_reprocess_step4.ipynb
├── data_reprocess_step5.ipynb
├── get_sample_data.ipynb # 抽样一小部分数据用来测试代码
├── testmulti_process_0911.py # 人造的数据集用于测试代码
└── test_w2v_feature.py
```
**数据介绍**
train_data.csv给定的特征包含了
- 用户特征比如:uid age gender city device_name device_type...
- 广告特征比如:task_id adv_id creative_type_cd...
- 用户和广告交互的时间:pd_d (训练集pt_d=1~7 测试集pt_d=8)
```
label 标签
uid 匿名化处理后的用户唯一标识
task_id 广告任务唯一标识
adv_id 广告任务对应的素材id
creat_type_cd 素材的创意类型id
adv_prim_id 广告任务对应的广告主id
dev_id 广告任务对应的开发者id
inter_typ_cd 广告任务对应的素材的交互类型
slot_id 广告位id
spread_app_id 投放广告任务对应的应用id
tags 广告任务对应的应用的标签
app_first_class 广告任务对应的应用的一级分类
app_second_class 广告任务对应的应用的二级分类
age 用户的年龄
city 用户的常驻城市
city_rank 用户常驻城市的等级
device_name 用户使用的手机机型
device_size 用户使用手机的尺寸
career 用户的职业
gender 用户的性别
net_type 行为发生的网络状态
residence 用户的常驻省份
his_app_size app存储尺寸
his_on_shelf_time 上架时间
app_score app得分(百分制噪声)
emui_dev emui版本号
list_time 上市时间
device_price 设备价格
up_life_duration 华为账号用户生命时长
up_membership_grade 服务会员级别
membership_life_duration 会员用户生命时长
consume_purchase 付费用户
communication_onlinerate手机在线时段
communication_avgonline_30d 手机日在线时长
indu_name 广告行业信息
pt_d 行为发生的时间
```
**For Details**
1. data_reprocess_step1.py 保存为两个pkl文件,其中一个为所有数据,另一个为展开cmr的所有数据
1. data_reprocess_step2.py 加入统计特征,进行target encoding,具体的是使用label的mean作为target encodeing
1. data_reprocess_step3.py 对cmr做embedding,对用户过去一天的序列做embedding
没有合适的资源?快使用搜索试试~ 我知道了~
2020华为DIGIX比赛文档.zip
共138个文件
py:75个
ipynb:48个
gitignore:4个
需积分: 5 1 下载量 103 浏览量
2023-09-30
18:03:55
上传
评论
收藏 6.54MB ZIP 举报
温馨提示
2020华为DIGIX比赛文档
资源推荐
资源详情
资源评论
收起资源包目录
2020华为DIGIX比赛文档.zip (138个子文件)
.gitignore 2KB
.gitignore 2KB
.gitignore 2KB
.gitignore 39B
data_reprocess_step3.ipynb 3.14MB
step5_sample_w2vfeature.ipynb 1.47MB
step5_stage2_get_last_seq_emb.ipynb 1.27MB
step5_stage2_get_last_seq_emb.ipynb 1.27MB
get_seq_emb_V4_all (1).ipynb 1.12MB
get_last_seq_label_0917_v2.ipynb 1.06MB
stage2_model_cross_emb_10_folds_sota_0803.ipynb 829KB
stage2_model_cross_emb_10_folds_sota_0803.ipynb 829KB
get_seq_emb.ipynb 730KB
get_seq_emb_V3_all (1).ipynb 680KB
step4_stage2_get_cross_emb.ipynb 556KB
step4_stage2_get_cross_emb.ipynb 556KB
stage2_model_deepfm_10_folds_sota_0804.ipynb 420KB
stage2_model_deepfm_10_folds_sota_0804.ipynb 420KB
step4_stage2_get_adv_userseq.ipynb 408KB
step4_stage2_get_adv_userseq.ipynb 408KB
nn_method2_slotidnettype_V3.ipynb 357KB
stage1_model_1_folds_sota_08057.ipynb 338KB
stage1_model_1_folds_sota_08057.ipynb 338KB
nn_method2_slotidnettype_08057——sota.ipynb 338KB
nn_method2_slotidnettype_08057.ipynb 338KB
nn_trans_0804628.ipynb 292KB
get_last_seq_label_0917.ipynb 218KB
ctb_baseline0918.ipynb 187KB
step2_sample_basefeature.ipynb 40KB
step2_sample_basefeature.ipynb 40KB
data_reprocess_step4.ipynb 36KB
step3_stage2_base_features.ipynb 33KB
step3_stage2_base_features.ipynb 33KB
data_reprocess_step2.ipynb 23KB
step1_stage2_data_reprocess.ipynb 23KB
step1_stage2_data_reprocess.ipynb 23KB
step3_sample_windowfeature.ipynb 19KB
step3_sample_windowfeature.ipynb 17KB
step4_sample_uidfeature.ipynb 12KB
ctb_0917.ipynb 11KB
get_sample_data.ipynb 10KB
ctb_baseline0913.ipynb 9KB
step2_stage2_sampling.ipynb 8KB
step2_stage2_sampling.ipynb 8KB
data_reprocess_step5.ipynb 8KB
preprocess_data.ipynb 6KB
lgb.ipynb 5KB
xgb_cat.ipynb 4KB
catboost_baseline.ipynb 4KB
preprocess.ipynb 3KB
final_ensemble.ipynb 1KB
best_ensemble.ipynb 1KB
launch.json 448B
settings.json 81B
settings.json 80B
LICENSE 11KB
README.md 3KB
README.md 617B
2020_DIGIX_Global_AI_Challenge_Guidebook_cn.pdf 5.11MB
stage2_model_deepfm_10_folds_sota_0804.py 93KB
deepfm_w2v.py 69KB
zheng_transformer.py 31KB
nn_method2_slotidnettype_08057——sota.py 31KB
zheng_cv.py 31KB
nn_method2_slotidnettype_08057.py 31KB
stage2_model_cross_emb_10_folds_sota_0803.py 27KB
zheng_baseline.py 27KB
deepfm_trans.py 21KB
step4_stage2_get_adv_userseq.py 18KB
xdeepfm_base.py 17KB
data_reprocess_step3.py 16KB
transformer.py 16KB
DeepFM_fibinet_feature.py 15KB
step1_stage2_data_reprocess.py 14KB
reconstruct_sota.py 14KB
test_w2v_feature.py 13KB
DeepFM_original.py 13KB
step_1_sample_basefeature.py 12KB
trans_layers.py 12KB
trans_layers.py 12KB
FiBiNet_myfeature.py 12KB
step_1_sample_basefeature.py 11KB
testmulti_process_0911.py 11KB
trans_layer.py 10KB
trans_layer.py 10KB
step5_stage2_get_last_seq_emb.py 9KB
featureprocess.py 9KB
data_reprocess_step1.py 9KB
step3_stage2_base_features.py 8KB
step4_stage2_get_cross_emb.py 7KB
__init__.py 6KB
__init__.py 6KB
__init__.py 6KB
__init__.py 6KB
step_0_reprocess.py 6KB
ensemble.py 5KB
ensemble.py 5KB
ensemble.py 5KB
ensemble.py 5KB
step2_stage2_sampling.py 4KB
共 138 条
- 1
- 2
资源评论
天天501
- 粉丝: 606
- 资源: 4665
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功