# 字节跳动安全AI挑战赛——色情导流用户识别
团队名称:naivenlp
## 赛题描述
- [比赛地址](https://security.bytedance.com/fe/ai-challenge#/challenge)
- 输入:用户的特征,包括基础信息、投稿信息、行为信息。
- 输出:用户的标签(1表示色情导流用户,0表示正常用户)
- 评价指标采用 $f_{\beta}$(取 $\beta=0.3$)
$$
f_{\beta} = (1 + \beta^2)\frac{\text{precision}\times \text{recall}}{\beta^2\times \text{precision}+\text{recall}}
$$
### 数据构成
- 用户基础信息
- 性别、粉丝数、个签、关注人数……
- 用户投稿信息
- 视频标题、poi、省份、投稿时间
- 用户行为信息
- 播放次数、点赞数、分享数……
## 测试环境
- Ubuntu 16.04.6 LTS
- Intel(R) Xeon(R) CPU E5-2640 v3 @ 2.60GHz
## 安装依赖
python依赖如下
```
lightgbm==3.2.1
numpy==1.19.2
pandas==1.1.5
sklearn==0.0
gensim==4.1.2
tqdm==4.50.2
```
安装依赖
```sh
pip install -r requirements.txt
```
## 使用方法
直接运行run.sh脚本即可
```sh
chmod +x run.sh
./run.sh
```
会在当前目录创建saved目录,目录结构如下
```
.
├── 1_word2vec.py
├── 2_merge_data.py
├── 3_5_train_kfold.py
├── 4_pseudo_label.py
├── config.py
├── data
│ ├── pseudo.csv
│ ├── raw
│ │ ├── 测试数据
│ │ └── 训练数据
│ ├── sentence
│ │ └── signature
│ ├── test.csv
│ ├── train.csv
│ └── ...
├── evaluate_kfold.py
├── __pycache__
├── readme.md
├── requirements.txt
├── run.sh
├── saved
│ ├── 1112_1315_0.985_0.9934
│ │ └── ...
│ ├── 1112_1320_0.985_pseudo_0.9934
│ │ └── ...
│ ├── 1112_1321_pseudo_0.985_0.9942
│ │ ├── 1112_1321_0.985_results_kfold_0.9942.csv
│ │ ├── log.log
│ │ └── ...
└── utils.py
```
总耗时约15分钟,请耐心等待。
按时间排序,saved下最近的一个目录下的csv文件即为测试集的预测结果。# 2021BytedanceSecurityAICompetition_Track1
## 方案说明
- 特征工程
- log1p 数据平滑
- 类别特征(LabelEncoder)
- 时间特征(min-max 归一化)
- 文本特征(长度、WordVec)
- 交叉特征
- 模型训练
- 10折lgb交叉验证,均值作为预测结果
- 伪标签
- 最终分数线上第二(0.9906)。
## 相关仓库
[2022BytedanceSecurityAICompetition_track1](https://github.com/entropy2333/2022BytedanceSecurityAICompetition_track1)
没有合适的资源?快使用搜索试试~ 我知道了~
比赛亚军项目基于文本和多模态数据的风险识别 题目名称色情导流用户识别源码+项目说明.zip
共10个文件
py:7个
txt:1个
sh:1个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 42 浏览量
2024-05-11
07:03:36
上传
评论
收藏 14KB ZIP 举报
温馨提示
数据构成 用户基础信息 性别、粉丝数、个签、关注人数…… 用户投稿信息 视频标题、poi、省份、投稿时间 用户行为信息 播放次数、点赞数、分享数…… 测试环境 Ubuntu 16.04.6 LTS Intel(R) Xeon(R) CPU E5-2640 v3 @ 2.60GHz 安装依赖 python依赖如下 lightgbm==3.2.1 numpy==1.19.2 pandas==1.1.5 sklearn==0.0 gensim==4.1.2 tqdm==4.50.2 安装依赖 pip install -r requirements.txt 使用方法 直接运行run.sh脚本即可 chmod +x run.sh ./run.sh 会在当前目录创建saved目录,目录结构如下
资源推荐
资源详情
资源评论
收起资源包目录
比赛亚军项目基于文本和多模态数据的风险识别 题目名称色情导流用户识别源码+项目说明.zip (10个子文件)
code
utils.py 14KB
evaluate_kfold.py 4KB
4_pseudo_label.py 3KB
readme.md 3KB
1_word2vec.py 5KB
2_merge_data.py 9KB
requirements.txt 88B
run.sh 145B
3_5_train_kfold.py 4KB
config.py 4KB
共 10 条
- 1
资源评论
FL1768317420
- 粉丝: 4438
- 资源: 4766
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 单家独院式农房户型设计110平-t3.dwg
- 有了DevExpress VCL 23.2.6 Full Source 这个版本源码,怎么能没有相应的Demo呢
- GIN+SCUI企业级后台管理系统;后端基于go语言开发,前端基于vue3开发的scui框架
- 单家独院式图纸110平方米户型水电图.dwg
- aardio - 阿里云mqtt实例
- 基于python后端开发框架
- seata-server 1.4.0和2.0.0
- signal-and-system信号与系统
- career.it.signals-systems信号与系统
- 基于TCP-IP实现的斗地主游戏(ARM-LINUX)C源码-95分以上课程设计
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功