> # ♻️ 资源
> **大小:** 464KB
> **文档链接:**[**https://www.yuque.com/sxbn/ks/100010597**](https://www.yuque.com/sxbn/ks/100010597)
> **➡️ 资源下载:**[**https://download.csdn.net/download/s1t16/87404312**](https://download.csdn.net/download/s1t16/87404312)
> **注:更多内容可关注微信公众号【神仙别闹】,如当前文章或代码侵犯了您的权益,请私信作者删除!**
> ![qrcode_for_gh_d52056803b9a_344.jpg](https://cdn.nlark.com/yuque/0/2023/jpeg/2469055/1692147256036-49ec7e0c-5434-4963-b805-47e7295c9cbc.jpeg#averageHue=%23a3a3a3&clientId=u8fb96484-770e-4&from=paste&height=140&id=u237e511a&originHeight=344&originWidth=344&originalType=binary&ratio=1.25&rotation=0&showTitle=false&size=8270&status=done&style=none&taskId=ud96bf5f7-fe85-4848-b9c2-82251181297&title=&width=140.1999969482422)
# 基于移动网络通讯行为的风险用户识别
大赛地址:[基于移动网络通讯行为的风险用户识别](https://jdata.jd.com/html/detail.html?id=3),该比赛是联通大数据公司发起的,同时作为我们的实训的比赛。下面是自己参加比赛过程的报告:
第一次参加这种比赛,发现自己经验明显不足。初赛0.787(52/624),复赛0.784(71/624),虽然成绩很差,但是感觉对新手来说是一次很好的锻炼机会。简单的介绍一下自己的一些思路。
这次比赛分为初赛和复赛两部分,自己的比赛代码也有好几个版本,这里选取得成绩最好的一次讲讲思路。
## 1 特征工程
训练数据集一共包括四个文件,用户风险标签,用户通话记录数据,用户短信记录数据,用户网站/App访问记录数据。
测试数据集一共包括三个,用户通话记录数据,用户短信记录数据,用户网站/App访问记录数据。
初赛与复赛分别使用不同的测试数据集,分为test_A,test_B,将这些训练集与测试集当正负样本平衡处理。
下面介绍的是自己能想到的一些特征。
### 1.1 用户通话记录数据表
通话表如下图 11用户通话记录表所示(下面3张图片来自比赛主页)
**图 1‑1用户通话记录表**
![](https://cdn.nlark.com/yuque/0/2024/png/2469055/1713404466332-713f483b-15b6-4406-83c6-e4df633f84f2.png#averageHue=%23f3f2f1&id=oAFJ6&originHeight=419&originWidth=726&originalType=binary&ratio=1&rotation=0&showTitle=false&status=done&style=none&title=)
对通话数据的考虑主要就是判断用户通话是否规律等,还有挖掘出用户接收的通话的特征。
对用户通话数据处理方法:
#### 1.1.1 预处理
对start_time的时变量做除以2变换,对opp_len进行分组,避免one-hot变换后分布太稀疏(对线性模型有影响),同理对天变量除以5(或者对用户的生活作息时间进行分组).
#### 1.1.2 特征提取
##### 统计特征
- 统计每个用户的号码通话的所有与不同的号码数量,以及与均值的差
- 统计用户通话in、out的不同号码数量,in、out的差值,以及所占比例。
- 统计一些特殊号码,如opp_head为100的,像运营商的号码;170、171虚拟号码段
- 统计不同opp_head的unique_count
- 通话时长的相关统计量,如均值, 最大值,中位数,标准差,最小值等
- 统计不同call_type下的opp_num
- 统计不同opp_len下的opp_num
一些特征的可视化:
**通话类型统计数均值:**
![](https://cdn.nlark.com/yuque/0/2024/png/2469055/1713404466425-49296569-cfa4-4944-b45e-91a82d5ccf4c.png#averageHue=%23ed8237&id=isdPB&originHeight=638&originWidth=827&originalType=binary&ratio=1&rotation=0&showTitle=false&status=done&style=none&title=)
**通话出入度**
![](https://cdn.nlark.com/yuque/0/2024/png/2469055/1713404466507-b2e0907f-7006-4d06-9b69-322d03e46f2b.png#averageHue=%23faebe2&id=Qfo0I&originHeight=664&originWidth=827&originalType=binary&ratio=1&rotation=0&showTitle=false&status=done&style=none&title=)
##### One-hot编码特征
- 通话类型做one-hot编码,同时与in、out做特征交叉,统计数量
- 对start_time的天变量和时变量做one-hot,统计数量
- 对天变量,统计不同日期的通话数量的相关统计量,如均值, 最大值,中位数,标准差,最小值等
### 1.2 用户短信记录数据表
用户短信数据表如下图 12用户短信记录数据表
**图 1‑2用户短信记录数据表**
![](https://cdn.nlark.com/yuque/0/2024/png/2469055/1713404466583-d9aec842-b1be-4266-a992-8a1ee7e2104a.png#averageHue=%23f4f3f2&id=WiJeH&originHeight=407&originWidth=715&originalType=binary&ratio=1&rotation=0&showTitle=false&status=done&style=none&title=)
个人觉得短信记录表比voice表重要一些,主要是被动接收的短信的特征,如opp_head、opp_len,接收的不同号码的数量,主要是一些统计特征,还有对可以分类的做one-hot变换。除此之外,找出它们之间的一些相关性特征进行组合。
对用户短信数据处理方法:
#### 1.2.1 预处理
先统计所有opp_num,再清洗掉opp_head为000的系统短信;对opp_len进行分组,对start_time的时变量和天变量做类似通话数据的处理。
#### 1.2.2 特征提取
##### 统计特征
- 统计每个opp_num所有与不同的号码数量,与均值的差
- 统计用户接收短信in、out的不同号码数量,in、out的差值,以及所占比例。
- 分组统计一些特殊号码的所有与不同的数量以及与均值的差,如opp_head为100的,像运营商的号码;170、171虚拟号码段,106的通知类短信
- 统计不同opp_len下的opp_num数量以及与均值的差
- 统计不同opp_head的数量
**一些特征可视化**
**短信接收出入度:**
![](https://cdn.nlark.com/yuque/0/2024/png/2469055/1713404466654-f491edf7-7f38-40bd-8b30-4243329a420b.png#averageHue=%23fbf7f4&id=YXnKN&originHeight=664&originWidth=867&originalType=binary&ratio=1&rotation=0&showTitle=false&status=done&style=none&title=)
**日期分组的短信变化均值:**
![](https://cdn.nlark.com/yuque/0/2024/png/2469055/1713404466752-7d432b11-9d5b-4f41-8540-2d94e8588575.png#averageHue=%23fafafa&id=eLqhJ&originHeight=382&originWidth=867&originalType=binary&ratio=1&rotation=0&showTitle=false&status=done&style=none&title=)
##### One-hot编码特征
- 对start_time的天变量和时变量做one-hot,与in、out做交叉,分别求count和unique_count
### 1.3 用户网站/App访问记录数据表
用户网站/App访问记录数据表如下图 13用户网站/App访问记录数据表
**图 1‑3用户网站/App访问记录数据表**
![](https://cdn.nlark.com/yuque/0/2024/png/2469055/1713404466815-40e3d084-dae3-4f7b-bb3e-85f24d838851.png#averageHue=%23eeeceb&id=oeliV&originHeight=250&originWidth=722&originalType=binary&ratio=1&rotation=0&showTitle=false&status=done&style=none&title=)
对用户网站/App访问记录数据主要是考虑访问的app/网站的不同的数量,以及访问时间的特征,上传流量等。
对用户网站/App访问记录数据处理方法:
#### 1.3.1 预处理
wa数据有很多缺失值,对wa_date缺失值填充-1做其他类别处理,将天数做除以5变换。求名字长度wa_len,对wa_len分组处理。
#### 1.3.2 特征提取
##### 统计特征
- 统计用户访问的wa_name所有与不同的名字的数量,与均值的差统计用户访问的名字的长度分组的数量。
- 统计用户访问的次数的相关统计量,如均值, 最大值,中位数,标准差,最小值等。
- 统计用户访问时长的相关统计量,如均值, 最大值,中位数,标准差,最小值等。
- 统计用户上传流量的相关统计量,如均值, 最大值,中位数,标准差,最小值等。
- 统计用户下载流量的相关统计量,如均值, 最大值,中位数,标准差,最小值等。
- 统计不同opp_head的数量
**一些特征可视化**
App/网站访问数量均值:
![](https://cdn.nlark.com/yuque/0/
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
详情介绍:https://www.yuque.com/sxbn/ks/100010597 训练数据集一共包括四个文件,用户风险标签,用户通话记录数据,用户短信记录数据,用户网站/App访问记录数据。 测试数据集一共包括三个,用户通话记录数据,用户短信记录数据,用户网站/App访问记录数据。 初赛与复赛分别使用不同的测试数据集,分为test_A,test_B,将这些训练集与测试集当正负样本平衡处理。
资源推荐
资源详情
资源评论
收起资源包目录
100010597-基于移动网络通讯行为的风险用户识别.zip (9个子文件)
jdata-userriskpre
简介.md 5KB
LICENSE 1KB
docs
ppt.pptx 248KB
截图.png 32KB
截图(初赛).png 33KB
报告.docx 233KB
README.md 10KB
code
feature.py 27KB
model.py 4KB
共 9 条
- 1
资源评论
神仙别闹
- 粉丝: 3689
- 资源: 7461
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功