# Abnormal Accounts Recognition
## 关联项目
https://github.com/baoyunfan0101/AbnormalAccountsRecognition
## 文件说明
datasets // 数据集(训练集、测试集)
feature engineering // 特征工程
models // 评估模型
## 测试环境
Python3.8
## 任务描述
项目来自系统认证风险预测(https://www.datafountain.cn/competitions/537)。
![image](https://github.com/baoyunfan0101/CertificationRiskPrediction/blob/main/static/problem.png)
本赛题中,参赛团队将基于用户认证行为数据及风险异常标记结构,构建用户认证行为特征模型和风险异常评估模型,利用风险评估模型去判断当前用户认证行为是否存在风险。
- 利用用户认证数据构建行为基线;
- 采用监督学习模型,基于用户认证行为特征,构建风险异常评估模型,判断当前用户认证行为是否存在风险。
## 特征工程
### 数据预处理
原始数据共包含18个特征、1个标签。但很多特征为离散的信息,不具备学习的价值,因而下面将分别阐述对每个特征采取的预处理方法。
---
- session_id(认证ID)
检查是否存在重复的认证ID,将重复的行删去后,舍弃该特征。
- op_date(认证时间)
先查找用户名和IP地址都相同的记录,然后对于每条记录,从上述用户名和IP地址都相同的记录中找出认证时间在该条记录前的最近一条记录,计算其认证时间差,作为新的特征“op_timedelta(认证时间差)”插入训练集,舍弃原始的认证时间。
- user_name(用户名)
无学习价值,舍弃。
- action(操作类型)
有“login”和“sso”两种可能的取值,分别替换为0和1。
- auth_type(首次认证方式)
有“pwd”、“sms”、“otp”、“qr”和“(无)”五种可能的取值,因此对该特征进行one-hot编码,转化为5个布尔型的离散特征。特别地,其中“(无)”对于预测值的影响非常大,又因为前四个特征可能在后续步骤中被舍弃,因此将“(无)”单独作为一个特征。
- ip(IP地址)
无学习价值,舍弃。
- ip_location_type_keyword(IP类型)
有“家庭宽带”、“代理IP”、“内网”和“公共宽带”四种可能的取值,因此对该特征进行one-hot编码,转化为4个布尔型的离散特征。
- ip_risk_level(IP威胁级别)
有“1级”、“2级”和“3级”三种可能的取值,由于三种取值间存在大小关系,因此分别将其替换为1、2和3。
- location(地点)
学习的意义较小,舍弃。
- client_type(客户端类型)
有“app”和“web”两种可能的取值,分别替换为0和1。
- browser_source(浏览器来源)
有“desktop”和“mobile”两种可能的取值,分别替换为0和1。
- device_model(设备型号)
学习的意义较小,舍弃。
- os_type(操作系统类型)
有“windows”和“macOS”两种可能的取值,分别替换为0和1。
- os_version(操作系统版本号)
学习的意义较小,舍弃。
- browser_type(浏览器类型)
有“edge”、“chrome”、“firefox”、“ie”和“safari”五种可能的取值,因此对该特征进行one-hot编码,转化为5个布尔型的离散特征。
- browser_version(浏览器版本号)
学习的意义较小,舍弃。
- bus_system_code(应用系统编码)
有“attendance”、“coremail”、“crm”、“oa”、“order-mgnt”、“reimbursement”和“salary”七种可能的取值,因此对该特征进行one-hot编码,转化为7个布尔型的离散特征。
- op_target(应用系统类目)
有“sales”、“finance”、“management”和“hr”四种可能的取值,因此对该特征进行one-hot编码,转化为4个布尔型的离散特征。
---
通过上述预处理过程,原始数据中的18个特征被编码为31个新特征。其中训练集数据带标签“risk_label(风险标识)”。
由于不同特征数据的量纲不一致,存在超出取值范围的离群数据,因此需进行数据标准化。这里基于原始数据的均值和标准差进行z-score标准化,以满足下列模型训练的需要,公式为
$$
{X'}_{i} = \frac{X_{i} - {\overset{-}{X}}_{i}}{S}
$$
其中
${X'}\_{i}$
为数据标准化后的特征;
$X_{i}$
原数据的特征;
${\overset{-}{X}}\_{i}$
为原数据特征的均值;S为原数据特征的标准差,其计算公式为
$\sqrt{\frac{\sum\limits_{i = 1}^{n}\left( {x_{i} - \overset{-}{x}} \right)^{2}}{n - 1}}$
。
*数据预处理的Python脚本在“preprocessing.py”中。*
### 特征的衍生和筛选
同一账户的操作和交易信息显然是账户特征模型的重点,而其操作和交易的时间信息(对应属性“tm_diff”)更是建立模型的重中之重。为此,我们参考RFM分析方法,对相关时间信息进行特征衍生。
RFM分析方法中的“RFM”分别指的是Recency(距离最近一次交易)、Frequency(交易频率)和Monetary(交易金额)。参考此方法的基本思想,我们从账户操作信息中提取出四个特征,分别为最近操作时间“op_recent_tm”、操作频次“op_frequency”、操作平均间隔“op_interval”和操作最小间隔“op_min_interval”;从账户交易信息中提取出五个特征,分别为最近交易时间“trans_recent_tm”、交易频次“trans_frequency”、交易金额“trans_amount”、交易平均间隔“trans_interval”和交易最小间隔“trans_min_interval”。
其中,同时在特征中保留平均间隔与最小间隔有特别的考虑。一方面,从专业角度来说,操作和交易的最小间隔是判断账户是否为人工处理的重要标准,对账户异常的识别有着特殊的价值;另一方面,平均间隔仅与账户的最早和最晚一次的操作或交易有关,而加入最小间隔能够更有效地利用数据,更完整地反映RFM分析方法中Frequency的概念。
特征的筛选过程中,除删除在上述“数据质量分析及数据预处理”部分提及的缺失值过多的属性外,还依据下面特征分析的结果进行了进一步地筛选,下面将会详细阐述。
*测试集和训练集的特征衍生也在“preprocessing_train.py”和“preprocessing_test.py”中,与数据预处理同步进行。测试集和训练集特征筛选的Python脚本分别在“screening_train.py”和“screening_test.py”中。*
### 特征分析
*特征分析的Python脚本在“iv.py”中。*
#### 特征重要性评估
**WOE**(Weight of Evidence,证据权重),是对原始自变量的一种编码形式,在对某个评价指标进行分组、离散化处理后,由下面公式计算
$$
{WOE}_{i} = ln\left( \frac{{py}_{i}}{{pn}_{i}} \right) = ln\left( \frac{\frac{y_{i}}{y_{T}}}{\frac{n_{i}}{n_{T}}} \right)
$$
其中
${WOE}\_{i}$
为第i组的WOE;
${py}\_{i}$
为第i组响应客户(即该问题中的风险账户)占所有样本中响应客户的比例;
${pn}\_{i}$
为第i组未响应客户占所有样本中未响应客户的比例;
$y_{i}$
为第i组响应客户的数量;
$y_{T}$
为第i组未响应客户的数量;
$n_{i}$
为所有样本中响应客户的数量;
$n_{T}$
为所有样本中未响应客户的数量。
**IV**(Information Value,信息价值),综合考虑了每组样本的WOE以及其在总体样本中所占的比例,可以看作WOE的加权和,在该问题中能够反映某一特征对账户风险的贡献率。某一组IV的具体计算公式为
$$
{IV}_{i} = \left( {py}_{i} - {pn}_{i} \right) \times {WOE}_{i} = \left( \frac{y_{i}}{y_{T}} - \frac{n_{i}}{n_{T}} \right) \times ln\left( \frac{\frac{y_{i}}{y_{T}}}{\frac{n_{i}}
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
毕业设计基于python用户认证数据构建评估模型预测认证行为风险系统源码+数据集+说明文档.zip毕业设计基于python用户认证数据构建评估模型预测认证行为风险系统源码+数据集+说明文档.zip毕业设计基于python用户认证数据构建评估模型预测认证行为风险系统源码+数据集+说明文档.zip毕业设计基于python用户认证数据构建评估模型预测认证行为风险系统源码+数据集+说明文档.zip毕业设计基于python用户认证数据构建评估模型预测认证行为风险系统源码+数据集+说明文档.zip毕业设计基于python用户认证数据构建评估模型预测认证行为风险系统源码+数据集+说明文档.zip
资源推荐
资源详情
资源评论
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![py](https://img-home.csdnimg.cn/images/20210720083646.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
收起资源包目录
![package](https://csdnimg.cn/release/downloadcmsfe/public/img/package.f3fc750b.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/PNG.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/PNG.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/PNG.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
共 16 条
- 1
资源评论
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/8b9566d6b7ee402eb11b3ab031c6660f_fl1768317420.jpg!1)
FL1768317420
- 粉丝: 4819
- 资源: 4985
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)