# ATEC蚂蚁开发者大赛-支付风险识别-Rank7
## 赛题描述
赛题的目的是根据历史交易数据识别当前交易是否为欺诈交易。举办方给出由一段时间内有正负标签样本的支付行为样本和没有标签的支付行为样本组成的训练数据集和一段时间后的某个时间范围内的支付行为样本构成的测试数据集,希望选手们通过机器学习算法和对无标签数据的挖掘在训练集上训练出性能稳定时效性好的模型,能够在测试集上对交易的风险进行精准判断。
赛题主页:[https://dc.cloud.alipay.com/index#/topic/intro?id=4&from=alipay](https://dc.cloud.alipay.com/index#/topic/intro?id=4&from=alipay)
## 数据编码
代码:cbc/preprocess/label_encoder.sql
功能:将 string 型特征编码为 int 型
同类里统一编码的字段:
**用户ID字段:**
user_id, opposing_id
**省份字段:**
ip_prov, cert_prov, card_bin_prov, card_mobile_prov, card_cert_prov, province
**城市字段:**
ip_city, cert_city, card_bin_city, card_mobile_city, card_cert_city, city
**证件号字段:**
card_cert_no, income_card_cert_no
**其余字段单独编码**
## 特征工程
### 提取时间特征
代码:cbc/preprocess/time_field_process.sql
功能:对 gmt_occur 进行分割处理,分离出来 ocu_date 和 ocu_hr,另外增加了 year, month, day 等特征。
### 付款方的众数特征 (历史时间)
代码:cbc/feature_engineering/user_id_is_mode_feature_cbc.sql
表名:user_id_is_mode_feature_cbc
特征名 | 特征描述
--- | ---
ip_is_most|当前 client_ip 是否为 user_id 的众数
network_is_most|当前 network 是否为 user_id 的众数
device_sign_is_most|当前 device_sign 是否为 user_id 的众数
ip_prov_is_most|当前 ip_prov 是否为 user_id 的众数
ip_city_is_most|当前 ip_city 是否为 user_id 的众数
user_id_cert_prov_is_mode|当前 cert_prov 是否为 user_id 的众数
user_id_cert_city_is_mode|当前 cert_city 是否为 user_id 的众数
user_id_card_mobile_prov_is_mode|当前 card_mobile_prov 是否为 user_id 的众数
user_id_card_mobile_city_is_mode|当前 card_mobile_city 是否为 user_id 的众数
user_id_card_cert_prov_is_mode|当前 card_cert_prov 是否为 user_id 的众数
user_id_card_cert_city_is_mode|当前 card_cert_city 是否为 user_id 的众数
mobile_oper_platform_is_most|当前 mobile_oper_platform 是否为 user_id 的众数
operation_channel_is_most|当前 operation_channel 是否为 user_id 的众数
pay_scene_is_most|当前 pay_scene 是否为 user_id 的众数
user_id_card_cert_no_is_mode|当前 card_cert_no 是否为 user_id 的众数
user_id_opposing_id_is_mode|当前 opposing_id 是否为 user_id 的众数
user_id_ver_is_mode|当前 ver 是否为 user_id 的众数
### user_id在各字段下不同值的个数特征(历史时间)
代码:cbc/feature_engineering/dist_cnt_feature/user_id_dist_cnt_feature.sql
表名:user_id_dist_cnt_feature_cbc
特征名 | 特征描述
--- | ---
user_id_client_ip_dist_cnt|user_id 不同的 ip 数目
user_id_network_dist_cnt| user_id 不同的 network 数目
user_id_device_sign_dist_cnt| user_id 不同的 device_sign 数目
user_id_ip_prov_dist_cnt| user_id 不同的ip省数目
user_id_ip_city_dist_cnt| user_id 不同的ip市数目
user_id_cert_prov_dist_cnt| user_id 不同的证件省数目
user_id_cert_city_dist_cnt|user_id 不同的证件市数目
user_id_card_mobile_prov_dist_cnt|user_id 不同的手机账号省数目
user_id_card_mobile_city_dist_cnt|user_id 不同的手机账户市数目
user_id_card_cert_prov_dist_cnt|user_id 不同的银行卡省数目
user_id_card_cert_city_dist_cnt|user_id 不同的银行卡市数目
user_id_mobile_oper_platform_dist_cnt|user_id 不同的操作平台数目
user_id_operation_channel_dist_cnt|user_id 不同的支付方式数目
user_id_pay_scene_dist_cnt|user_id 不同的支付场景数目
user_id_card_cert_no_dist_cnt|user_id 不同的证件号数目
user_id_opposing_id_dist_cnt|user_id 不同的 opposing_id 数目
user_id_ver_dist_cnt|user_id 不同的版本数目
### opposing_id 在各字段下不同值的个数特征(历史时间)
代码:cbc/feature_engineering/dist_cnt_feature/opposing_id_dist_cnt_feature.sql
表名:opposing_id_dist_cnt_feature_cbc
特征名 | 特征描述
--- | ---
opposing_id_user_id_dist_cnt|opposing_id 不同的 user_id 数目
opposing_id_client_ip_dist_cnt|opposing_id 不同的 ip 数目
opposing_id_network_dist_cnt| opposing_id 不同的 network 数目
opposing_id_device_sign_dist_cnt| opposing_id 不同的 device_sign 数目
opposing_id_ip_prov_dist_cnt| opposing_id 不同的ip省数目
opposing_id_ip_city_dist_cnt| opposing_id 不同的ip市数目
opposing_id_cert_prov_dist_cnt| opposing_id 不同的证件省数目
opposing_id_cert_city_dist_cnt|opposing_id 不同的证件市数目
opposing_id_card_mobile_prov_dist_cnt|opposing_id 不同的手机账号省数目
opposing_id_card_mobile_city_dist_cnt|opposing_id 不同的手机账户市数目
opposing_id_card_cert_prov_dist_cnt|opposing_id 不同的银行卡省数目
opposing_id_card_cert_city_dist_cnt|opposing_id 不同的银行卡市数目
opposing_id_mobile_oper_platform_dist_cnt|opposing_id 不同的操作平台数目
opposing_id_operation_channel_dist_cnt|opposing_id 不同的支付方式数目
opposing_id_pay_scene_dist_cnt|opposing_id 不同的支付场景数目
opposing_id_card_cert_no_dist_cnt|opposing_id 不同的证件号数目
opposing_id_ver_dist_cnt|opposing_id 不同的版本数目
### client_ip 在各字段下不同值的个数特征(历史时间)
代码:cbc/feature_engineering/dist_cnt_feature/client_ip_dist_cnt_feature.sql
表名:client_ip_dist_cnt_feature_cbc
特征名 | 特征描述
--- | ---
client_ip_user_id_dist_cnt|client_ip 不同的 user_id 数目
client_ip_network_dist_cnt| client_ip 不同的 network 数目
client_ip_device_sign_dist_cnt| client_ip 不同的 device_sign 数目
client_ip_cert_prov_dist_cnt| client_ip 不同的证件省数目
client_ip_cert_city_dist_cnt|client_ip 不同的证件市数目
client_ip_card_mobile_prov_dist_cnt|client_ip 不同的手机账号省数目
client_ip_card_mobile_city_dist_cnt|client_ip 不同的手机账户市数目
client_ip_card_cert_prov_dist_cnt|client_ip 不同的银行卡省数目
client_ip_card_cert_city_dist_cnt|client_ip 不同的银行卡市数目
client_ip_mobile_oper_platform_dist_cnt|client_ip 不同的操作平台数目
client_ip_operation_channel_dist_cnt|client_ip 不同的支付方式数目
client_ip_pay_scene_dist_cnt|client_ip 不同的支付场景数目
client_ip_card_cert_no_dist_cnt|client_ip 不同的证件号数目
client_ip_opposing_id_dist_cnt|client_ip 不同的 opposing_id 数目
client_ip_ver_dist_cnt|client_ip 不同的版本数目
### 付款方当前小时的交易金额特征
代码:cbc/feature_engineering/payer_amt_1hr_feature.sql
表名: payer_amt_1hr_feature
特征名 | 特征描述
--- | ---
payer_amt_avg_1hr|付款方一小时内平均金额
payer_amt_max_1hr|付款方一小时内最大金额
payer_amt_min_1hr|付款方一小时内最小金额
amt_subtract_avg_1hr|付款方当前金额减一小时平均
amt_subtract_max_1hr|付款方当前金额减一小时最大
amt_subtract_min_1hr|付款方当前金额减一小时最小
### 收款方的历史交易金额特征
代码:cbc/feature_engineering/payee_amt_feature_cbc.sql
表名:payee_amt_feature_cbc
特征名 | 特征描述
--- | ---
payee_amt_avg|收款方历史时间收款平均值
payee_amt_max|收款方历史时间收款最大值
payee_amt_min|收款方历史时间收款最小值
payee_amt_minus_avg|收款方金额减平均值
payee_amt_minus_max|收款方金额减最大值
payee_amt_minus_min|收款方金额减最小值
### 频次特征
代码:qyk/all_data_process.sql
表名:atec_all_data_feature_10
特征名 | 特征描述
--- | ---
freq_deal_sum | 过去所有历史交易的频次特征
freq_deal_1day |
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
【资源说明】 1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等专业的竞赛项目学习资料,作为参考学习借鉴。 3、本资源作为“参考资料”如果需要实现其他功能,需要能看懂代码,并且热爱钻研,自行调试。 ATEC蚂蚁开发者大赛-支付风险识别算法源码+项目说明(Rank7).zip
资源推荐
资源详情
资源评论
收起资源包目录
ATEC蚂蚁开发者大赛-支付风险识别算法源码+项目说明(Rank7).zip (39个子文件)
code_20105
qyk
pay_scene_cnt_feature.sql 6KB
all_data_process.sql 5KB
info2_cnt_feature.sql 5KB
test_data_process.sql 5KB
ver_cnt_feature.sql 6KB
oper_channel_cnt_feature.sql 6KB
ratio_feature.sql 11KB
statistics_feature.sql 4KB
cal_avg_feature.sql 13KB
calculate_skewness_kurtosis.sql 9KB
info1_cnt_feature.sql 5KB
date_feature.sql 2KB
lastday_amt_feature_test.sql 605B
train_data_process.sql 5KB
last3day_amt_feature_test.sql 645B
cal_real_avg.sql 12KB
cbc
preprocess
union_data.sql 524B
time_field_process.sql 3KB
label_encoder.sql 28KB
feature_engineering
two_field_simul_occur_feature.sql 3KB
payer_amt_1hr_feature.sql 1KB
cnt_feature_cbc.sql 1KB
pay_receive_cross_feature.sql 4KB
dist_cnt_feature
cert_no_dist_cnt_feature.sql 14KB
user_id_dist_cnt_feature.sql 13KB
opposing_id_dist_cnt_feature.sql 13KB
client_ip_dist_cnt_feature.sql 12KB
dist_cnt_1hr_feature.sql 5KB
device_sign_dist_cnt_feature.sql 13KB
mobile_plat_cnt_feature.sql 7KB
added_feature_cbc_0803.sql 3KB
payee_amt_feature_cbc.sql 1KB
lastday_cnt_feature.sql 5KB
cnt_feature_pack_2_cbc.sql 3KB
user_id_is_mode_feature.sql 13KB
added_area_equal_feature.sql 952B
math_operations_feature.sql 2KB
avg_clock_cnt_feature.sql 3KB
README.md 22KB
共 39 条
- 1
资源评论
土豆片片
- 粉丝: 1557
- 资源: 5641
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功