携程风控实时大数据处理实践
cavalry 风控实践中,携程面临着大量的数据处理挑战,包括规则复杂、数据复杂、数据分散、实时风控等。为了解决这些挑战,携程风控团队实施了以下几个关键步骤:
1. 数据预处理:对订单数据、支付数据、状态变更事件、登录/注册事件、操作日志、营销活动、用户行为数据等进行预处理,包括变量计算、黑白名单校验、策略校验、个体异常、群体异常、额度限制等。
2. 风控规则执行:依赖于大量的外部数据和实时统计数据,执行复杂的风控规则,包括规则校验、尝试行为、个体异常、群体异常等。
3. 数据流处理:对订单数据、支付数据、用户日志、状态数据等进行实时处理,包括风控接入层数据预处理、变量计算、返回风控结果、推送至Kafka等。
4. 风控结果推送:将风控结果推送至Kafka,执行实时规则和模型执行、观察规则执行、复杂模型推送至工作流等。
5. 风控风险事件存储:将风控风险事件存储至Hive,进行实时流量统计、风险画像计算、Session 分析、设备 ID 计算、设备指纹数据采集等。
6. 实时流量统计:对订单数据、支付数据、用户日志等进行实时流量统计,包括统计维度灵活、复杂、支持不同精度、数据量大、访问量大、滑动窗口跨度大等。
7. 风控挑战:携程风控团队面临着大量的挑战,包括规则复杂、数据复杂、数据分散、实时风控等。
8. 实时流量统计实现:使用Redis存储流量数据,多实例、分布式部署,充分利用Redis的原子操作,提升性能。
9. 用户行为分析:对用户行为数据进行分析,包括 Session 数据、客户端数据等,使用 Chloro 服务输出 Session 数据(行为轨迹)、客户端数据。
10. 关联查询技术:使用 Graph 存储实现关联查询,基于 HBase 实现的 Graph 存储,充分利用了 HBase 支持 1:N 数据存储特性。
携程风控实践中,携程团队通过实施以上几个关键步骤,解决了大量的挑战,实现了实时大数据处理和风控。