基于 MaxCompute 平台进行机器学习并展示结果
MaxCompute 大数据计算服务中提供了机器学习平台,用户可基于该平台有效利用自己
的数据,并从中发现价值。本文主要介绍从用户行为数据收集,到在机器学习平台中运算,
最后将结果同步到 RDS 数据库中便于展示结果的一整个流程。本实验实现的目标是收集用
户的操作行为数据,抽样一部分数据进行人工标注,标注结果为满意和不满意,用 1 和 0 表
示,然后用机器学习平台对行为数据进行训练得到模型,最后以得到的模型基于用户行为预
测用户对当前结果是否满意。该实践的创新之处在于借助 DataHub 和 RDS 以及任务运维将
MaxCompute 平台和本地项目结合起来,可自动实现模型预测。
1 用户行为数据收集
本实验用的阿里云的 DataHub 收集用户行为数据。DataHub 可实时收集到用户产生的行
为并实时同步到 MaxCompute 平台中。其主要流程如下(地址为 datahub.console.aliyun.com):
1.1 创建项目
点击创建 Project 按钮弹出如下窗口:
输入自定义的项目名称点击创建即可。
点击查看可配置项目基本信息。
1.2 创建 Topic
点击创建 Topic,可配置同步到 MaxCompute 平台中哪个项目那张表的信息。其弹出的
窗口如下: