没有合适的资源?快使用搜索试试~ 我知道了~
利用Python实现用户群组分析.docx
1 下载量 92 浏览量
2022-12-18
07:30:28
上传
评论
收藏 181KB DOCX 举报
温馨提示
试读
21页
利用Python实现用户群组分析.docx
资源推荐
资源详情
资源评论
利用Python实现用户群组分析群组分析是用于
研究用户行为和提高增长的分析思路。在本
文中,将结合一个数据集利用Python来实现该分
析方法。
WeekO
Week 1
Week 2
Week 3
All Users
6,812 users
100.00%
2.60%
1.06%
0.86%
Nov 11,2018-Nov 17,2018
2.45B users
100 00%
2 20%
1.18%
0 94%
Nov 18, 2018-Nov 24. 2018
932 users
100.00%
3 00%
1.07%
0.97%
Nov 25,2018-Dec 1,2018
100.00%
3.56%
1.33%
1.00%
Dec 2,2018-Dec 8,2018
100 00%
3.06%
0.55%
0.44%
Dec 9,2018-Dec 15,2018
100 00%
2.69%
0.93%
Dec 16.2018-Dec 22,2018
100.00%
1.60%
. philosophicalhacker. com/post/better-cohort- analysis/
本文数据集下载地址:
-in-cosmetics-shop
、什么是群组分析ID、分类ID、产品编码、品牌、价格、用户ID、用户会
话,
总共7个属性In [2): df - pd.read_csv(
u
2019-Dec.csv") df.head()
Out(2]:
tevent_time t event_type。 product_id tcategoryJd t category.code t
0
2019-12-01 00:00:00
UTC
remove_from_cart
NaN
1
2019-12-01 00:00:00
UTC
view
5764655
NaN
2
2019-12-01 00:00:02
UTC
cart
4958
NaN
3
2019-12-01 00:00:05
UTC
view
5848413
NaN
4
2019-12-01 00:00:07
UTC
view
5824148
NaN
import numpy as npimport pandas as pd
import datetime as dtimport matplotlib.pyplot as pit
import seaborn as sns#设置汉字格式:Trebuchet MS, Tahoma, Verdana, Arial,
Helvetica,SimHei中文的幼圆、隶书等等#解决中文无法显示问题
plt.rcParamsffont.sans-serif]=['Songti SC']#解决保存图像中负号'■'显示为方块
问题
plt.rcParams['axes.unicode_minus'] = False4.2数据探索
主要查看的是数据类型、数据的行列数看大小、值
情况
df.dtypes #数据类型
数据的缺失
#结果
event_time
event_type
df.shape #数据的行列数
#结果(3533286, 9)
df.isnull().sum() #字段缺失值情况 #结果event_time0
event_type0product_id0
category_id0category_code 3474821 # 缺失值严重
brand1510289price0
user_id0user_session 779
dtype: int64五、数据清洗
主要操作是挑选数据中价格大于和去重操作:
#结果
event_time
event_type
product_id
category_id
category_code
brand price
user_id
user_session
object
object
int64
int64
object
object
float64
int64
object
dtype: object
dtype: object
In [ 7 ] : ▼ #
筛选价格大于。的行记录
df1 = df.query(
I
df1 = df.query(
II III
price > O')
在本文的案例中,群组分析是按照首次访问的时间和每次的 访问来计算时间
间隔,从而来计算留存情况,具体步骤为:
计算每个用户的首次访问时间min_day
记录后续每次访问时间和首次访问时间的间隔day_gap 因为是12月份的电
商数据,我们将一个月分成1()份, 时间周期为3天
因为上面的两个因素都是和时间相关,所以必须导入Python 中强大的datetime
库来处理时间处理的需求。
在本文的案例中,群组分析是按照首次访问的时间和每次的 访问来计算时间
间隔,从而来计算留存情况,具体步骤为:
计算每个用户的首次访问时间min_day
记录后续每次访问时间和首次访问时间的间隔day_gap 因为是12月份的电
商数据,我们将一个月分成1()份, 时间周期为3天
因为上面的两个因素都是和时间相关,所以必须导入Python 中强大的datetime
库来处理时间处理的需求。
III >获取event_time中的时间:年月曰
def get_time(datetime):
剩余20页未读,继续阅读
资源评论
yyyyyyhhh222
- 粉丝: 404
- 资源: 6万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于matlab实现车牌识别程序,和论文,自己做的,做毕业设计的可以看看 .rar
- Windows系统下安装与配置Neo4j的步骤
- 基于matlab实现潮流计算和最优潮流计算的程序1,对毕业设计有一定用处.rar
- 基于大数据学习资源推荐系统的设计与实现(部署视频)-kaic.mp4
- 哈工大形式语言和自动机2022期末含答案
- Windows系统下安装与配置Neo4j的步骤
- 哈希算法(Hash Algorithm)是一种将任意长度的二进制数据映射为较短的、固定长度的二进制值的函数.txt
- Windows系统下安装与配置Neo4j的步骤
- 在二叉树或更复杂的树形结构中,先序输出叶结点.txt
- 列出所有祖先结点的概念通常与树形结构或图论中的节点相关.txt
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功