⼤数据可视化(五)关系数据可视化 关系数据具有关联性与分布性 数据的关联性 数据的关联性 两个量化数据之间的数理关系 通过数据关联性可已根据⼀个已知的数值变化来预测另⼀个数值的变化。 散点图 散点图 正相关、负相关、不相关 # 散点图 crime = pd.read_csv("data/crimeRatesByState2005.csv") ( Scatter() .add_xaxis(crime["murder"]) .add_yaxis("", crime["burglary"]) .set_global_opts( title_opts=opts.TitleOpts(title="谋杀案和⼊室盗窃案的关联性散点图",pos_left="center"), xaxis_opts=opts.AxisOpts(splitline_opts=opts.SplitLineOpts(is_show=True),name="谋杀案",name_location="middle",name_gap=30), yaxis_opts=opts.AxisOpts(splitline_opts=opts.SplitLineOpts(is_show=True),name="⼊室盗窃案",name_location="center",name_gap=50), legend_opts=opts.LegendOpts(is_show=False) ) .set_series_opts(label_opts=opts.LabelOpts(is_show=False)) .render("result/5-2.html") ) #matplotlib实现 crime = pd.read_csv("data/crimeRatesByState2005.csv") crime=crime[crime.state!="United States"] crime=crime[crime.state!="District of Columbia"] plt.scatter(crime["murder"],crime["burglary"]) plt.show() 散点图矩阵 散点图矩阵 同时绘制多个变量间的散点图,快速发现变量间的相关性 #散点图矩阵 crime = pd.read_csv("data/crimeRatesByState2005.csv") crime=crime[crime.state!="United States"] crime=crime[crime.state!="District of Columbia"] crime=crime.drop(["population"],axis=1) crime=crime.drop(["state"],axis=1) g=sns.pairplot(crime,diag_kind="kde",kind='reg')#kde密度曲线reg拟合曲线 plt.show() ⽓泡图 ⽓泡图 由⼤⼩不同的标记表⽰,便于⽐较三个变量 数据的分布性 数据的分布性 可视化图⼏乎可以表⽰所有数据的内容,并且将数据分布的情况也呈现。 例如曲线平坦,代表数据分布均匀;重⼼偏左,⼤部分数据取较低的数值;呈现正态分布。表⽰⼤部分数据在平均值附近。 茎叶图 茎叶图 可以⼀次完成统计分组和次数分配,是探索数据分析中对数据初步形象的描绘。 优点: 1. 统计图上没有原始数据的损失 2. 图中的数据可以随时记录和添加,⽅便使⽤ 直⽅图 直⽅图 ⾼度表⽰数值频率,宽度数值区间。 密度图 密度图 反映数据分布的密度情况。
- 粉丝: 168
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助