Python数据分析实战【第三章】3.12-Matplotlib箱型图【python】
【课程3.12】 箱型图 箱型图:又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图 包含一组数据的:最大值、最小值、中位数、上四分位数(Q3)、下四分位数(Q1)、异常值 ① 中位数 → 一组数据平均分成两份,中间的数 ② 上四分位数Q1 → 是将序列平均分成四份,计算(n+1)/4与(n-1)/4两种,一般使用(n+1)/4 ③ 下四分位数Q3 → 是将序列平均分成四份,计算(1+n)/4*3=6.75 ④ 内限 → T形的盒须就是内限,最大值区间Q3+1.5IQR,最小值区间Q1-1.5IQR (IQR=Q3-Q1) ⑤ 外限 → T形的盒须就是内限,最大值 在数据分析领域,可视化工具起着至关重要的作用,而Python中的Matplotlib库是数据可视化的基石之一。本节我们将深入探讨如何使用Matplotlib绘制箱型图(Boxplot),它是一种非常有效的展示一组数据分布特性的图形,包括最大值、最小值、中位数以及上四分位数(Q3)和下四分位数(Q1)。箱型图通过直观的方式展示了数据的集中趋势和离群值,对于理解和比较不同数据集的分布非常有用。 我们来理解箱型图的关键组成部分: 1. **中位数**(Median):中位数是一组数据的中间值,将数据分为相等的两部分。当数据量为奇数时,中位数是排序后的中间数值;当数据量为偶数时,中位数是中间两个数的平均值。 2. **上四分位数**(Q3):将数据集按大小排序后,位于75%位置的数值,表示数据集中75%的数据值小于或等于Q3。 3. **下四分位数**(Q1):将数据集按大小排序后,位于25%位置的数值,表示数据集中25%的数据值小于或等于Q1。 4. **内限**(Inner Limit):箱型图的“箱体”部分,它定义了Q1和Q3之间的范围,表示数据集中的大部分数据都处于这个范围内。 5. **外限**(Outer Limit):基于内限计算,通常定义为Q3 + 1.5 * IQR(四分位距)和Q1 - 1.5 * IQR,其中IQR = Q3 - Q1。外限用于识别可能的异常值,数据点如果落在这个范围之外,可能被认为是离群值。 6. **异常值**(Outliers):位于外限之外的数据点,它们可能是由于测量误差或其他异常情况导致的。异常值分为中度异常(内限之外)和极度异常(外限之外)。 在Python中,使用Matplotlib库可以方便地绘制箱型图。`plt.plot.box()` 和 `plt.boxplot()` 是两个常用的函数。 例如,以下代码演示了如何使用`plt.plot.box()`绘制箱型图: ```python import matplotlib.pyplot as plt import pandas as pd import numpy as np # 创建一个DataFrame df = pd.DataFrame(np.random.rand(10, 5), columns=['A', 'B', 'C', 'D', 'E']) # 设置颜色参数 color = {'boxes': 'DarkGreen', 'whiskers': 'DarkOrange', 'medians': 'DarkBlue', 'caps': 'Gray'} # 绘制箱型图 fig, axes = plt.subplots(2, 1, figsize=(10, 6)) df.plot.box(ylim=[0, 1.2], grid=True, color=color, ax=axes[0]) # 可以设置箱型图是否垂直 df.plot.box(vert=False, positions=[1, 4, 5, 6, 8], ax=axes[1], grid=True, color=color) ``` 在这个例子中,`ylim`用于设定y轴的显示范围,`grid`用于开启网格线,`color`用于设置箱型图各个部分的颜色,`vert=False`则会绘制水平的箱型图,`positions`用于指定每个箱型图的位置。 箱型图的使用不仅限于单个数据列,也可以绘制多列数据,或者在同一个图表上绘制多个箱型图,这在比较不同分类或者时间序列的数据分布时非常有用。 掌握如何使用Matplotlib绘制箱型图是进行数据分析工作的重要技能。它能够帮助我们快速识别数据的分布特征,检测异常值,并且可以有效地对比多个数据集的差异。通过自定义颜色、标签和其他图形属性,我们可以创建出更具洞察力和吸引力的箱型图,进一步提升数据故事的讲述效果。





















- 粉丝: 2
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 高校档案信息化建设思考与探讨.doc
- 通信运营企业全成本管理应用研究(1).docx
- 互联网+背景下跨境电商商务英语人才培养策略①(1).docx
- 基于智慧农业的电子商务建设方案(1).docx
- 计算机应用技术人才培养协议书(1).doc
- 浅谈档案信息化建设对档案工作规范化管理的促进作用(1).docx
- 物联网竞赛设备系统技术介绍(1).pptx
- 小草商城电子商务系统的规划与设计--本科毕业论文(1).doc
- 51系列单片机(2课时)市公开课一等奖省赛课微课金奖课件(1).pptx
- 信息化管理对长输管道施工中节省管材的作用(1).docx
- 计算机科学技术在生活中的应用(1).docx
- 基于大数据的精准扶贫跟踪审计程序设计(1).docx
- 数控车床数控编程(非机械类)资料(1).ppt
- 毕业设计(论文)--基于单片机的温度控制系统的设计与实现(1).doc
- 软件工程开题报告.doc
- 大数据时代背景下企业管理的新模式研究(1).docx



评论0