numpy,pandas,matplot常用函数
### numpy,pandas,matplotlib 常用函数详解 #### 一、numpy 概述与基本操作 **1. 数据类型** - **Ndarray**:多维数组对象,是 numpy 的核心数据结构。 **2. 创建数组** - **使用 `arange` 创建一维数组**: ```python A = np.arange(5) ``` 这将创建一个从0到4的一维数组。 - **改变数组的维度**: ```python B = A.reshape((1, 5)) # 改变为一行五列的数组 ``` - **数组组合** - **列组合**:`np.column_stack((A, B))` - **行组合**:`np.row_stack((A, B))` - **数组分割** - **水平分割**:`np.hsplit(A, 4)`,按列分割为4列 - **垂直分割**:`np.vsplit(A, 4)`,按行分割为4行 - **深度分割**:适用于三维以上的数组。 - **创建特殊数组** - **单位矩阵**:`np.eye(2)`,创建一个2x2的单位矩阵。 - **对角矩阵**: ```python data3 = np.diag([1, 2, 5]) ``` 创建对角线元素为指定值的二维数组。 **3. 数组的索引和切片** - 数组的索引和切片遵循 Python 的索引规则,即索引从0开始,且切片操作是左闭右开的。 **4. 数组变形** ```python a = np.arange(24).reshape((2, 3, 4)) ``` **5. 组合与分割** - **水平组合**:`np.hstack((a, b))` - **垂直组合**:`np.vstack((a, b))` **6. 运算和通用函数** - **基础运算**:支持数组间的加减乘除操作。 - **通用函数**:包括三角函数、指数函数等数学函数。 - **统计函数**:如计算均值、方差、标准差等。 **7. 矩阵操作** - **创建矩阵**:`np.matrix()` 或 `np.mat()` - **矩阵乘法**:`A * B` 表示元素级乘法,`np.dot(A, B)` 表示矩阵乘法。 - **基本操作**:转置、求逆等。 #### 二、pandas 基础和应用 **1. 常用的数据对象** - **Series对象**:一维数组,可以通过 `pd.Series(data, index)` 创建。 - 当 `data` 是字典时,键作为索引。 - **DataFrame对象**:二维数据表,可通过 `pd.DataFrame(data, index, columns)` 创建。 - `data` 可以为嵌套列表、二维数组、字典或另一个 DataFrame。 - `index` 和 `columns` 用于指定行和列的索引。 - **Panel对象**:三维数据表,通过 `pd.Panel(data, items, major_axis, minor_axis)` 创建。 - `data` 可以是三维数组、嵌套列表、字典等。 - `items`、`major_axis` 和 `minor_axis` 分别对应三个维度的索引。 **2. 数据转换** - **从 CSV 文件读取数据**:`pd.read_csv(filepath_or_buffer)` - **从字典创建 DataFrame**:`pd.DataFrame.from_dict(data, orient)` - **从其他格式读取数据**:如从 Excel 文件 (`pd.read_excel`) 或 SQL 查询 (`pd.read_sql_query`) 等。 **3. 数据索引和切片** - **按位置索引**:`df.iloc[index]` - **按标签索引**:`df.loc[label]` **4. DataFrame 转为 numpy 数组** - 使用 `df.values` 将 DataFrame 转换为 numpy 数组。 #### 三、matplotlib 和 seaborn 图形绘制 **1. matplotlib** - **基本绘图**: - 使用 `plt.plot(x, y)` 绘制基本图形。 - 设置标题、轴标签、图例等。 - **自定义样式**:通过 `plt.style.use(style)` 设置图形风格。 **2. seaborn** - **散点图**:`sns.scatterplot(x='population', y='profit', data=df)` - **密度图**:`sns.kdeplot(data=df['profit'])` - **热力图**:`sns.heatmap(df.corr(), annot=True)` - **线性回归图**:`sns.lmplot('population', 'profit', df, size=6, fit_reg=False)` 总结起来,numpy 提供了高效的数据处理能力,pandas 为数据分析提供了强大的工具箱,而 matplotlib 和 seaborn 则使数据可视化变得更加直观。这些库在数据分析和科学计算领域中发挥着至关重要的作用。
剩余12页未读,继续阅读
- 粉丝: 378
- 资源: 7
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助