pandas大数据分析笔记 pandas 是 Python 中一个功能强大且流行的数据分析库,提供了高效的数据结构和数据分析工具。本笔记将对 pandas 的常用 API、数据导入、数据输出、查看数据、索引、数据清洗、排序、筛选、加入、合并、统计等方面进行总结和说明。 一、数据导入 pandas 提供了多种方式来导入数据,包括: * 导入 CSV 文件:`pd.read_csv(filename)` * 导入分隔的文本文件(如 TSV):`pd.read_table(filename)` * 导入 Excel 文件:`pd.read_excel(filename)` * 读取 SQL 表/数据库:`pd.read_sql(query, connection_object)` * 读取 JSON 格式的字符串、URL 或文件:`pd.read_json(json_string)` * 解析 HTML URL、字符串或文件,并将表提取到数据框列表:`pd.read_html(url)` * 获取剪贴板的内容并将其传递给 read_table():`pd.read_clipboard()` 二、数据输出 pandas 也提供了多种方式来输出数据,包括: * 写入 CSV 文件:`df.to_csv(filename)` * 写入 Excel 文件:`df.to_excel(filename)` * 写入一个 SQL 表:`df.to_sql(table_name, connection_object)` * 写入 JSON 格式的文件:`df.to_json(filename)` 三、创建测试对象 pandas 提供了多种方式来创建测试对象,包括: * 从随机浮动数组创建一个 5 列、20 行的数据框:`pd.DataFrame(np.random.rand(20, 5))` * 从可迭代的 my_list 创建一维数组:`pd.Series(my_list)` 四、查看/检查数据 pandas 提供了多种方式来查看和检查数据,包括: * 查看数据框的前 n 行:`df.head(n)` * 查看数据框的后 n 行:`df.tail(n)` * 查看数据框的行数和列数:`df.shape()` * 查看数据框的索引、数据类型和内存信息:`df.info()` * 查看数值列的汇总统计信息:`df.describe()` 五、选择数据 pandas 提供了多种方式来选择数据,包括: * 选择一维数组的列:`df[col]` * 选择多个列作为新的数据框返回:`df[[col1, col2]]` * 按位置选择:`s.iloc[0]` * 按索引选择:`s.loc['index_one']` 六、数据清洗 pandas 提供了多种方式来清洗数据,包括: * 重命名列:`df.columns = ['a', 'b', 'c']` * 检查空值:`pd.isnull()` * 删除包含空值的所有行:`df.dropna()` * 删除包含空值的所有列:`df.dropna(axis=1)` * 删除所有小于 n 个非空值的行:`df.dropna(axis=1, thresh=n)` * 用 x 替换所有空值:`df.fillna(x)` 七、排序、筛选和分组 pandas 提供了多种方式来排序、筛选和分组数据,包括: * 将 col 列大于 0.5 的行筛选出来:`df[df[col] > 0.5]` * 将 0.7 > col > 0.5 的行筛选出来:`df[(df[col] > 0.5) & (1.7)]` * 将 col1 按升序对值排序:`df.sort_values(col1)` * 将 col2 按降序对值排序:`df.sort_values(col2, ascending=False)` * 将 col1 按升序排序,然后按降序排序 col2:`df.sort_values([col1, ascending=[True, False])` * 从一列返回一组对象的值:`df.groupby(col)` 八、统计 pandas 提供了多种方式来进行统计分析,包括: * 查看唯一值和计数:`s.value_counts(dropna=False)` * 查看所有列的唯一值和计数:`df.apply(pd.Series.value_counts)` pandas 是一个功能强大且灵活的数据分析库,提供了多种方式来导入、输出、查看、清洗、排序、筛选、分组和统计数据。
- 粉丝: 3
- 资源: 14
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助