Pandas-DataFrame常用基础知识点总结,代码示例,主要有对某列字符替换、groupby分组统计、聚合统计、根据某列进行排序、dataframe格式转字典、datafrane 多行合并为一行、新增与删除某列、删除某列字符大于8的行、某列格式转换、删除包含某特殊字符的行、对某列文本中包含的字符进行替换删除、截取某列字符、指定时间格式、对空值/缺失值进行填充、某列数据末尾添加特殊字符、获取索引和数据、删除重复数据、常用的统计计算、使用countains可以用来正则匹配筛选、某列累计求和 cumsum函数、、某列整体计算、多列合并为一列、某两列时间相减、 删除去掉默认索引 、取消索引、重置索引等等。 在数据分析领域,Pandas库中的DataFrame是处理结构化数据的核心工具。DataFrame提供了丰富的功能,能够进行数据清洗、预处理和分析。以下是对标题和描述中提到的一些关键知识点的详细解释: 1. **对某列字符替换**: - 使用`map()`函数结合lambda表达式,当遇到特定字符串时进行替换,例如将`'ys4ng35toofdviy9ce0pn1uxw2x7trjb'`替换为`'娱乐'`。 - 对于单个或少数需要替换的字符串,可直接使用`str.replace()`函数,如将`'5G'`替换为`'6G'`,`'创投'`替换为`'创业投资'`。 2. **groupby分组统计**: - 使用`groupby()`函数对DataFrame按某一列或多列进行分组,然后应用聚合函数,如`sum()`,求各组的和。 3. **聚合统计(按多个列多层分组)**: - 可以通过`groupby()`结合其他聚合函数,如`size()`,实现多列的多层次分组统计。 4. **根据某列进行排序**: - 使用`sort_values()`函数按指定列进行升序或降序排序,`ascending=False`表示降序。 5. **dataframe格式转字典**: - `to_dict()`函数可以将DataFrame转换为字典,`orient='records'`参数将每一行转换为一个字典,形成一个字典列表。 6. **dataframe多行合并为一行**: - 方法一:利用`groupby()`与`apply()`结合,将多行数据合并为一行,使用`join()`函数连接列的值。 - 方法二:使用`agg()`函数,可以更高效地处理大批量数据的合并。 7. **新增与删除某列**: - 添加新列:直接赋值即可,如`df['new_column'] = some_value`。 - 删除列:使用`drop()`函数,例如`df = df.drop('column_name', axis=1)`。 8. **删除某列字符大于8的行**: - 可以用条件筛选,如`df = df[df['column_name'].str.len() <= 8]`。 9. **某列格式转换**: - 使用`astype()`函数转换列的数据类型,如`df['column_name'] = df['column_name'].astype(int)`。 10. **删除包含某特殊字符的行**: - 使用`~`操作符和`str.contains()`,如`df = df[~df['column_name'].str.contains('special_char')]`。 11. **对某列文本中包含的字符进行替换删除**: - 结合`str.replace()`或正则表达式进行替换或删除操作。 12. **截取某列字符**: - 使用`str.slice(start, stop)`截取字符串,如`df['column_name'] = df['column_name'].str.slice(0, 5)`。 13. **指定时间格式**: - 使用`pd.to_datetime()`函数将字符串转换为日期时间格式,并设置`format`参数。 14. **对空值/缺失值进行填充**: - 使用`fillna()`函数,如`df['column_name'].fillna(value)`,`value`可以是具体值或方法。 15. **某列数据末尾添加特殊字符**: - 使用`str.cat()`函数,如`df['column_name'] = df['column_name'].str.cat('.txt', sep='')`。 16. **获取索引和数据**: - `index`属性获取索引,`values`属性获取数据。 17. **删除重复数据**: - 使用`drop_duplicates()`函数,例如`df = df.drop_duplicates()`。 18. **常用的统计计算**: - 包括`mean()`(平均值)、`median()`(中位数)、`min()`(最小值)、`max()`(最大值)、`std()`(标准差)等。 19. **使用contains进行正则匹配筛选**: - `str.contains(pattern, case=True, na='warn')`可以匹配包含特定模式的字符串。 20. **某列累计求和 cumsum函数**: - `cumsum()`函数用于计算累积和。 21. **某列整体计算**: - 可以使用`apply()`函数对整列进行自定义计算。 22. **多列合并为一列**: - 使用`pd.concat()`函数或者直接合并操作,如`df['merged_column'] = df[['column1', 'column2']].apply(lambda x: ' '.join(x), axis=1)`。 23. **某两列时间相减**: - 如果是时间戳,可以使用`Timedelta`对象,如`df['difference'] = df['datetime_column2'] - df['datetime_column1']`。 24. **删除去掉默认索引**: - `df = df.reset_index(drop=True)`可以删除默认的整数索引。 25. **取消索引**: - 使用`reset_index()`函数将索引变为列。 26. **重置索引**: - 使用`reset_index()`函数可以重新设置索引,通常会创建一个新的整数索引。 以上是基于Pandas DataFrame的一些核心操作,它们在数据处理中扮演着重要角色,能够帮助我们有效地清洗、转换和分析数据。理解并熟练掌握这些操作对于进行高效的数据分析至关重要。
剩余13页未读,继续阅读
- 粉丝: 1w+
- 资源: 13
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AllSort(直接插入排序,希尔排序,选择排序,堆排序,冒泡排序,快速排序,归并排序)
- 模拟qsort,改造冒泡排序使其能排序任意数据类型,即日常练习
- 数组经典习题之顺序排序和二分查找和冒泡排序
- 基于 Oops Framework 提供的游戏项目开发模板,项目中提供了最新版本 Cocos Creator 3.x 插件与游戏资源初始化通用逻辑
- live-ai这是一个深度学习的资料
- FeiQ.rar 局域网内通信服务软件
- 172.16.100.195
- 光储并网simulink仿真模型,直流微电网 光伏系统采用扰动观察法是实现mppt控制,储能可由单独蓄电池构成,也可由蓄电池和超级电容构成的混合储能系统,并采用lpf进行功率分配 并网采用pq控制
- python编写微信读取smart200plc的数据发送给微信联系人
- 光储并网VSG系统Matlab simulink仿真模型,附参考文献 系统前级直流部分包括光伏阵列、变器、储能系统和双向dcdc变器,后级交流子系统包括逆变器LC滤波器,交流负载 光储并网VSG系