Pandas是Python中用于数据分析和处理的一个库,它提供了快速、灵活和表达力强的数据结构,专为处理结构化(表格、多维、异质)和时间序列数据设计。以下是Pandas基础操作的知识点: 一、数据整理 1. 整洁数据(Tidy Data)原则:每个变量保存在自己的列中,每个观察保存在自己的行中,每个类型的数据表格有一个表格,每个表格有一个类型的数据。 2. 整洁数据与pandas的向量化操作相辅相成,pandas会自动在操纵变量时保持观察不变。 二、语法与创建DataFrame 1. 使用pd.DataFrame()函数创建数据框(DataFrame),可以指定每个列的值以及行索引。 三、重塑数据 1. 通过pd.melt()函数将多个列合并为行,常用于将宽格式数据转换为长格式数据。 2. 通过df.pivot()函数将行转换为列,创建一个透视表。 四、排序和重置索引 1. df.sort_values()函数按照某一列的值进行排序,可以指定升序或降序。 2. df.sort_index()函数按照索引排序。 3. df.reset_index()函数将索引重置为默认的数字索引,并将原索引移动到列中。 五、索引和选择数据 1. df.head(n)函数选择前n行数据。 2. df.tail(n)函数选择最后n行数据。 3. df.iloc[10:20]函数选择指定位置的行。 4. df.nlargest(n,'value')函数选择并排序前n个条目。 5. df.nsmallest(n,'value')函数选择并排序后n个条目。 六、列的选择和重命名 1. df['column_name']或df.column_name选择单个列。 2. df[['column1', 'column2', ...]]选择多个列。 3. df.rename(columns={'old_name': 'new_name'})函数重命名列。 七、合并和连接DataFrame 1. pd.concat([df1, df2])函数将多个DataFrame的行连接起来。 2. pd.concat([df1, df2], axis=1)函数将多个DataFrame的列连接起来。 八、删除数据 1. df.drop(columns=['Length', 'Height'])函数删除指定的列。 2. df.drop_duplicates()函数删除重复的行。 九、子集选择 1. df[df.Length > 7]函数根据条件选择行。 2. df.sample(frac=0.5)函数随机选择一部分行。 3. df.sample(n=10)函数随机选择指定数量的行。 十、正则表达式 1. df.filter(regex='regex')函数根据正则表达式选择匹配列名的列。 2. 正则表达式规则示例:'.' 匹配包含点的字符串;'Length$' 匹配结尾为"Length"的字符串;'^Sepal' 匹配以"Sepal"开头的字符串;'^x[1-5]$' 匹配以"x"开头以1到5结束的字符串。 注意:由于文档内容中存在OCR技术识别错误,导致文字可能出现缺漏或错别字。在阅读和理解文档时,应当考虑这些可能的错误,并尝试以最合理的方式填补和修正,以保证知识点的准确性和完整性。
- 粉丝: 0
- 资源: 2
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助