【免费】从Excel到Python数据分析进阶指南1

需积分: 0 164 浏览量更新于2022-08-04 收藏 184KB PDF 举报

在数据分析领域，从Excel过渡到Python可以提供更强大的工具和灵活性。以下是一些关键的知识点，涵盖了从导入数据到数据清洗、预处理、提取、筛选以及汇总的全过程。生成数据表是数据分析的第一步。在Python中，我们可以使用pandas库的DataFrame对象来创建数据表。例如，通过`pd.DataFrame(pd.read_csv('name.csv', header=1))`，你可以读取CSV文件并将其转换为DataFrame。数据表检查是确保数据质量的重要环节。`df.shape`返回数据表的行数和列数，这对于理解数据的规模非常有用。`df.info()`则提供了数据表的整体信息，包括每列的名称、数据类型以及是否有缺失值。`df.dtypes`用于查看所有列的数据类型，而`df['B'].dtype`则专注于特定列。`df.isnull()`用于检测空值，返回一个布尔型的DataFrame，`df['city'].unique()`则可以查看某一列的唯一值。数据清洗是数据分析中的核心步骤。`df.dropna(how='any')`可以删除包含任何空值的行，`df.fillna(value=0)`用0填充空值，`df['price'].fillna(df['price'].mean())`则是用价格列的平均值填充NA。字符串操作如`df['city'].map(str.strip)`用于去除字符空格，`df['city'].str.lower()`将所有字母转为小写，`df['price'].astype('int')`则用于将数据类型转换为整数。`df.rename()`用于更改列名，`df['city'].drop_duplicates()`删除重复值，`df['city'].replace('sh', 'shanghai')`则用于数据替换。数据预处理阶段，`pd.merge()`用于合并数据表，有inner、outer、left和right四种连接方式。`df_inner.set_index('id')`设置索引列，`df_inner.reset_index()`重置索引，`df_inner.sort_values(by=['age'])`和`df_inner.sort_index()`分别按值和索引排序。`np.where()`函数用于根据条件赋值，例如根据价格划分高低等级。数据提取时，`Loc`、`iloc`和`ix`是pandas中用于选取数据的关键方法。`Loc`按索引标签选择行，`iloc`按位置选择，而`ix`两者皆可。`isin()`函数则用于按指定条件提取数据，例如找出特定城市的数据。数据筛选利用逻辑运算符，如`&`表示与，`|`表示或，`!=`表示不等于，可以构建复杂的筛选条件。数据汇总通常涉及`groupby()`函数，它可以按列分组进行计数或求和等操作。例如，`df_inner.groupby('city').count()`统计每个城市的行数，`df_inner.groupby('city')['id'].count()`则计算每个城市ID的数量。这些基本操作构成了Python数据分析的基础，通过熟练掌握它们，可以从Excel逐步过渡到更高效、更灵活的数据分析环境。

从Excel到Python数据分析进阶指南

一、生成数据表

1. 导入数据表：df=pd.DataFrame(pd.read_csv('name.csv',header=1))



二、数据表检查

1. df.shape ：查看数据表的维度

2. df.info() ：查看数据表的整体信息

3. df.dtypes：可以一次性查看数据表中所有数据的格式，也可以指定一列来单独查看

（ df['B'].dtype ）

4. df.isnull()：检验空值的函数，返回的结果是逻辑值，包含空值返回True，不包含则返回False

5. df['city'].unique()：查看唯一值的函数，只能对数据表中的特定列进行检查

6. df.values：查看数据表中的数值。以数组的形式返回，不包含表头信息。

7. df.columns：查看列名称

8. df.head(3)：用来查看数据表中的前N行数据，默认head()显示前10 行，自己设置参数值来确定查

看的行数。

9. df.tail(3)：用来查看数据表中后N行的数据，默认 tail()显示后10行，可以自己设置参数值来确定查

看的行数。



三、数据表清洗

1. df.dropna(how='any')：删除数据表中含有空值的行

2. df.fillna(value=0)：使用数字0填充数据表中空值

3. df['price'].fillna(df['price'].mean())：使用price均值对NA进行填充

4. df['city']=df['city'].map(str.strip)：清除city字段中的字符空格

5. df['city']=df['city'].str.lower()：所有字母转换为小写，大写upper

6. df['price'].astype('int')：用来更改数据格式

7. df.rename(columns={'category': 'category-size'})：更改列名称的函数，我们将来数据表中的

category列更

改为category-size

8. df['city'].drop_duplicates()：删除重复值，默认删除后出现的重复值，增加keep='last'参数后将

删除

最先出现的重复值，保留最后的值

9. df['city'].replace('sh', 'shanghai')：数据替换



四、数据预处理

1. df_inner=pd.merge(df,df1,how='inner')：对两个数据表进行合并

1. inner：两个数据表中共有的数据匹配到一起生成新的数据表

下载后可阅读完整内容，剩余2页未读，立即下载

资源推荐

资源评论

马李灵珊

粉丝: 41
资源: 297

从Excel到Python数据分析进阶指南1

Excel实现Python数据分析项目数据和源码-用户价值

Excel和Python对比学习在Python数据分析课程中的运用.pdf

python项目——Excel数据分析师.zip

Excel实现Python数据分析项目数据和源码-产品优势

从Excel到SQL数据分析进阶指南.rar

Excel数据分析电子书

Python数据分析从基础到到项目实战进阶视频教程

Python数据分析神器——pandas（进阶教程）

Excel进阶培训数据分析篇.ppt

Python进阶-Pandas数据分析库

1天搞定Python进阶课程-数据分析库Pandas

201501-citibike-tripdata.csv，Bike-NYC.csv 类似数据，python excel学习用到的资料

Python进阶资料.zip

数据科学家的进阶指南：数据分析全流程解析

Python (2)_python_dijango_

全面掌握数据分析关于PYTHON

Python进阶+爬虫+数据分析.pdf

Python量化金融-Python金融实务应用与数据分析课程 Python课程1.5-编程能手Python进阶 共15页.pdf

优质Python教程 Python3.7从基础入门到精通进阶教程 第21章 大数据分析应用-开发数据智能分类系统 共6页.ppt

给Python学习者的文件读写指南(含基础与进阶)

多学科交叉的数据分析技能培养指南 - 基础理论与实践案例

数据分析教程.pdf

大数据分析资源全面指南：涵盖学习路径与实操项目

数据分析基础资料 zip

Python编程基础详解_python_编程资料

包括：入门与实践、http面试指南、Python进阶、TheFlaskMega 中文版、python教程、数据库面试知识点汇总

大学生 Python爬虫入门指南.pptx

数据分析教程案例.zip

数据分析资料3

最新资源

Python量化金融-Python金融实务应用与数据分析课程 Python课程1.5-编程能手Python进阶共15页.pdf

优质Python教程 Python3.7从基础入门到精通进阶教程第21章大数据分析应用-开发数据智能分类系统共6页.ppt