豆瓣读书数据分析1 本资源摘要信息基于豆瓣读书数据分析1的文件内容,旨在对读书数据进行分析和处理。该文件包含了60671条图书数据,包括书名、作者、出版社、出版时间、页数、价格、ISBN、评分、评论数量等信息。 数据导入和清洗 首先,我们需要将读书数据导入到Python中,并对其进行清洗。我们使用了Pandas库来读取Excel文件,并删除了无关的列。然后,我们使用describe()和info()函数对数据进行初步分析,发现了缺失值和异常值。 处理页数数据 页数数据是object类型的,我们需要将其转换为数值型数据。我们定义了一个convert_to_int方法,如果页数信息是数字,则返回该数字,否则返回0。然后,我们使用apply()函数将convert_to_int方法应用于页数数据,并将其转换为int类型。 处理价格数据 价格数据也是object类型的,我们需要将其转换为数值型数据。我们定义了一个lambda函数,如果价格信息是数字或包含小数点,则返回该数字,否则返回0。然后,我们使用apply()函数将lambda函数应用于价格数据,并将其转换为float类型。 处理评论数量数据 评论数量数据也是object类型的,我们需要将其转换为数值型数据。我们定义了一个lambda函数,如果评论数量信息是数字,则返回该数字,否则返回0。然后,我们使用apply()函数将lambda函数应用于评论数量数据,并将其转换为int类型。 处理出版时间数据 出版时间数据包含了年份信息,我们需要将其提取出来。我们定义了一个year函数,将出版时间信息中包含的年份信息提取出来。如果没有年份信息,则返回空字符串。 数据分析 在处理完数据之后,我们可以对数据进行分析了。我们可以随机抽取一些数据来看看,并对年份信息进行分析。我们发现了两个奇怪的数据点,于是对其进行了处理。 分析图书数量与年份的关系 最后,我们对图书数量与年份的关系进行了分析。我们使用groupby()函数对出版年份进行分组,并计算每个年份的图书数量。结果显示了图书数量与年份的关系。
本内容试读结束,登录后可阅读更多
下载后可阅读完整内容,剩余9页未读,立即下载
评论0
最新资源