"基于Python的豆瓣金融类图书数据分析" 这是一个基于Python的豆瓣金融类图书数据分析项目,该项目使用Python语言从豆瓣阅读页面中采集和获取与金融类图书有关的数据,并对数据进行清洗、提取,把书名、作者、出版社等关键信息保存为CSV文件存储,并对其进行可视化分析。 项目的研究框架包括四个步骤:用Python抓取网页源代码并获得包含书名、作者、出版社等各个网页元素的数据。将所抓取的图书数据进行处理和分析,并进行格式化存储,以便于后续的可视化展示。接着对数值数据和文本数据进行预处理操作,包括异常值处理、数据清洗、缺失数据补齐等。最后进行数据分析,利用Python做词云图、用Excel透视表绘制散点图、条形图等直观的展示图书各要素之间的关系,评估结果并得出结论。 在数据分析部分,本文对Python抓取到的1000本豆瓣金融类图书信息进行了出版社词云可视化分析、评分可视化分析、评价人数和评分可视化分析。 在出版社词云可视化分析中,使用Python中的Wordcloud模块,对1000本金融类图书的出版社进行分析并生成词云图。从图中可以看出,出版社这个词出现的频率最高,这是因为大部分出版社的后缀都是出版社,但也有部分后缀如出版公司、商务印书馆等,因而并未对出版社此后缀做统一处理。抛开此频率最高的词,其余频率前三的出版社自动加上后缀名,分别为机械工业出版社193本、中信出版社189本和中国人民大学出版社77本,说明国内外学者们尤其是国外学者对这三个出版社的青睐度最高。 在评分可视化分析中,对1000本金融类图书评分数据进行分析,得出评分最高的5本金融类图书,通过Excel绘制条形图。评分最高的5本金融类图书分别为:应用公司财务、投资者养成指南(一)、金融随机分析(共2册)、证券法学(第四版)和投资者文摘,评分分别为9.9分、9.8分、9.7分、9.7分和9.7分。 在评价人数和评分可视化分析中,对1000本金融类图书评价人数的数据进行整理,通过Excel绘制散点图。由图中可以发现,绝大部分金融类图书的评价人数都集中在0-5000人这个区间内,其中评价人数前五的书籍为:货币战争、原则、经济学原理(上下)、思考图和伟大的博弈,评价人数分别为43853人、24112人、16539人、14531人和12409人,评分分别为7.2分、8.3分、9.1分、8.1分和8.3分。 同时又对1000本金融类图书中评分大于等于9.0以上的评价人数的数据进行整理,通过Excel绘制散点图。由图中看出,绝大部分评分大于等于9.0以上的评价人数都集中在0-4000人这个区间内,其中评价人数前五的书籍为:经济学原理(上下)、经济学原理、经济学原理(第7版)、期货市场技术分析和彼得·林奇的成功投资,评价人数分别为16539人、10259人、2926人、2398人和2029人。 将两张图对比可以发现,评价人数前五的书籍评分都不高,仅有一本书的评分大于9.0分。其中评价人数最多的书籍是货币战争,但其评分只有7.2分;评分前五的书籍评论人数也不多,仅有经济学原理(上下)这本书处在评论人数前五的书籍中。由此得出评论人数多的评分不一定高,评分高的评论人数不一定高,评论人数和评分之间的相关性较弱。 在评分和出版年份可视化分析中,对1000本金融类图书评价人数的数据进行整理,通过Excel绘制散点图。评分大于等于9.0以上的书籍出版年份集中在2005年以后,且评分大多集中在9.0分和9.1分,评分为9.7分及以上的书籍较少。进一步分析猜测评分大于等于9.0分以上的这些书籍可能是由于出版年份较晚,阅读和评价人数的增加,导致评分的提高。 本文基于Python的豆瓣金融类图书数据分析项目,使用Python语言从豆瓣阅读页面中采集和获取与金融类图书有关的数据,并对数据进行清洗、提取,把书名、作者、出版社等关键信息保存为CSV文件存储,并对其进行可视化分析。该项目可以为读者和用户选取金融类图书阅读提供指导和建议。
- 粉丝: 902
- 资源: 28万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 计算机网络四次实验报告
- (175549404)基于微信小程序的十二神鹿点餐(外卖小程序)(毕业设计,包括数据库,源码,教程).zip
- (179941432)基于MATLAB车牌识别系统【GUI含界面】.zip
- (179941434)基于MATLAB车牌识别系统【含界面GUI】.zip
- (178021462)基于Javaweb+ssm的医院在线挂号系统的设计与实现.zip
- (178047214)基于springboot图书管理系统.zip
- 张郅奇 的Python学习过程
- (23775420)欧姆龙PLC CP1H-E CP1L-E CJ2M CP1E 以太网通讯.zip
- (174590622)计算机课程设计-IP数据包解析
- (175550824)泛海三江全系调试软件PCSet-All2.0.3 1