"基于Python的豆瓣金融类图书数据分析"
这是一个基于Python的豆瓣金融类图书数据分析项目,该项目使用Python语言从豆瓣阅读页面中采集和获取与金融类图书有关的数据,并对数据进行清洗、提取,把书名、作者、出版社等关键信息保存为CSV文件存储,并对其进行可视化分析。
项目的研究框架包括四个步骤:用Python抓取网页源代码并获得包含书名、作者、出版社等各个网页元素的数据。将所抓取的图书数据进行处理和分析,并进行格式化存储,以便于后续的可视化展示。接着对数值数据和文本数据进行预处理操作,包括异常值处理、数据清洗、缺失数据补齐等。最后进行数据分析,利用Python做词云图、用Excel透视表绘制散点图、条形图等直观的展示图书各要素之间的关系,评估结果并得出结论。
在数据分析部分,本文对Python抓取到的1000本豆瓣金融类图书信息进行了出版社词云可视化分析、评分可视化分析、评价人数和评分可视化分析。
在出版社词云可视化分析中,使用Python中的Wordcloud模块,对1000本金融类图书的出版社进行分析并生成词云图。从图中可以看出,出版社这个词出现的频率最高,这是因为大部分出版社的后缀都是出版社,但也有部分后缀如出版公司、商务印书馆等,因而并未对出版社此后缀做统一处理。抛开此频率最高的词,其余频率前三的出版社自动加上后缀名,分别为机械工业出版社193本、中信出版社189本和中国人民大学出版社77本,说明国内外学者们尤其是国外学者对这三个出版社的青睐度最高。
在评分可视化分析中,对1000本金融类图书评分数据进行分析,得出评分最高的5本金融类图书,通过Excel绘制条形图。评分最高的5本金融类图书分别为:应用公司财务、投资者养成指南(一)、金融随机分析(共2册)、证券法学(第四版)和投资者文摘,评分分别为9.9分、9.8分、9.7分、9.7分和9.7分。
在评价人数和评分可视化分析中,对1000本金融类图书评价人数的数据进行整理,通过Excel绘制散点图。由图中可以发现,绝大部分金融类图书的评价人数都集中在0-5000人这个区间内,其中评价人数前五的书籍为:货币战争、原则、经济学原理(上下)、思考图和伟大的博弈,评价人数分别为43853人、24112人、16539人、14531人和12409人,评分分别为7.2分、8.3分、9.1分、8.1分和8.3分。
同时又对1000本金融类图书中评分大于等于9.0以上的评价人数的数据进行整理,通过Excel绘制散点图。由图中看出,绝大部分评分大于等于9.0以上的评价人数都集中在0-4000人这个区间内,其中评价人数前五的书籍为:经济学原理(上下)、经济学原理、经济学原理(第7版)、期货市场技术分析和彼得·林奇的成功投资,评价人数分别为16539人、10259人、2926人、2398人和2029人。
将两张图对比可以发现,评价人数前五的书籍评分都不高,仅有一本书的评分大于9.0分。其中评价人数最多的书籍是货币战争,但其评分只有7.2分;评分前五的书籍评论人数也不多,仅有经济学原理(上下)这本书处在评论人数前五的书籍中。由此得出评论人数多的评分不一定高,评分高的评论人数不一定高,评论人数和评分之间的相关性较弱。
在评分和出版年份可视化分析中,对1000本金融类图书评价人数的数据进行整理,通过Excel绘制散点图。评分大于等于9.0以上的书籍出版年份集中在2005年以后,且评分大多集中在9.0分和9.1分,评分为9.7分及以上的书籍较少。进一步分析猜测评分大于等于9.0分以上的这些书籍可能是由于出版年份较晚,阅读和评价人数的增加,导致评分的提高。
本文基于Python的豆瓣金融类图书数据分析项目,使用Python语言从豆瓣阅读页面中采集和获取与金融类图书有关的数据,并对数据进行清洗、提取,把书名、作者、出版社等关键信息保存为CSV文件存储,并对其进行可视化分析。该项目可以为读者和用户选取金融类图书阅读提供指导和建议。