没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
1.1 本书的内容
本书讲的是利用Python进行数据控制、处理、整理、
分析等方面的具体细节和基本要点。我的目标是介绍
Python编程和用于数据处理的库和工具环境,掌握这
些,可以让你成为一个数据分析专家。虽然本书的标题
是“数据分析”,重点确实Python编程、库,以及用于数
据分析的工具。这就是数据分析要用到的Python编
程。
什么样的数据?
当书中出现“数据”时,究竟指的是什么呢?主要指的是
结构化数据(structured data),这个故意含糊其辞的
术语代指了所有通用格式的数据,例如:
表格型数据,其中各列可能是不同的类型(字符
串、数值、日期等)。比如保存在关系型数据库中
或以制表符/逗号为分隔符的文本文件中的那些数
据。
多维数组(矩阵)。
通过关键列(对于SQL用户而言,就是主键和外
键)相互联系的多个表。
间隔平均或不平均的时间序列。
这绝不是一个完整的列表。大部分数据集都能被转化为
更加适合分析和建模的结构化形式,虽然有时这并不是
很明显。如果不行的话,也可以将数据集的特征提取为
某种结构化形式。例如,一组新闻文章可以被处理为一
张词频表,而这张词频表就可以用于情感分析。
大部分电子表格软件(比如Microsoft Excel,它可能是
世界上使用最广泛的数据分析工具了)的用户不会对此
类数据感到陌生。
1.2 为什么要使用Python进行数据分析
许许多多的人(包括我自己)都很容易爱上Python这
门语言。自从1991年诞生以来,Python现在已经成为
最受欢迎的动态编程语言之一,其他还有Perl、Ruby
等。由于拥有大量的Web框架(比如Rails(Ruby)和
Django(Python)),自从2005年,非常流行使用
Python和Ruby进行网站建设工作。这些语言常被称作
脚本(scripting)语言,因为它们可以用于编写简短而
粗糙的小程序(也就是脚本)。我个人并不喜欢“脚本
语言”这个术语,因为它好像在说这些语言无法用于构
建严谨的软件。在众多解释型语言中,由于各种历史和
文化的原因,Python发展出了一个巨大而活跃的科学
计算(scientific computing)社区。在过去的10年,
Python从一个边缘或“自担风险”的科学计算语言,成为
了数据科学、机器学习、学界和工业界软件开发最重要
的语言之一。
在数据分析、交互式计算以及数据可视化方面,
Python将不可避免地与其他开源和商业的领域特定编
程语言/工具进行对比,如R、MATLAB、SAS、Stata
等。近年来,由于Python的库(例如pandas和scikit-
learn)不断改良,使其成为数据分析任务的一个优选
方案。结合其在通用编程方面的强大实力,我们完全可
以只使用Python这一种语言构建以数据为中心的应
用。
Python作为胶水语言
Python能变为成功的科学计算工具的部分原因是,它
能够轻松地集成C、C++以及Fortran代码。大部分现代
计算环境都利用了一些Fortran和C库来实现线性代数、
优选、积分、快速傅里叶变换以及其他诸如此类的算
法。许多企业和国家实验室也利用Python来“粘合”那些
已经用了多年的遗留软件系统。
大多数软件都是由两部分代码组成的:少量需要占用大
部分执行时间的代码,以及大量不经常执行的“胶水代
码”。大部分情况下,胶水代码的执行时间是微不足道
的。开发人员的精力几乎都是花在优化计算瓶颈上面,
有时更是直接转用更低级的语言(比如C)。
剩余79页未读,继续阅读
资源评论
阿星先森
- 粉丝: 147
- 资源: 1453
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功