没有合适的资源?快使用搜索试试~ 我知道了~
数据科学_鄂维南.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 152 浏览量
2023-04-01
19:21:49
上传
评论
收藏 107KB DOCX 举报
温馨提示
试读
13页
。
资源推荐
资源详情
资源评论
数据科学
——鄂维南
一、数据科学的基本内容
大数据时代在科学领域里的表现是数据科学的兴起。常常听到有人问:多大才算是“大
数据”?“大数据”和“海量数据”有什么区别?其实根本没有必要为“大数据”这个名词
的确切含义而纠结。“大数据”是一个热点名词,它代表的是一种潮流、一个时代,它可以
有多方面的含义。“海量数据”是一个技术名词,它强调数据量之大。而数据科学则是一个
学科、一门新兴的学科。
为什么要强调数据科学?它和已有的信息科学、统计学、机器学习等学科有什么不一
样?
作为一门学科,数据科学所依赖的两个因素是数据的广泛性和多样性,以及数据研究的
共性。现代社会的各行各业都充满了数据,而且这些数据也是多种多样,不仅包括传统的结
构型数据,也包括象网页、文本、图像、视频、语音等非结构型数据。正如我们后面将要讨
论到的,数据分析本质上都是在解反问题,而且是随机模型的反问题。所以,对它们的研究
有着很多的共性。比方说自然语言处理和生物大分子模型里都用到隐式马氏过程和动态规划
方法,其最根本的原因是它们处理的都是一维的随机信号。再如图像处理和统计学习中都用
到的正则化方法,也是处理反问题的数学模型中最常用的一种手段。所以,用于图像处理的
算法和用于压缩感知的算法有着许多共同之处。这在新加坡国立大学沈佐伟教授的工作中就
可以很明显地看出来。
除了新兴的学科如计算广告学之外,数据科学主要包括两个方面:用数据的方法来研究
科学和用科学的方法来研究数据,前者包括象生物信息学、天体信息学、数字地球等领域,
后者包括统计学、机器学习、数据挖掘、数据库等领域,这些学科都是数据科学的重要组成
部分,但只有把它们有机地放在一起,才能形成整个数据科学的全貌。
用数据的方法来研究科学,最典型的例子是开普勒关于行星运动的三大定律。
开普勒的三大定律是根据他的前任,一位叫第谷的天文学家留给他的观察数据总结出来
的 ,表 9-1 是一个典型的例子。这里列出的数据是行星绕太阳一周所需要的时间(以年为单
位)和行星离太阳的平均距离(以地球与太阳的平均距离为单位)。从这组数据可以看出,
行星绕太阳运行的周期的平方和行星离太阳的平均距离的立方成正比,这就是开普勒的第三
1
定律。
表 9-1 太阳系八大行星绕太阳运动的数据
行星 周期(年) 平均距离 周期 /距离
2
2
水星
金星
0.39
0.72
1.00
1.52
5.20
9.54
9.18
30.06
0.98
1.01
1.00
1.01
0.99
1.00
1.00
1.00
地球
1.000
火星
1.880
木星
土星
天王星
海王星 165.000
开普勒虽然总结出他的三大定律,但他并不理解其内涵。牛顿则不然,牛顿用他的第二
定律和万有引力定律把行星运动归结成一个纯粹的数学问题,即一个常微分方程组。如果忽
略行星之间的相互作用,那么这就成了一个两体问题。因此很容易求出这个常微分方程组的
解,并由此推出开普勒的三大定律。
牛顿运用的是寻求基本原理的方法,它远比开普勒的方法深刻。牛顿不仅知其然,而且
知其所以然,所以牛顿开创的寻求基本原理的方法成了科学研究的首选模式。这种方法在上
个世纪初期达到了顶峰:在它的指导下,物理学家们发现了量子力学。原则上来讲,我们日
常生活中所碰到的自然现象都可以从量子力学出发得到解决,量子力学提供了研究化学、材
料科学、工程科学、生命科学等几乎所有自然和工程学科的基本原理,这应该说是很成功,
但事情远非这么简单。正如狄拉克指出的那样,如果以量子力学的基本原理为出发点去解决
这些问题,那么其中的数学问题太困难了。所以,如果要想有进展,还是必须做妥协,也就
是说要对基本原理作近似。
再 举 另 外 一 个 例 子 , 表 9-2 中 形 象 地 描 述 了 一 组 人 类 基 因 组 的 SNP 数 据
(SingleNucleotidePolymorphismdata)。一组研究人员在全世界挑选出 1064 个志愿者,并
把他们的 SNP 数据数字化,也就是把每个位置上可能出现的 10 种碱基对用数字来代表,对
这组数据作主组分分析,就可以得到图 9-1 中的结果。其中横轴和纵轴代表的是第一和第二
奇异值所对应的特征向量。这些向量一共有 1064 个分量,对应 1064 个志愿者。值得注意的
2
是这组点的颜色所代表的意义。可以看出,人类进化的过程可以从这组数据中通过最常见的
统计分析的方法,即主组分分析而展示出来。
主组分分析是一种最简单的数据分析方法,它的做法是对数据的协方差矩阵作对角分解。
表 9-2SNP 数据的示意图
SNP1SNP2„„SNPm
志愿者 n
19„„1
其中:n=1064,m=644258,0,1,„,9 分别代表碱基对是 AA,AC,CC,„。
参见:JunZ.Lietal,“Worldwidehumanrelationshipsinferredfromgenome-widepatternsofvariation”,
Science,22,Feburary,2008.
图 9-1 对 SNP 数据作主组分分析的结果告诉我们人类进化的过程
3
剩余12页未读,继续阅读
资源评论
若♡
- 粉丝: 6172
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功