数据科学_鄂维南.docx资源-CSDN文库

版权申诉

152 浏览量 2023-04-01 19:21:49 上传评论收藏 107KB DOCX 举报

资源推荐

资源详情

资源评论

数据科学

——鄂维南

一、数据科学的基本内容

大数据时代在科学领域里的表现是数据科学的兴起。常常听到有人问：多大才算是“大

数据”？“大数据”和“海量数据”有什么区别？其实根本没有必要为“大数据”这个名词

的确切含义而纠结。“大数据”是一个热点名词，它代表的是一种潮流、一个时代，它可以

有多方面的含义。“海量数据”是一个技术名词，它强调数据量之大。而数据科学则是一个

学科、一门新兴的学科。

为什么要强调数据科学？它和已有的信息科学、统计学、机器学习等学科有什么不一

样？

作为一门学科，数据科学所依赖的两个因素是数据的广泛性和多样性，以及数据研究的

共性。现代社会的各行各业都充满了数据，而且这些数据也是多种多样，不仅包括传统的结

构型数据，也包括象网页、文本、图像、视频、语音等非结构型数据。正如我们后面将要讨

论到的，数据分析本质上都是在解反问题，而且是随机模型的反问题。所以，对它们的研究

有着很多的共性。比方说自然语言处理和生物大分子模型里都用到隐式马氏过程和动态规划

方法，其最根本的原因是它们处理的都是一维的随机信号。再如图像处理和统计学习中都用

到的正则化方法，也是处理反问题的数学模型中最常用的一种手段。所以，用于图像处理的

算法和用于压缩感知的算法有着许多共同之处。这在新加坡国立大学沈佐伟教授的工作中就

可以很明显地看出来。

除了新兴的学科如计算广告学之外，数据科学主要包括两个方面：用数据的方法来研究

科学和用科学的方法来研究数据，前者包括象生物信息学、天体信息学、数字地球等领域，

后者包括统计学、机器学习、数据挖掘、数据库等领域，这些学科都是数据科学的重要组成

部分，但只有把它们有机地放在一起，才能形成整个数据科学的全貌。

用数据的方法来研究科学，最典型的例子是开普勒关于行星运动的三大定律。

开普勒的三大定律是根据他的前任，一位叫第谷的天文学家留给他的观察数据总结出来

的，表 9-1 是一个典型的例子。这里列出的数据是行星绕太阳一周所需要的时间（以年为单

位）和行星离太阳的平均距离（以地球与太阳的平均距离为单位）。从这组数据可以看出，

行星绕太阳运行的周期的平方和行星离太阳的平均距离的立方成正比，这就是开普勒的第三

定律。

表 9-1 太阳系八大行星绕太阳运动的数据

行星周期（年）平均距离周期 /距离

水星

金星

0.39

0.72

1.00

1.52

5.20

9.54

9.18

30.06

0.98

1.01

1.00

1.01

0.99

1.00

地球

1.000

火星

1.880

木星

土星

天王星

海王星 165.000

开普勒虽然总结出他的三大定律，但他并不理解其内涵。牛顿则不然，牛顿用他的第二

定律和万有引力定律把行星运动归结成一个纯粹的数学问题，即一个常微分方程组。如果忽

略行星之间的相互作用，那么这就成了一个两体问题。因此很容易求出这个常微分方程组的

解，并由此推出开普勒的三大定律。

牛顿运用的是寻求基本原理的方法，它远比开普勒的方法深刻。牛顿不仅知其然，而且

知其所以然，所以牛顿开创的寻求基本原理的方法成了科学研究的首选模式。这种方法在上

个世纪初期达到了顶峰：在它的指导下，物理学家们发现了量子力学。原则上来讲，我们日

常生活中所碰到的自然现象都可以从量子力学出发得到解决，量子力学提供了研究化学、材

料科学、工程科学、生命科学等几乎所有自然和工程学科的基本原理，这应该说是很成功，

但事情远非这么简单。正如狄拉克指出的那样，如果以量子力学的基本原理为出发点去解决

这些问题，那么其中的数学问题太困难了。所以，如果要想有进展，还是必须做妥协，也就

是说要对基本原理作近似。

再举另外一个例子，表 9-2 中形象地描述了一组人类基因组的 SNP 数据

（SingleNucleotidePolymorphismdata）。一组研究人员在全世界挑选出 1064 个志愿者，并

把他们的 SNP 数据数字化，也就是把每个位置上可能出现的 10 种碱基对用数字来代表，对

这组数据作主组分分析，就可以得到图 9-1 中的结果。其中横轴和纵轴代表的是第一和第二

奇异值所对应的特征向量。这些向量一共有 1064 个分量，对应 1064 个志愿者。值得注意的

剩余12页未读，继续阅读

评论收藏

内容反馈

版权申诉

若♡

粉丝: 6172
资源: 1万+

数据科学_鄂维南.docx

鄂维南：互联网金融的风险预测.pdf

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

农村公交与异构无人机协同配送优化

李飞飞自传 我看见的世界 The World I see

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

4个亲测好用的ChatGPT4渠道

基于小波与卷积神经网络的多尺度时间序列分类.zip

学术海报模板+论文科研+研究生

北森能力测评题库.zip

2023泛娱乐社交出海手册-ZEGO即构科技

车载毫米波雷达DOA估计综述博文仿真代码

ST-LINK Utility 4.6.0

认知智能技术与产业研究报告2023

软件工程课程设计-基于苍穹外卖

python大作业 含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

几个可以免费使用ChatGPT4的网站.zip

chrome-win64.zip

1000份ppt模版，PPT模板优秀PPT

249个 ChatGPT 关键词汇总 中文版

由于找不到iUtils.dll,无法继续执行代码

ST语言规则编程手册全面讲解ST语言

高项第四版十大管理、49个过程、五大过程组【趣味联想记忆口诀，助你一篇牢牢记住！】

（免积分）Infiniband Specification Vol 1-Release-1.4

GJB 3206B-2022 《技术状态管理》

用拉伸法测量金属丝的杨氏模量实验报告

最新资源

李飞飞自传我看见的世界 The World I see

python大作业含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

249个 ChatGPT 关键词汇总中文版