Statisticalmethodsinbigdataanalytics资源-CSDN文库

需积分: 5 184 浏览量 2018-01-14 10:10:00 上传评论收藏 515KB PDF 举报

在信息技术的领域中，大数据分析（Big Data Analytics）近年来一直是技术发展的热点。随着数据的爆发式增长，传统的数据处理方法已经无法应对大规模数据集的需求，这就需要运用先进的统计方法和算法来处理。因此，"Statistical methods in big data analytics"这本英文书籍，由马平教授著作，便显得尤为重要。在大数据分析中，首先需要了解的是计算组件的概念。在大数据的计算过程中，主要的计算组件包括CPU、内存（RAM）以及存储（Disk）。这些组件之间通过带宽和延迟进行通信。因此，计算的时间成本主要包括两部分：一是算术操作（浮点运算，flop），二是数据在不同存储层次之间传输的时间成本（顺序情况下）或在处理器之间通过网络传输的时间成本（分布式情况下）。在大数据处理的实践中，如何在计算过程中最小化通信以节省时间成为了一个关键问题。算法设计不仅要关注计算效率，还要考虑CPU和内存的效率。例如，随机化矩阵乘法（Randomized Matrix Multiplication）是一种高效处理大数据矩阵运算的方法，它具有特定的属性和优势。算法效率的提升还涉及到集中不等式（Concentration Inequalities）以及马尔可夫过程（Martingale）等统计理论的应用。线性回归（Linear Regression）是大数据分析中一个重要的应用实例。在大数据环境中，最小二乘法（Least-squares Approximation）的算法优化、运行时间考虑以及抽样估计器的偏差和方差分析（Bias and Variance Analysis of Subsampling Estimators）都是关键的知识点。在此基础上，还涉及到快速线性回归（Fast Least Square Approximation）以及隐私保护（Privacy Preserving）和随机投影（Random Projection）等更为高级的话题。在大数据分析中，矩阵分解也是至关重要的，它能够帮助我们更深入地理解数据。例如，奇异值分解（Singular Value Decomposition, SVD）就是一种将矩阵分解为不同维度的组件，这些组件能够表示数据的主要特征。矩阵扰动理论（Matrix Perturbation Theory）中的霍夫曼-维尔兰特不等式（Hoffman-Wielandt Inequality）和误差界限（Additive Error Bounds 与 Relative Error Bounds）则为矩阵分解提供了误差分析的基础。 CUR分解（CUR Decomposition）是一种特别的矩阵分解方法，它从原始矩阵中选取若干行和列来近似原矩阵，这种方法在数据稀疏化（Matrix Sparsification）和矩阵补全（Matrix Completion）方面有着广泛的应用。 CUR分解的具体方法包括了SVD分解、CX矩阵分解、CUR矩阵分解以及Nystrom近似（Nystrom Approximation）等。除了矩阵分解技术，谱正则化算法（Spectral Regularization Algorithms）在处理大规模数据集时，尤其是在图形建模（Graphic Modeling）和网络分析（Network Analysis）中也起到了关键作用。在图形建模方面，我们还可以使用图割点视角（Graphcut point of view）来分析问题，它在优化割的比例（Approximating Ratio Cut）等方面有着丰富的应用。为了更精确地理解这些知识点，我们有必要参考书籍中所提到的一些具体的学术文献和研究报告，这不仅能够加深我们对统计方法在大数据分析中应用的理解，同时也能够让我们在实践中更加得心应手地应用这些高级技术。马平教授的《Statistical methods in big data analytics》一书中详细讨论了大数据环境下各种高级统计方法的应用，从基本的计算组件到复杂的矩阵分解技术，再到图形建模和网络分析，无一不体现了大数据处理领域中的统计方法的丰富性和多样性。理解这些知识点，不仅对从事大数据分析的专业人士来说至关重要，对希望在这个领域内进行深入研究的学生和学者来说也具有重要的指导意义。

资源推荐

资源详情

资源评论

Theorem[section] [theorem]Lemma [theorem]Deﬁnition [theorem]Corollary

Assumption

Contents

1 Computation of big data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1 Computing components . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Computation time . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.3 Minimize Communication to save time . . . . . . . . . . . . . . . . . . . . . . . . 1

1.4 Algorithms need to be CPU and memory efﬁcient . . . . . . . . . . . . . . . 2

2 Randomized Matrix Multiplication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.1 Matrix Multiplication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.1.1 Randomized Matrix Multiplication . . . . . . . . . . . . . . . . . . . . . 3

2.1.2 Properties of CR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2 Concentration Inequalities . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.3 Martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.4 Back to Frobenius norm matrix multiplication bounds . . . . . . . . . . . . 9

3 Linear Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.0.1 Algorithmic Leveraging for Least-squares Approximation . . 14

3.0.2 Running Time Considerations . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.0.3 Additional Related Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.1 Bias and Variance Analysis of Subsampling Estimators . . . . . . . . . . . 18

3.1.1 Traditional Weighted Sampling Estimators . . . . . . . . . . . . . . . 19

3.1.2 Leverage-based Sampling and Uniform Sampling Estimators 22

3.1.3 Novel Leveraging Estimators . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.2 Fast Least Square Approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.3 Privacy Preserving . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4 Random Projection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.1 History of the Johnson Lindenstrauss transform . . . . . . . . . . . . . . . . . 35

4.2 Fast Subspace Johnson-Lindenstrauss-Tranformation, Ailon and

Chazelle paper . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.3 Fast Least Square Approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

vi Contents

5 CUR Decomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5.1 Singular Value Decomposition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5.2 Matrix Perturbation Theory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5.2.1 Hoffman-Wielandt Inequality . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5.2.2 Additive Error Bounds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5.2.3 Relative Error Bounds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5.3 CX matrix decomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.4 CUR matrix decomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.5 Moore-Penrose Inverse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.6 Nystrom Approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.7 Generalized Least Square Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.8 Randomized Algorithm for CX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.9 CUR Decomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

6 Matrix Sparsiﬁcation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

7 Matrix Completion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

7.1 Spectral Regularization Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

8 Graphic Modeling and Network Analysis . . . . . . . . . . . . . . . . . . . . . . . . . 49

8.1 Graph cut point of view . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

8.1.1 Approximating RatioCut for k = 2 . . . . . . . . . . . . . . . . . . . . . . 53

References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

剩余59页未读，继续阅读

评论收藏

内容反馈

beastlove1314

粉丝: 0
资源: 3

Statistical methods in big data analytics

big-data-analytics

Big Data Analytics

Statistical Models for Data Analysis

Big-Data-Analytics

big data analytics tutorial

Handbook of Big Data Analytics

Handbook of Big Data Technologies

Data Analytics and Python Programming 2 Bundle Manuscript

Beginning Data Science in R

c++入门，核心，提高讲义笔记

数字图像处理 冈萨雷斯 课后习题

离散数学及其应用 第八版 奇数编号练习答案.pdf

科研伦理与学术规范 期末考试2 （40题）.pdf

软件著作权设计说明书模板（含填写说明）.docx

最值得收藏的 考研线性代数 全部知识点思维导图整理(张宇, 汤家凤), 附带惯用思维/做题技巧/易错点整理.emmx

AUTOSAR官方培训教材.zip

最优化理论与算法习题解答.pdf

SMA_Connector.zip

菜菜sklearn课程讲义.rar

HALCON快速入门手册.pdf

LabView 官方教程（全）

notepad++-7.9下载

最值得收藏的 考研高等数学 全部知识点思维导图整理(张宇, 汤家凤), 附带做题技巧/易错点/知识点整理.emmx

最新资源

数字图像处理冈萨雷斯课后习题

离散数学及其应用第八版奇数编号练习答案.pdf

科研伦理与学术规范期末考试2 （40题）.pdf

最值得收藏的考研线性代数全部知识点思维导图整理(张宇, 汤家凤), 附带惯用思维/做题技巧/易错点整理.emmx

最值得收藏的考研高等数学全部知识点思维导图整理(张宇, 汤家凤), 附带做题技巧/易错点/知识点整理.emmx