第6章大数据分析与挖掘习题答案.pdf资源-CSDN文库

版权申诉

132 浏览量 2022-11-13 01:25:59 上传评论收藏 64KB PDF 举报

资源推荐

资源详情

资源评论

（1）请阐述什么是大数据分析。

大数据分析的主要任务主要有：第一类是预测任务，目标是根据某些属性的值，预测另

外一些特定属性的值。被预测的属性一般称为目标变量或因变量，被用来做预测的属性称为

解释变量和自变量；第二类是描述任务，目标是导出概括数据中潜在联系的模式，包括相关、

趋势、聚类、轨迹和异常等。描述性任务通常是探查性的，常常需要后处理技术来验证和解

释结果。具体可分为分类、回归、关联分析、聚类分析、推荐系统、异常检测、链接分析等

几种。

（2）大数据分析的类型有哪些？

大数据分析主要有描述性统计分析、探索性数据分析以及验证性数据分析等。

（3）举例两种数据挖掘的应用场景？

（1）电子邮件系统中垃圾邮件的判断

电子邮件系统判断一封 Email 是否属于垃圾邮件。这应该属于文本挖掘的范畴，通常会

采用朴素贝叶斯的方法进行判别。它的主要原理就是，根据电子邮件中的词汇，是否经常出

现在垃圾邮件中进行判断。例如，如果一份电子邮件的正文中包含“推广”、“广告”、“促销”

等词汇时，该邮件被判定为垃圾邮件的概率将会比较大。

（2）金融领域中金融产品的推广营销

针对商业银行中的零售客户进行细分，基于零售客户的特征变量（人口特征、资产特征、

负债特征、结算特征），计算客户之间的距离。然后，按照距离的远近，把相似的客户聚集

为一类，从而有效地细分客户。将全体客户划分为诸如：理财偏好者、基金偏好者、活期偏

好者、国债偏好者等。其目的在于识别不同的客户群体，然后针对不同的客户群体，精准地

进行产品设计和推送，从而节约营销成本，提高营销效率。

（4）简述数据挖掘的分类算法及应用。

K-Means 算法也叫作 k 均值聚类算法，它是最著名的划分聚类算法，由于简洁和效率使

得它成为所有聚类算法中最广泛使用的。

决策树算法是一种能解决分类或回归问题的机器学习算法，它是一种典型的分类方法，

最早产生于上世纪 60 年代。决策树算法首先对数据进行处理，利用归纳算法生成可读的规

则和决策树，然后使用决策对新数据进行分析，因此在本质上决策树是通过一系列规则对数

据进行分类的过程。

KNN 算法也叫作 K 最近邻算法，是数据挖掘分类技术中最简单的方法之一。所谓 K 最

近邻，就是 k 个最近的邻居的意思，说的是每个样本都可以用它最接近的 k 个邻居来代表。

遗传算法模拟了自然选择和遗传中发生的繁殖、交配和基因突变现象，是一种采用遗传

结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。

神经网络可以指向两种，一个是生物神经网络，一个是人工神经网络。在这里专指人工

神经网络。它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余0页未读，立即下载

内容反馈

版权申诉

คิดถึง643

粉丝: 3909
资源: 1万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip