数据挖掘机器学习考试简答题.docx
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
数据挖掘机器学习考试简答题 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但潜在有用的信息和知识的过程。数据挖掘的功能包括概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。 监督学习对应预测目标,无监督学习对应描述目标。监督学习是从标记的训练数据来推断一个功能的机器学习任务,无监督学习是根据类别未知的训练样本解决模式识别中的各种问题。 数据挖掘的两大目标分为预测和描述。预测目标是指根据已有的数据来预测未来的结果,而描述目标是指描述数据的模式和规律。监督学习是解决预测问题的算法,而无监督学习是解决描述问题的算法。 K-近邻算法是一种监督学习算法,它可以用于分类和回归问题。K-近邻算法的优点是简单、易于理解、易于实现,不需要估计参数,不需要训练。但是,它的缺点是K的选择不固定,预测结果容易受含噪声数据的影响,当样本不平衡时,新样本的类别偏向于训练样本中数量占优的类别,容易导致预测错误。 支持向量机是一种监督学习算法,它可以用于分类和回归问题。支持向量机的优点是高效,适合高维空间,能够处理大量数据。但是,它的缺点是如果特征数量比样本数量大得多,在选择核函数时要避免过拟合,无法解决多分类问题,不直接提供概率估计。 过拟合问题是指模型对训练数据的拟合程度太高,导致模型无法泛化到新的数据。过拟合问题的原因包括使用的模型比较复杂,学习能力过强,有噪声存在,数据量有限。解决过拟合的办法包括提前终止、数据集扩增、寻找最优参数等。 聚类是将物理或抽象对象的集合分组成为多个类或簇的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。聚类与分类的不同是,聚类要划分的类是未知的,分类则是可按已知规则进行。聚类是一种无指导学习,它不依赖预先定义的类和带类标号的训练实例,属于观察式学习。 K-Means算法是一种聚类算法,它的过程可以用伪代码表示如下: 1. 从一系列数据D中任意选择K个对象作为初始簇的中心 2. 对每个对象,计算它到每个簇中心的距离 3. 将每个对象分配到最近的簇中心 4. 对每个簇,重新计算簇中心 5. 重复步骤2-4,直到簇中心不再变化 本文对数据挖掘和机器学习的基本概念进行了总结,并对K-近邻算法、支持向量机、过拟合问题、聚类和K-Means算法进行了详细的介绍。
剩余11页未读,继续阅读
- 粉丝: 106
- 资源: 1万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助