没有合适的资源?快使用搜索试试~ 我知道了~
专题资料(2021-2022年)MicrosoftSQLServer2008R2数据挖掘算法挖掘模型内容.docx
需积分: 9 0 下载量 100 浏览量
2022-07-19
08:13:50
上传
评论
收藏 348KB DOCX 举报
温馨提示
试读
63页
专题资料(2021-2022年)MicrosoftSQLServer2008R2数据挖掘算法挖掘模型内容.docx
资源推荐
资源详情
资源评论
1
Microsoft SQL Server 2008 R2 数据挖掘算法
模型内容
目录
挖掘模型内容(Analysis Services - 数据挖掘) ..................................................................2
关联模型的挖掘模型内容(Analysis Services – 数据挖掘) ...........................................11
聚类分析模型的挖掘模型内容(Analysis Services – 数据挖掘) ...................................15
决策树模型的挖掘模型内容(Analysis Services - 数据挖掘) .........................................19
线性回归模型的挖掘模型内容(Analysis Services - 数据挖掘) .....................................26
逻辑回归模型的挖掘模型内容(Analysis Services - 数据挖掘) .....................................30
Naive Bayes 模型的挖掘模型内容(Analysis Services - 数据挖掘) .............................35
神经网络模型的挖掘模型内容(Analysis Services - 数据挖掘) .....................................41
顺序分析和聚类分析模型的挖掘模型内容(Analysis Services - 数据挖掘) .................47
时序模型的挖掘模型内容(Analysis Services - 数据挖掘) .............................................53
2
挖掘模型内容(Analysis Services - 数据挖掘)
SQL Server 2008 R2
使用基础挖掘结构中的数据设计并处理挖掘模型后,该挖掘模型就已完成,包含有“挖掘模型内
容”。可以使用此内容来预测或分析您的数据。
挖掘模型内容包含关于模型的元数据、关于数据的统计信息以及挖掘算法发现的模式。模型内容
可能包括回归公式、规则和项集的定义或权重和其他统计信息,具体取决于所使用的算法。
不论使用的是哪种算法,挖掘模型内容都是以标准结构呈现的。您可以在 Business
Intelligence Development Studio 提供的 Microsoft 一般内容树查看器中浏览结构,然后切换
到自定义查看器之一,查看系统是如何针对每种模型类型以图形方式解释和显示信息的。还可以
使用支持 MINING_MODEL_CONTENT 架构行集的任意客户端创建针对该挖掘模型内容的查询。有关
详细信息,请参阅使用数据挖掘模型操作指南主题(Analysis Services - 数据挖掘)
1
。
本节介绍为所有的挖掘模型类型提供的基本内容结构。还说明了所有挖掘模型内容所通用的节点
类型,并提供了关于如何解释这些信息的指南。
挖掘模型内容的结构
节点
按算法类型列出挖掘模型内容
查看挖掘模型内容的工具
查询挖掘模型内容的工具
挖掘模型内容的结构
每个模型的内容均显示为一系列“节点”。节点是挖掘模型内的对象,包含该模型某一部分的元
数据或信息。节点按层次结构排列。层次结构中节点的准确排列以及层次结构的含义取决于您使
用的算法。例如,如果您创建一个决策树模型,该模型可以包含多个树,并且所有树均连接到模
型根;如果您创建一个神经网络模型,则该模型可能包含一个或多个网络,外加一个统计信息节
点。
每个模型中的第一个节点都称为“根节点”或“模型父节点”。每个模型都有一个根节点
(NODE_TYPE = 1)。根节点通常包含关于模型的某些元数据以及子节点的数目,但是几乎没有关于
该模型发现的模式的其他信息。
根据您用来创建模型的算法,根节点的子节点的数量会有所不同。子节点具有不同的含义,包含
不同的内容,具体取决于算法以及数据的深度和复杂性。
返回页首
节点
在挖掘模型中,每个节点都是一个常规用途的容器,用于存储关于整个模型或它的一部分的一段
信息。每个节点的结构始终是相同的,并包含数据挖掘架构行集定义的列。有关详细信息,请参
阅 DMSCHEMA_MINING_MODEL_CONTENT 行集
2
。
每个节点都包含关于该节点的元数据,包括在每个模型中唯一的标识符、父节点的 ID 以及该节
点具有的子节点数量。元数据标识节点属于哪个模型以及存储该特定模型的数据库目录。节点中
提供的其他内容根据您用来创建模型的算法类型的不同而不同,可能包含:
� 支持特定的预测值的定型数据中的事例计数。
� 统计信息,如平均值、标准偏差或方差。
3
� 系数和公式。
� 规则和横向指针的定义。
� XML 片段,用于描述该模型的一部分。
节点类型列表。
下表列出了可以在数据挖掘模型中输出的各种类型的节点。由于每种算法处理信息的方式不同,
因此每个模型仅生成几种特定类型的节点。如果您更改算法,节点的类型可能也会更改。此外,
如果您重新处理模型,每个节点的内容可能也会更改。
注意
如果您使用的数据挖掘服务不是由 SQL Server 2008 Analysis Services 提供的,或者您创建自
己的插件算法,则可能还有更多自定义节点类型。
NODE_TYPE
ID
节点标签
节点内容
1
Model
元数据和根内容节点。适用于所有模型类型。
2
Tree
分类树的根节点。适用于决策树模型。
3
Interior
树中的内部拆分节点。适用于决策树模型。
4
Distribution
树的终端节点。适用于决策树模型。
5
Cluster
算法检测到的分类。适用于聚类分析模型以及顺序分析
和聚类分析模型。
6
Unknown
未知节点类型。
7
ItemSet
算法检测到的项集。适用于关联模型或顺序分析和聚类
分析模型。
8
AssociationRule
算法检测到的关联规则。适用于关联模型或顺序分析和
聚类分析模型。
9
PredictableAttribute
可预测属性。适用于所有模型类型。
10
InputAttribute
输入属性。适用于决策树和 Naïve Bayes 模型。
11
InputAttributeState
有关输入属性状态的统计信息。适用于决策树和 Naïve
Bayes 模型。
13
Sequence
序列分类的 Markov 模型组件的顶端节点。适用于顺序
分析和聚类分析模型。
14
Transition
Markov 转换矩阵。适用于顺序分析和聚类分析模型。
15
TimeSeries
时序树的非根节点。仅适用于时序模型。
16
TsTree
对应于可预测时序的时序树的根节点。适用于时序模型,
并仅限于使用 MIXED 参数创建的模型。
17
NNetSubnetwork
一个子网络。适用于神经网络模型。
18
NNetInputLayer
包含输入层的节点的组。适用于神经网络模型。
19
NNetHiddenLayer
包含描述隐藏层的节点的组。适用于神经网络模型。
21
NNetOutputLayer
包含输出层的节点的组。适用于神经网络模型。
21
NNetInputNode
将输入属性与对应状态相匹配的输入层中的节点。适用
于神经网络模型。
4
22
NNetHiddenNode
隐藏层中的节点。适用于神经网络模型。
23
NNetOutputNode
输出层中的节点。此节点通常将输出属性与对应的状态
相匹配。适用于神经网络模型。
24
NNetMarginalNode
关于定型集的边际统计信息。适用于神经网络模型。
25
RegressionTreeRoot
回归树的根。适用于线性回归模型以及包含连续的输入
属性的决策树模型。
26
NaiveBayesMarginalStatNode
关于定型集的边际统计信息。适用于 Naïve Bayes 模型。
27
ArimaRoot
ARIMA 模型的根节点。仅适用于那些使用 ARIMA 算法的
时序模型。
28
ArimaPeriodicStructure
ARIMA 模型中的周期性结构。仅适用于那些使用 ARIMA
算法的时序模型。
29
ArimaAutoRegressive
ARIMA 模型中的单个字词的自动回归系数。
仅适用于那些使用 ARIMA 算法的时序模型。
30
ArimaMovingAverage
ARIMA 模型中单个字词的移动平均值系数。仅适用于那
些使用 ARIMA 算法的时序模型。
1000
CustomBase
自定义节点类型的起始点。自定义节点类型必须是值大
于此常量的整数。适用于通过使用自定义插件算法创建
的模型。
节点 ID、名称、标题和说明
任何模型的根节点始终具有值为 0 的唯一 ID (NODE_UNIQUE_NAME)。所有节点 ID 自动由
Analysis Services 分配,无法修改。
每个模型的根节点还包含有关模型的一些基本的元数据。这些元数据包括存储模型的 Analysis
Services 数据库 (MODEL_CATALOG)、架构 (MODEL_SCHEMA) 和模型的名称 (MODEL_NAME)。不过,
这些信息在模型的所有节点中都是重复的,因此您无需查询根节点来获取这些元数据。
除了用作唯一标识符的名称,每个节点还具有一个“名称”(NODE_NAME)。此名称是算法自动创
建的,用于显示目的,不能进行编辑。
注意
Microsoft 聚类分析算法允许用户为每个分类指定友好名称。不过,这些友好名称在服务器上
不是持久性的,如果您重新处理模型,算法将重新生成新的分类名称。
每个节点的“标题”和“说明”都是由算法自动生成的,用作标签,可以帮助您了解节点的内容。
为每个字段生成的文本取决于模型类型。某些情况下,名称、标题和说明可能包含完全相同的字
符串,但是在某些模型中,说明还可能包含更多信息。请参阅各个模型类型的主题,了解有关实
现的详细信息。
注意
Analysis Services 服务器支持重命名节点,前提是您的模型是使用实现重命名的自定义插件
算法生成的。若要启用重命名,必须在创建插件算法时覆盖方法。
父节点、子节点和节点基数
树结构中父节点和子节点之间的关系是由 PARENT_UNIQUE_NAME 列的值决定的。该值存储在子节
点,指示父节点的 ID。下面给出了说明此信息的含义的示例:
� 为 NULL 的 PARENT_UNIQUE_NAME 表示此节点是模型的顶端节点。
5
� 如果 PARENT_UNIQUE_NAME 的值为 0,则此节点一定是模型中顶端节点的直接后代。这是因
为根节点的 ID 始终为 0。
� 您可以在数据挖掘扩展插件 (DMX) 查询内使用函数来查找特定节点的后代或父级。有关在
查询中使用函数的详细信息,请参阅查询数据挖掘模型(Analysis Services – 数据挖掘)
3
。
“基数”是指集中的项数。在处理的挖掘模型的上下文中,基数会指示特定节点中子级的数量。
例如,如果某个决策树模型有一个 [Yearly Income] 节点,并且该节点有两个子节点,一个针对
条件 [Yearly Income] = High,一个针对条件 [Yearly Income] = Low,则 [Yearly Income] 节点
的 CHILDREN_CARDINALITY 值将为 2。
注意
在 Analysis Services 中,当计算节点的基数时,仅统计直接的子节点。不过,如果您创建了
一个自定义插件算法,则可以重载 CHILDREN_CARDINALITY,从而按不同的方式统计基数。这种
做法可能会很有用,例如,如果您希望统计后代的总数,而不仅仅是直接子级的数量。
尽管对于所有模型来说统计基数的方法都是相同的,但是根据模型类型的不同,解释或使用基数
值的方式会有所不同。例如,在聚类分析模型中,顶端节点的基数会指示已找到的分类总数。在
其他类型的模型中,基数可能始终有一个设定的值(取决于节点类型)。有关如何解释基数的详
细信息,请参阅有关各个模型类型的主题。
注意
有些模型(例如,由 Microsoft 神经网络算法创建的模型)另外还包含一个特殊的节点类型,
该类型提供关于整个模型的定型数据的描述性统计信息。根据定义,这些节点永远不会具有子
节点。
节点分布
NODE_DISTRIBUTION 列包含一个嵌套表,在许多节点中这个表都提供有关算法所发现的模式的重
要而详细的信息。根据模型类型、节点在树中的位置以及此可预测属性是连续数值还是离散值,
该表中所提供的准确统计信息会有所变化;不过,它们可以包括属性的最小值和最大值、分配给
值的权重、节点中事例的数量、回归公式中使用的系数以及诸如标准偏差和方差等统计度量值。
有关如何解释节点分布的详细信息,请参阅对应于您所使用的特定模型类型的主题。
注意
NODE_DISTRIBUTION 表可能为空,具体取决于节点类型。例如,某些节点仅用于组织子节点的
集合,包含详细统计信息的是子节点。
嵌套表 NODE_DISTRIBUTION 始终包含以下列。每个列的内容会有所不同,具体取决于模型类型。
有关特定模型类型的详细信息,请参阅按算法类型列出挖掘模型内容。
ATTRIBUTE_NAME
内容随算法的不同而变化。可以是列的名称,例如可预测属性、规则、项集或算法内部
的一条信息(如公式的一部分)。
此列还可以包含一个属性/值对。
ATTRIBUTE_VALUE
在 ATTRIBUTE_NAME 中指定的属性的值。
如果属性名称为列,则在最简单的事例中,ATTRIBUTE_VALUE 包含该列的离散值之一。
剩余62页未读,继续阅读
资源评论
智慧安全方案
- 粉丝: 3642
- 资源: 59万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于SpringBoot+Vue3快速开发平台、自研工作流引擎源码设计.zip
- docker安装部署全流程
- 基于树莓派的人脸识别系统python源码+项目部署说明+超详细代码注释.zip
- Python和R爬取分析赶集网北京二手房数据.zip
- Python和R爬取分析赶集网北京二手房数据.zip
- Java知识体系最强总结(2021版).txt
- Python知识点Python知识点Python知识点Python知识点Python知识点PythonPython知识点.txt
- Java开发基于seetaface6的人脸识别(活体检测)的封装源码.zip
- JSP在线失物招领管理平台源码.zip
- JSP在线旅游美食展现管理系统源码.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功