没有合适的资源?快使用搜索试试~ 我知道了~
Microsoft_SQL_Server_2008_R2数据挖掘算法-挖掘模型内容.docx
需积分: 9 8 下载量 184 浏览量
2013-03-10
22:27:21
上传
评论 2
收藏 346KB DOCX 举报
温馨提示
试读
64页
数据挖掘算法 SQL_Server_2008_R2数据挖掘算法-挖掘模型内容
资源推荐
资源详情
资源评论
Microsoft SQL Server 2008 R2 数据挖掘算法
模型内容
目录
挖掘模型内容(Analysis Services - 数据挖掘)........................................................................... 2
关联模型的挖掘模型内容(Analysis Services – 数据挖掘).....................................................12
聚类分析模型的挖掘模型内容(Analysis Services – 数据挖掘).............................................17
决策树模型的挖掘模型内容(Analysis Services - 数据挖掘)..................................................21
线性回归模型的挖掘模型内容(Analysis Services - 数据挖掘)..............................................29
逻辑回归模型的挖掘模型内容(Analysis Services - 数据挖掘)..............................................34
Naive Bayes 模型的挖掘模型内容(Analysis Services - 数据挖掘)..........................................39
神经网络模型的挖掘模型内容(Analysis Services - 数据挖掘)..............................................46
顺序分析和聚类分析模型的挖掘模型内容(Analysis Services - 数据挖掘)...........................52
时序模型的挖掘模型内容(Analysis Services - 数据挖掘)......................................................59
1
挖掘模型内容(Analysis Services - 数据挖掘)
SQL Server 2008 R2
使用基础挖掘结构中的数据设计并处理挖掘模型后,该挖掘模型就已完成,包含有“挖掘模型内
容”。可以使用此内容来预测或分析您的数据。
挖掘模型内容包含关于模型的元数据、关于数据的统计信息以及挖掘算法发现的模式。模型内
容可能包括回归公式、规则和项集的定义或权重和其他统计信息,具体取决于所使用的算法。
不论使用的是哪种算法,挖掘模型内容都是以标准结构呈现的。您可以在 Business
Intelligence Development Studio 提供的 Microsoft 一般内容树查看器中浏览结构,然后
切换到自定义查看器之一,查看系统是如何针对每种模型类型以图形方式解释和显示信息的。
还可以使用支持 MINING_MODEL_CONTENT 架构行集的任意客户端创建针对该挖掘模型内
容的查询。有关详细信息,请参阅使用数据挖掘模型操作指南主题(Analysis Services - 数
据挖掘)
1
。
本节介绍为所有的挖掘模型类型提供的基本内容结构。还说明了所有挖掘模型内容所通用的节
点类型,并提供了关于如何解释这些信息的指南。
挖掘模型内容的结构
节点
按算法类型列出挖掘模型内容
查看挖掘模型内容的工具
查询挖掘模型内容的工具
挖掘模型内容的结构
每个模型的内容均显示为一系列“节点”。节点是挖掘模型内的对象,包含该模型某一部分的元
数据或信息。节点按层次结构排列。层次结构中节点的准确排列以及层次结构的含义取决于您
使用的算法。例如,如果您创建一个决策树模型,该模型可以包含多个树,并且所有树均连接
到模型根;如果您创建一个神经网络模型,则该模型可能包含一个或多个网络,外加一个统计
信息节点。
每个模型中的第一个节点都称为“根节点”或“模型父节点”。每个模型都有一个根节点
(NODE_TYPE = 1)。根节点通常包含关于模型的某些元数据以及子节点的数目,但是几乎没
有关于该模型发现的模式的其他信息。
根据您用来创建模型的算法,根节点的子节点的数量会有所不同。子节点具有不同的含义,包
含不同的内容,具体取决于算法以及数据的深度和复杂性。
返回页首
节点
2
在挖掘模型中,每个节点都是一个常规用途的容器,用于存储关于整个模型或它的一部分的一
段信息。每个节点的结构始终是相同的,并包含数据挖掘架构行集定义的列。有关详细信息,
请参阅 DMSCHEMA_MINING_MODEL_CONTENT 行集
2
。
每个节点都包含关于该节点的元数据,包括在每个模型中唯一的标识符、父节点的 ID 以及该
节点具有的子节点数量。元数据标识节点属于哪个模型以及存储该特定模型的数据库目录。节
点中提供的其他内容根据您用来创建模型的算法类型的不同而不同,可能包含:
支持特定的预测值的定型数据中的事例计数。
统计信息,如平均值、标准偏差或方差。
系数和公式。
规则和横向指针的定义。
XML 片段,用于描述该模型的一部分。
节点类型列表。
下表列出了可以在数据挖掘模型中输出的各种类型的节点。由于每种算法处理信息的方式不同,
因此每个模型仅生成几种特定类型的节点。如果您更改算法,节点的类型可能也会更改。此外,
如果您重新处理模型,每个节点的内容可能也会更改。
注意
如果您使用的数据挖掘服务不是由 SQL Server 2008 Analysis Services 提供的,或者您
创建自己的插件算法,则可能还有更多自定义节点类型。
NODE_TY
PE ID
节点标签 节点内容
1 Model
元数据和根内容节点。适用于所有模型类型。
2 Tree
分类树的根节点。适用于决策树模型。
3 Interior
树中的内部拆分节点。适用于决策树模型。
4 Distribution
树的终端节点。适用于决策树模型。
5 Cluster
算法检测到的分类。适用于聚类分析模型以及顺序分
析和聚类分析模型。
6 Unknown
未知节点类型。
7 ItemSet
算法检测到的项集。适用于关联模型或顺序分析和聚
类分析模型。
8 AssociationRule
算法检测到的关联规则。适用于关联模型或顺序分析
和聚类分析模型。
9 PredictableAttribute
可预测属性。适用于所有模型类型。
10 InputAttribute
输入属性。适用于决策树和 Naïve Bayes 模型。
11 InputAttributeState
有关输入属性状态的统计信息。适用于决策树和
Naïve Bayes 模型。
13 Sequence
序列分类的 Markov 模型组件的顶端节点。适用于顺
序分析和聚类分析模型。
14 Transition
Markov 转换矩阵。适用于顺序分析和聚类分析模
型。
15 TimeSeries
时序树的非根节点。仅适用于时序模型。
3
16 TsTree
对应于可预测时序的时序树的根节点。适用于时序模
型,并仅限于使用 MIXED 参数创建的模型。
17 NNetSubnetwork
一个子网络。适用于神经网络模型。
18 NNetInputLayer
包含输入层的节点的组。适用于神经网络模型。
19 NNetHiddenLayer
包含描述隐藏层的节点的组。适用于神经网络模型。
21 NNetOutputLayer
包含输出层的节点的组。适用于神经网络模型。
21 NNetInputNode
将输入属性与对应状态相匹配的输入层中的节点。适
用于神经网络模型。
22 NNetHiddenNode
隐藏层中的节点。适用于神经网络模型。
23 NNetOutputNode
输出层中的节点。此节点通常将输出属性与对应的状
态相匹配。适用于神经网络模型。
24 NNetMarginalNode
关于定型集的边际统计信息。适用于神经网络模型。
25 RegressionTreeRoot
回归树的根。适用于线性回归模型以及包含连续的输
入属性的决策树模型。
26
NaiveBayesMarginalStatN
ode
关于定型集的边际统计信息。适用于 Naïve Bayes 模
型。
27 ArimaRoot
ARIMA 模型的根节点。仅适用于那些使用 ARIMA 算
法的时序模型。
28 ArimaPeriodicStructure
ARIMA 模型中的周期性结构。仅适用于那些使用
ARIMA 算法的时序模型。
29 ArimaAutoRegressive
ARIMA 模型中的单个字词的自动回归系数。
仅适用于那些使用 ARIMA 算法的时序模型。
30 ArimaMovingAverage
ARIMA 模型中单个字词的移动平均值系数。仅适用于
那些使用 ARIMA 算法的时序模型。
1000 CustomBase
自定义节点类型的起始点。自定义节点类型必须是值
大于此常量的整数。适用于通过使用自定义插件算法
创建的模型。
节点 ID、名称、标题和说明
任何模型的根节点始终具有值为 0 的唯一 ID (NODE_UNIQUE_NAME)。所有节点 ID 自动
由 Analysis Services 分配,无法修改。
每个模型的根节点还包含有关模型的一些基本的元数据。这些元数据包括存储模型的 Analysis
Services 数据库 (MODEL_CATALOG)、架构 (MODEL_SCHEMA) 和模型的名称
(MODEL_NAME)。不过,这些信息在模型的所有节点中都是重复的,因此您无需查询根节
点来获取这些元数据。
除了用作唯一标识符的名称,每个节点还具有一个“名称”(NODE_NAME)。此名称是算法自动
创建的,用于显示目的,不能进行编辑。
注意
Microsoft 聚类分析算法允许用户为每个分类指定友好名称。不过,这些友好名称在服务器
上不是持久性的,如果您重新处理模型,算法将重新生成新的分类名称。
4
每个节点的“标题”和“说明”都是由算法自动生成的,用作标签,可以帮助您了解节点的内容。为
每个字段生成的文本取决于模型类型。某些情况下,名称、标题和说明可能包含完全相同的字
符串,但是在某些模型中,说明还可能包含更多信息。请参阅各个模型类型的主题,了解有关
实现的详细信息。
注意
Analysis Services 服务器支持重命名节点,前提是您的模型是使用实现重命名的自定义插
件算法生成的。若要启用重命名,必须在创建插件算法时覆盖方法。
父节点、子节点和节点基数
树结构中父节点和子节点之间的关系是由 PARENT_UNIQUE_NAME 列的值决定的。该值存储
在子节点,指示父节点的 ID。下面给出了说明此信息的含义的示例:
为 NULL 的 PARENT_UNIQUE_NAME 表示此节点是模型的顶端节点。
如果 PARENT_UNIQUE_NAME 的值为 0,则此节点一定是模型中顶端节点的直接后代。
这是因为根节点的 ID 始终为 0。
您可以在数据挖掘扩展插件 (DMX) 查询内使用函数来查找特定节点的后代或父级。有
关在查询中使用函数的详细信息,请参阅查询数据挖掘模型(Analysis Services – 数
据挖掘)
3
。
“基数”是指集中的项数。在处理的挖掘模型的上下文中,基数会指示特定节点中子级的数量。
例如,如果某个决策树模型有一个 [Yearly Income] 节点,并且该节点有两个子节点,一个针
对条件 [Yearly Income] = High,一个针对条件 [Yearly Income] = Low,则 [Yearly
Income] 节点的 CHILDREN_CARDINALITY 值将为 2。
注意
在 Analysis Services 中,当计算节点的基数时,仅统计直接的子节点。不过,如果您创建
了一个自定义插件算法,则可以重载 CHILDREN_CARDINALITY,从而按不同的方式统计基
数。这种做法可能会很有用,例如,如果您希望统计后代的总数,而不仅仅是直接子级的数
量。
尽管对于所有模型来说统计基数的方法都是相同的,但是根据模型类型的不同,解释或使用基
数值的方式会有所不同。例如,在聚类分析模型中,顶端节点的基数会指示已找到的分类总数。
在其他类型的模型中,基数可能始终有一个设定的值(取决于节点类型)。有关如何解释基数
的详细信息,请参阅有关各个模型类型的主题。
注意
有些模型(例如,由 Microsoft 神经网络算法创建的模型)另外还包含一个特殊的节点类
型,该类型提供关于整个模型的定型数据的描述性统计信息。根据定义,这些节点永远不会
具有子节点。
节点分布
NODE_DISTRIBUTION 列包含一个嵌套表,在许多节点中这个表都提供有关算法所发现的模
式的重要而详细的信息。根据模型类型、节点在树中的位置以及此可预测属性是连续数值还是
离散值,该表中所提供的准确统计信息会有所变化;不过,它们可以包括属性的最小值和最大
值、分配给值的权重、节点中事例的数量、回归公式中使用的系数以及诸如标准偏差和方差等
5
剩余63页未读,继续阅读
资源评论
aysy365
- 粉丝: 1
- 资源: 3
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IMG_20240425_120538.jpg
- My Complete Genome_6k Base-Pairs of Phenotype SNPs_Complete Raw Data.zip
- qt 的mqtt测试demo
- 移动应用开发教程-zip.zip
- mosquitto-2.018-install-windows-x64
- FTPServer FTP 服务器,绿色免安装,单文件
- 梦畅语音点名软件,上课点名
- 利用ADNI数据集和标签,在tensorflow框架上使用tensorlayer接口,通过架构u-net实现海马体的分割
- Kutools for Word v9.0 office word 插件
- 修复Windows 10 LTSC 2021资源占用率高
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功