专题资料（2021-2022年）MicrosoftSQLServer2008R2数据挖掘算法挖掘模型内容.docx资源-CSDN文库

需积分: 9 100 浏览量 2022-07-19 08:13:50 上传评论收藏 348KB DOCX 举报

资源推荐

资源详情

资源评论

Microsoft SQL Server 2008 R2 数据挖掘算法

模型内容

挖掘模型内容（Analysis Services - 数据挖掘） ..................................................................2

关联模型的挖掘模型内容（Analysis Services – 数据挖掘） ...........................................11

聚类分析模型的挖掘模型内容（Analysis Services – 数据挖掘） ...................................15

决策树模型的挖掘模型内容（Analysis Services - 数据挖掘） .........................................19

线性回归模型的挖掘模型内容（Analysis Services - 数据挖掘） .....................................26

逻辑回归模型的挖掘模型内容（Analysis Services - 数据挖掘） .....................................30

Naive Bayes 模型的挖掘模型内容（Analysis Services - 数据挖掘） .............................35

神经网络模型的挖掘模型内容（Analysis Services - 数据挖掘） .....................................41

顺序分析和聚类分析模型的挖掘模型内容（Analysis Services - 数据挖掘） .................47

时序模型的挖掘模型内容（Analysis Services - 数据挖掘） .............................................53

挖掘模型内容（Analysis Services - 数据挖掘）

SQL Server 2008 R2

使用基础挖掘结构中的数据设计并处理挖掘模型后，该挖掘模型就已完成，包含有“挖掘模型内

容”。可以使用此内容来预测或分析您的数据。

挖掘模型内容包含关于模型的元数据、关于数据的统计信息以及挖掘算法发现的模式。模型内容

可能包括回归公式、规则和项集的定义或权重和其他统计信息，具体取决于所使用的算法。

不论使用的是哪种算法，挖掘模型内容都是以标准结构呈现的。您可以在 Business

Intelligence Development Studio 提供的 Microsoft 一般内容树查看器中浏览结构，然后切换

到自定义查看器之一，查看系统是如何针对每种模型类型以图形方式解释和显示信息的。还可以

使用支持 MINING_MODEL_CONTENT 架构行集的任意客户端创建针对该挖掘模型内容的查询。有关

详细信息，请参阅使用数据挖掘模型操作指南主题（Analysis Services - 数据挖掘）

。

本节介绍为所有的挖掘模型类型提供的基本内容结构。还说明了所有挖掘模型内容所通用的节点

类型，并提供了关于如何解释这些信息的指南。

挖掘模型内容的结构

节点

按算法类型列出挖掘模型内容

查看挖掘模型内容的工具

查询挖掘模型内容的工具

挖掘模型内容的结构

每个模型的内容均显示为一系列“节点”。节点是挖掘模型内的对象，包含该模型某一部分的元

数据或信息。节点按层次结构排列。层次结构中节点的准确排列以及层次结构的含义取决于您使

用的算法。例如，如果您创建一个决策树模型，该模型可以包含多个树，并且所有树均连接到模

型根；如果您创建一个神经网络模型，则该模型可能包含一个或多个网络，外加一个统计信息节

点。

每个模型中的第一个节点都称为“根节点”或“模型父节点”。每个模型都有一个根节点

(NODE_TYPE = 1)。根节点通常包含关于模型的某些元数据以及子节点的数目，但是几乎没有关于

该模型发现的模式的其他信息。

根据您用来创建模型的算法，根节点的子节点的数量会有所不同。子节点具有不同的含义，包含

不同的内容，具体取决于算法以及数据的深度和复杂性。

返回页首

节点

在挖掘模型中，每个节点都是一个常规用途的容器，用于存储关于整个模型或它的一部分的一段

信息。每个节点的结构始终是相同的，并包含数据挖掘架构行集定义的列。有关详细信息，请参

阅 DMSCHEMA_MINING_MODEL_CONTENT 行集

。

每个节点都包含关于该节点的元数据，包括在每个模型中唯一的标识符、父节点的 ID 以及该节

点具有的子节点数量。元数据标识节点属于哪个模型以及存储该特定模型的数据库目录。节点中

提供的其他内容根据您用来创建模型的算法类型的不同而不同，可能包含：

� 支持特定的预测值的定型数据中的事例计数。

� 统计信息，如平均值、标准偏差或方差。

� 系数和公式。

� 规则和横向指针的定义。

� XML 片段，用于描述该模型的一部分。

节点类型列表。

下表列出了可以在数据挖掘模型中输出的各种类型的节点。由于每种算法处理信息的方式不同，

因此每个模型仅生成几种特定类型的节点。如果您更改算法，节点的类型可能也会更改。此外，

如果您重新处理模型，每个节点的内容可能也会更改。

注意

如果您使用的数据挖掘服务不是由 SQL Server 2008 Analysis Services 提供的，或者您创建自

己的插件算法，则可能还有更多自定义节点类型。

NODE_TYPE

节点标签

节点内容

Model

元数据和根内容节点。适用于所有模型类型。

Tree

分类树的根节点。适用于决策树模型。

Interior

树中的内部拆分节点。适用于决策树模型。

Distribution

树的终端节点。适用于决策树模型。

Cluster

算法检测到的分类。适用于聚类分析模型以及顺序分析

和聚类分析模型。

Unknown

未知节点类型。

ItemSet

算法检测到的项集。适用于关联模型或顺序分析和聚类

分析模型。

AssociationRule

算法检测到的关联规则。适用于关联模型或顺序分析和

聚类分析模型。

PredictableAttribute

可预测属性。适用于所有模型类型。

InputAttribute

输入属性。适用于决策树和 Naïve Bayes 模型。

InputAttributeState

有关输入属性状态的统计信息。适用于决策树和 Naïve

Bayes 模型。

Sequence

序列分类的 Markov 模型组件的顶端节点。适用于顺序

分析和聚类分析模型。

Transition

Markov 转换矩阵。适用于顺序分析和聚类分析模型。

TimeSeries

时序树的非根节点。仅适用于时序模型。

TsTree

对应于可预测时序的时序树的根节点。适用于时序模型，

并仅限于使用 MIXED 参数创建的模型。

NNetSubnetwork

一个子网络。适用于神经网络模型。

NNetInputLayer

包含输入层的节点的组。适用于神经网络模型。

NNetHiddenLayer

包含描述隐藏层的节点的组。适用于神经网络模型。

NNetOutputLayer

包含输出层的节点的组。适用于神经网络模型。

NNetInputNode

将输入属性与对应状态相匹配的输入层中的节点。适用

于神经网络模型。

NNetHiddenNode

隐藏层中的节点。适用于神经网络模型。

NNetOutputNode

输出层中的节点。此节点通常将输出属性与对应的状态

相匹配。适用于神经网络模型。

NNetMarginalNode

关于定型集的边际统计信息。适用于神经网络模型。

RegressionTreeRoot

回归树的根。适用于线性回归模型以及包含连续的输入

属性的决策树模型。

NaiveBayesMarginalStatNode

关于定型集的边际统计信息。适用于 Naïve Bayes 模型。

ArimaRoot

ARIMA 模型的根节点。仅适用于那些使用 ARIMA 算法的

时序模型。

ArimaPeriodicStructure

ARIMA 模型中的周期性结构。仅适用于那些使用 ARIMA

算法的时序模型。

ArimaAutoRegressive

ARIMA 模型中的单个字词的自动回归系数。

仅适用于那些使用 ARIMA 算法的时序模型。

ArimaMovingAverage

ARIMA 模型中单个字词的移动平均值系数。仅适用于那

些使用 ARIMA 算法的时序模型。

1000

CustomBase

自定义节点类型的起始点。自定义节点类型必须是值大

于此常量的整数。适用于通过使用自定义插件算法创建

的模型。

节点 ID、名称、标题和说明

任何模型的根节点始终具有值为 0 的唯一 ID (NODE_UNIQUE_NAME)。所有节点 ID 自动由

Analysis Services 分配，无法修改。

每个模型的根节点还包含有关模型的一些基本的元数据。这些元数据包括存储模型的 Analysis

Services 数据库 (MODEL_CATALOG)、架构 (MODEL_SCHEMA) 和模型的名称 (MODEL_NAME)。不过，

这些信息在模型的所有节点中都是重复的，因此您无需查询根节点来获取这些元数据。

除了用作唯一标识符的名称，每个节点还具有一个“名称”(NODE_NAME)。此名称是算法自动创

建的，用于显示目的，不能进行编辑。

注意

Microsoft 聚类分析算法允许用户为每个分类指定友好名称。不过，这些友好名称在服务器上

不是持久性的，如果您重新处理模型，算法将重新生成新的分类名称。

每个节点的“标题”和“说明”都是由算法自动生成的，用作标签，可以帮助您了解节点的内容。

为每个字段生成的文本取决于模型类型。某些情况下，名称、标题和说明可能包含完全相同的字

符串，但是在某些模型中，说明还可能包含更多信息。请参阅各个模型类型的主题，了解有关实

现的详细信息。

注意

Analysis Services 服务器支持重命名节点，前提是您的模型是使用实现重命名的自定义插件

算法生成的。若要启用重命名，必须在创建插件算法时覆盖方法。

父节点、子节点和节点基数

树结构中父节点和子节点之间的关系是由 PARENT_UNIQUE_NAME 列的值决定的。该值存储在子节

点，指示父节点的 ID。下面给出了说明此信息的含义的示例：

� 为 NULL 的 PARENT_UNIQUE_NAME 表示此节点是模型的顶端节点。

� 如果 PARENT_UNIQUE_NAME 的值为 0，则此节点一定是模型中顶端节点的直接后代。这是因

为根节点的 ID 始终为 0。

� 您可以在数据挖掘扩展插件 (DMX) 查询内使用函数来查找特定节点的后代或父级。有关在

查询中使用函数的详细信息，请参阅查询数据挖掘模型（Analysis Services – 数据挖掘）

。

“基数”是指集中的项数。在处理的挖掘模型的上下文中，基数会指示特定节点中子级的数量。

例如，如果某个决策树模型有一个 [Yearly Income] 节点，并且该节点有两个子节点，一个针对

条件 [Yearly Income] = High，一个针对条件 [Yearly Income] = Low，则 [Yearly Income] 节点

的 CHILDREN_CARDINALITY 值将为 2。

注意

在 Analysis Services 中，当计算节点的基数时，仅统计直接的子节点。不过，如果您创建了

一个自定义插件算法，则可以重载 CHILDREN_CARDINALITY，从而按不同的方式统计基数。这种

做法可能会很有用，例如，如果您希望统计后代的总数，而不仅仅是直接子级的数量。

尽管对于所有模型来说统计基数的方法都是相同的，但是根据模型类型的不同，解释或使用基数

值的方式会有所不同。例如，在聚类分析模型中，顶端节点的基数会指示已找到的分类总数。在

其他类型的模型中，基数可能始终有一个设定的值（取决于节点类型）。有关如何解释基数的详

细信息，请参阅有关各个模型类型的主题。

注意

有些模型（例如，由 Microsoft 神经网络算法创建的模型）另外还包含一个特殊的节点类型，

该类型提供关于整个模型的定型数据的描述性统计信息。根据定义，这些节点永远不会具有子

节点。

节点分布

NODE_DISTRIBUTION 列包含一个嵌套表，在许多节点中这个表都提供有关算法所发现的模式的重

要而详细的信息。根据模型类型、节点在树中的位置以及此可预测属性是连续数值还是离散值，

该表中所提供的准确统计信息会有所变化；不过，它们可以包括属性的最小值和最大值、分配给

值的权重、节点中事例的数量、回归公式中使用的系数以及诸如标准偏差和方差等统计度量值。

有关如何解释节点分布的详细信息，请参阅对应于您所使用的特定模型类型的主题。

注意

NODE_DISTRIBUTION 表可能为空，具体取决于节点类型。例如，某些节点仅用于组织子节点的

集合，包含详细统计信息的是子节点。

嵌套表 NODE_DISTRIBUTION 始终包含以下列。每个列的内容会有所不同，具体取决于模型类型。

有关特定模型类型的详细信息，请参阅按算法类型列出挖掘模型内容。

ATTRIBUTE_NAME

内容随算法的不同而变化。可以是列的名称，例如可预测属性、规则、项集或算法内部

的一条信息（如公式的一部分）。

此列还可以包含一个属性/值对。

ATTRIBUTE_VALUE

在 ATTRIBUTE_NAME 中指定的属性的值。

如果属性名称为列，则在最简单的事例中，ATTRIBUTE_VALUE 包含该列的离散值之一。

剩余62页未读，继续阅读

评论收藏

内容反馈

智慧安全方案

粉丝: 3642
资源: 59万+

专题资料（2021-2022年）MicrosoftSQLServer2008R2数据挖掘算法挖掘模型内容.docx

Microsoft_SQL_Server_2008_R2数据挖掘算法-挖掘模型内容.docx

专题资料（2021-2022年）大数据公司挖掘数据价值的49个典型案例.docx

专题资料（2021-2022年）《金矿精益管理挖掘利润》学习心得副本.docx

使用Oracle移植工作台从MicrosoftSQLServer移植到Oracle数据.docx

计算机软件-编程源码-MicrosoftSQLServer7性能优化.zip

MicrosoftSQLServer2008安装图解

MicrosoftSQLServer中决策树模型.pdf

MicrosoftSQLSERVER2008技术内幕 T-SQL查询.part2.rar

21-08-06_EFCoreDemo(005_通过Add-Migration在MicrosoftSQLServer中自动生成相应的数据库及其表).rar

Microsoft SQL Server数据挖掘的高级研究

MicrosoftSQLSERVER2008技术内幕 T-SQL查询.part1.rar

PDF-MicrosoftSQLServer2012Internals-英文版.rar

MicrosoftSQLServer2008[收集].pdf

MicrosoftSQLServer2008技术内幕：T-SQL查询

SQLr2008R2

javabiginteger源码-r2dbc-mssql:使用TDS（表格数据流）协议的MicrosoftSQLServer的R2DBC驱动程

MicrosoftSQLServer数据库的数据维护

MicrosoftSQLServer2012WithHadoop-英文原版.zip

21-08-06_EFCoreDemo(003_通过Add-Migration只能在MicrosoftSQLServer中自动生成相应的数据库).rar

Oracle数据库.docx

KepOPC DA2UA实现从OPCDA到OPCUA的转换及读写互操作

Midjourney-关键词大全

“未来工厂”建设导则.pdf

2024年Java基础面试题，附带详细解析答案

腾讯QQ秀立项调研PPT

各省互联网普及率（1997-2020）

最新资源