• 数据挖掘:概念与技术(中文第三版)

    出版者的话 中文版序 译者序 译者简介 第3版序 第2版序 前言 致谢 作者简介 第1章 引论1 1.1 为什么进行数据挖掘1 1.1.1 迈向信息时代1 1.1.2 数据挖掘是信息技术的进化2 1.2 什么是数据挖掘4 1.3 可以挖掘什么类型的数据6 1.3.1 数据库数据6 1.3.2 数据仓库7 1.3.3 事务数据9 1.3.4 其他类型的数据9 1.4 可以挖掘什么类型的模式10 1.4.1 类/概念描述:特征化与区分10 1.4.2 挖掘频繁模式、关联和相关性11 1.4.3 用于预测分析的分类与回归12 1.4.4 聚类分析13 1.4.5 离群点分析14 1.4.6 所有模式都是有趣的吗14 1.5 使用什么技术15 1.5.1 统计学15 1.5.2 机器学习16 1.5.3 数据库系统与数据仓库17 1.5.4 信息检索17 1.6 面向什么类型的应用18 1.6.1 商务智能18 1.6.2 Web搜索引擎18 1.7 数据挖掘的主要问题19 1.7.1 挖掘方法19 1.7.2 用户界面20 1.7.3 有效性和可伸缩性21 1.7.4 数据库类型的多样性21 1.7.5 数据挖掘与社会21 1.8 小结22 1.9 习题23 1.10 文献注释23 第2章 认识数据26 2.1 数据对象与属性类型26 2.1.1 什么是属性27 2.1.2 标称属性27 2.1.3 二元属性27 2.1.4 序数属性28 2.1.5 数值属性28 2.1.6 离散属性与连续属性29 2.2 数据的基本统计描述29 2.2.1 中心趋势度量:均值、中位数和众数30 2.2.2 度量数据散布:极差、四分位数、方差、标准差和四分位数极差32 2.2.3 数据的基本统计描述的图形显示34 2.3 数据可视化37 2.3.1 基于像素的可视化技术37 2.3.2 几何投影可视化技术38 2.3.3 基于图符的可视化技术40 2.3.4 层次可视化技术42 2.3.5 可视化复杂对象和关系42 2.4 度量数据的相似性和相异性44 2.4.1 数据矩阵与相异性矩阵45 2.4.2 标称属性的邻近性度量46 2.4.3 二元属性的邻近性度量46 2.4.4 数值属性的相异性:闵可夫斯基距离48 2.4.5 序数属性的邻近性度量49 2.4.6 混合类型属性的相异性50 2.4.7 余弦相似性51 2.5 小结52 2.6 习题53 2.7 文献注释54 第3章 数据预处理55 3.1 数据预处理:概述55 3.1.1 数据质量:为什么要对数据预处理55 3.1.2 数据预处理的主要任务56 3.2 数据清理58 3.2.1 缺失值58 3.2.2 噪声数据59 3.2.3 数据清理作为一个过程60 3.3 数据集成61 3.3.1 实体识别问题62 3.3.2 冗余和相关分析62 3.3.3 元组重复65 3.3.4 数据值冲突的检测与处理65 3.4 数据归约65 3.4.1 数据归约策略概述66 3.4.2 小波变换66 3.4.3 主成分分析67 3.4.4 属性子集选择68 3.4.5 回归和对数线性模型:参数化数据归约69 3.4.6 直方图70 3.4.7 聚类71 3.4.8 抽样71 3.4.9 数据立方体聚集72 3.5 数据变换与数据离散化73 3.5.1 数据变换策略概述73 3.5.2 通过规范化变换数据74 3.5.3 通过分箱离散化76 3.5.4 通过直方图分析离散化76 3.5.5 通过聚类、决策树和相关分析离散化76 3.5.6 标称数据的概念分层产生77 3.6 小结79 3.7 习题79 3.8 文献注释80 第4章 数据仓库与联机分析处理82 4.1 数据仓库:基本概念82 4.1.1 什么是数据仓库82 4.1.2 操作数据库系统与数据仓库的区别84 4.1.3 为什么需要分离的数据仓库85 4.1.4 数据仓库:一种多层体系结构85 4.1.5 数据仓库模型:企业仓库、数据集市和虚拟仓库87 4.1.6 数据提取、变换和装入88 4.1.7 元数据库88 4.2 数据仓库建模:数据立方体与OLAP89 4.2.1 数据立方体:一种多维数据模型89 4.2.2 星形、雪花形和事实星座:多维数据模型的模式91 4.2.3 维:概念分层的作用94 4.2.4 度量的分类和计算95 4.2.5 典型的OLAP操作96 4.2.6 查询多维数据库的星网查询模型98 4.3 数据仓库的设计与使用99 4.3.1 数据仓库的设计的商务分析框架99 4.3.2 数据仓库的设计过程100 4.3.3 数据仓库用于信息处理101 4.3.4 从联机分析处理到多维数据挖掘102 4.4 数据仓库的实现103 4.4.1 数据立方体的有效计算:概述103 4.4.2 索引OLAP数据:位图索引和连接索引105 4.4.3 OLAP查询的有效处理107 4.4.4 OLAP服务器结构:ROLAP、MOLAP、HOLAP的比较107 4.5 数据泛化:面向属性的归纳109 4.5.1 数据特征的面向属性的归纳109 4.5.2 面向属性归纳的有效实现113 4.5.3 类比较的面向属性归纳114 4.6 小结116 4.7 习题117 4.8 文献注释119 第5章 数据立方体技术121 5.1 数据立方体计算:基本概念121 5.1.1 立方体物化:完全立方体、冰山立方体、闭立方体和立方体外壳122 5.1.2 数据立方体计算的一般策略124 5.2 数据立方体计算方法126 5.2.1 完全立方体计算的多路数组聚集126 5.2.2 BUC:从顶点方体向下计算冰山立方体129 5.2.3 Star-Cubing:使用动态星树结构计算冰山立方体132 5.2.4 为快速高维OLAP预计算壳片段136 5.3 使用探索立方体技术处理高级查询141 5.3.1 抽样立方体:样本数据上基于OLAP的挖掘141 5.3.2 排序立方体:top-k查询的有效计算145 5.4 数据立方体空间的多维数据分析147 5.4.1 预测立方体:立方体空间的预测挖掘147 5.4.2 多特征立方体:多粒度上的复杂聚集149 5.4.3 基于异常的、发现驱动的立方体空间探查149 5.5 小结152 5.6 习题152 5.7 文献注释155 第6章 挖掘频繁模式、关联和相关性:基本概念和方法157 6.1 基本概念157 6.1.1 购物篮分析:一个诱发例子157 6.1.2 频繁项集、闭项集和关联规则158 6.2 频繁项集挖掘方法160 6.2.1 Apriori算法:通过限制候选产生发现频繁项集160 6.2.2 由频繁项集产生关联规则164 6.2.3 提高Apriori算法的效率165 6.2.4 挖掘频繁项集的模式增长方法166 6.2.5 使用垂直数据格式挖掘频繁项集169 6.2.6 挖掘闭模式和极大模式170 6.3 哪些模式是有趣的:模式评估方法171 6.3.1 强规则不一定是有趣的172 6.3.2 从关联分析到相关分析172 6.3.3 模式评估度量比较173 6.4 小结176 6.5 习题177 6.6 文献注释179 第7章 高级模式挖掘180 7.1 模式挖掘:一个路线图180 7.2 多层、多维空间中的模式挖掘182 7.2.1 挖掘多层关联规则182 7.2.2 挖掘多维关联规则185 7.2.3 挖掘量化关联规则186 7.2.4 挖掘稀有模式和负模式188 7.3 基于约束的频繁模式挖掘190 7.3.1 关联规则的元规则制导挖掘190 7.3.2 基于约束的模式产生:模式空间剪枝和数据空间剪枝191 7.4 挖掘高维数据和巨型模式195 7.5 挖掘压缩或近似模式198 7.5.1 通过模式聚类挖掘压缩模式199 7.5.2 提取感知冗余的top-k模式200 7.6 模式探索与应用202 7.6.1 频繁模式的语义注解202 7.6.2 模式挖掘的应用205 7.7 小结206 7.8 习题207 7.9 文献注释208 第8章 分类:基本概念211 8.1 基本概念211 8.1.1 什么是分类211 8.1.2 分类的一般方法211 8.2 决策树归纳213 8.2.1 决策树归纳214 8.2.2 属性选择度量217 8.2.3 树剪枝222 8.2.4 可伸缩性与决策树归纳224 8.2.5 决策树归纳的可视化挖掘225 8.3 贝叶斯分类方法226 8.3.1 贝叶斯定理227 8.3.2 朴素贝叶斯分类227 8.4 基于规则的分类230 8.4.1 使用IF-THEN规则分类230 8.4.2 由决策树提取规则231 8.4.3 使用顺序覆盖算法的规则归纳232 8.5 模型评估与选择236 8.5.1 评估分类器性能的度量236 8.5.2 保持方法和随机二次抽样240 8.5.3 交叉验证240 8.5.4 自助法241 8.5.5 使用统计显著性检验选择模型241 8.5.6 基于成本效益和ROC曲线比较分类器243 8.6 提高分类准确率的技术245 8.6.1 组合分类方法简介245 8.6.2 装袋246 8.6.3 提升和AdaBoost247 8.6.4 随机森林249 8.6.5 提高类不平衡数据的分类准确率250 8.7 小结251 8.8 习题251 8.9 文献注释253 第9章 分类:高级方法255 9.1 贝叶斯信念网络255 9.1.1 概念和机制255 9.1.2 训练贝叶斯信念网络257 9.2 用后向传播分类258 9.2.1 多层前馈神经网络258 9.2.2 定义网络拓扑259 9.2.3 后向传播260 9.2.4 黑盒内部:后向传播和可解释性263 9.3 支持向量机265 9.3.1 数据线性可分的情况265 9.3.2 数据非线性可分的情况268 9.4 使用频繁模式分类270 9.4.1 关联分类270 9.4.2 基于有区别力的频繁模式分类272 9.5 惰性学习法(或从近邻学习)275 9.5.1 k-最近邻分类275 9.5.2 基于案例的推理277 9.6 其他分类方法277 9.6.1 遗传算法277 9.6.2 粗糙集方法278 9.6.3 模糊集方法278 9.7 关于分类的其他问题280 9.7.1 多类分类280 9.7.2 半监督分类281 9.7.3 主动学习282 9.7.4 迁移学习283 9.8 小结284 9.9 习题285 9.10 文献注释286 第10章 聚类分析:基本概念和方法288 10.1 聚类分析288 10.1.1 什么是聚类分析288 10.1.2 对聚类分析的要求289 10.1.3 基本聚类方法概述291 10.2 划分方法293 10.2.1 k-均值:一种基于形心的技术293 10.2.2 k-中心点:一种基于代表对象的技术295 10.3 层次方法297 10.3.1 凝聚的与分裂的层次聚类298 10.3.2 算法方法的距离度量300 10.3.3 BIRCH:使用聚类特征树的多阶段聚类301 10.3.4 Chameleon:使用动态建模的多阶段层次聚类303 10.3.5 概率层次聚类304 10.4 基于密度的方法306 10.4.1 DBSCAN:一种基于高密度连通区域的基于密度的聚类307 10.4.2 OPTICS:通过点排序识别聚类结构309 10.4.3 DENCLUE:基于密度分布函数的聚类311 10.5 基于网格的方法312 10.5.1 STING:统计信息网格312 10.5.2 CLIQUE:一种类似于Apriori的子空间聚类方法314 10.6 聚类评估315 10.6.1 估计聚类趋势316 10.6.2 确定簇数317 10.6.3 测定聚类质量317 10.7 小结319 10.8 习题320 10.9 文献注释321 第11章 高级聚类分析323 11.1 基于概率模型的聚类323 11.1.1 模糊簇324 11.1.2 基于概率模型的聚类326 11.1.3 期望最大化算法328 11.2 聚类高维数据330 11.2.1 聚类高维数据:问题、挑战和主要方法330 11.2.2 子空间聚类方法331 11.2.3 双聚类332 11.2.4 维归约方法和谱聚类337 11.3 聚类图和网络数据339 11.3.1 应用与挑战339 11.3.2 相似性度量340 11.3.3 图聚类方法343 11.4 具有约束的聚类345 11.4.1 约束的分类345 11.4.2 具有约束的聚类方法347 11.5 小结349 11.6 习题349 11.7 文献注释350 第12章 离群点检测351 12.1 离群点和离群点分析351 12.1.1 什么是离群点351 12.1.2 离群点的类型352 12.1.3 离群点检测的挑战354 12.2 离群点检测方法354 12.2.1 监督、半监督和无监督方法355 12.2.2 统计方法、基于邻近性的方法和基于聚类的方法356 12.3 统计学方法357 12.3.1 参数方法357 12.3.2 非参数方法360 12.4 基于邻近性的方法361 12.4.1 基于距离的离群点检测和嵌套循环方法361 12.4.2 基于网格的方法363 12.4.3 基于密度的离群点检测364 12.5 基于聚类的方法366 12.6 基于分类的方法368 12.7 挖掘情境离群点和集体离群点369 12.7.1 把情境离群点检测转换成传统的离群点检测369 12.7.2 关于情境对正常行为建模370 12.7.3 挖掘集体离群点371 12.8 高维数据中的离群点检测371 12.8.1 扩充的传统离群点检测372 12.8.2 发现子空间中的离群点373 12.8.3 高维离群点建模373 12.9 小结374 12.10 习题375 12.11 文献注释375 第13章 数据挖掘的发展趋势和研究前沿377 13.1 挖掘复杂的数据类型377 13.1.1 挖掘序列数据:时间序列、符号序列和生物学序列377 13.1.2 挖掘图和网络381 13.1.3 挖掘其他类型的数据383 13.2 数据挖掘的其他方法385 13.2.1 统计学数据挖掘385 13.2.2 关于数据挖掘基础的观点386 13.2.3 可视和听觉数据挖掘387 13.3 数据挖掘应用391 13.3.1 金融数据分析的数据挖掘391 13.3.2 零售和电信业的数据挖掘392 13.3.3 科学与工程数据挖掘393 13.3.4 入侵检测和预防数据挖掘395 13.3.5 数据挖掘与推荐系统396 13.4 数据挖掘与社会397 13.4.1 普适的和无形的数据挖掘397 13.4.2 数据挖掘的隐私、安全和社会影响399 13.5 数据挖掘的发展趋势400 13.6 小结402 13.7 习题402 13.8 文献注释403 参考文献406 索引435

    0
    0
    33.59MB
    2018-12-12
    4
  • 数据挖掘:实用案例分析

    《数据挖掘:实用案例分析》共12章,分三个部分。第一部分是基础篇(第1~4章),主要对数据挖掘的基本概念、应用分类、建模方法及常用的建模工具进行了介绍,并对本书所用到的数据挖掘建模平台TipDM进行了说明。第二部分是实战篇(第5~10章),以案例的形式对数据挖掘技术在金融、电信、电力、互联网、生产制造以及公共服务等行业的应用场景进行了讨论;首先介绍案例背景,然后阐述分析方法与过程,最后完成模型构建;在介绍建模过程的同时穿插操作训练,把相关的知识点嵌入相应的操作过程中;此外,第10章精心设计了6个实验项目,读者可以通过本章介绍的方法动手实践,以巩固数据挖掘知识,在分析建模过程的同时,进一步增强动手能力。第三部分是高级篇(第11~12章),主要介绍基于第三方接口的数据挖掘二次开发技术,重点对常用的WEKA和MATLAB数据挖掘算法接口进行了探讨;最后对基于Hadoop框架的海量数据挖掘进行了说明,以满足读者更高层次的需求。

    5
    0
    103.9MB
    2018-05-10
    12
  • 机器学习中的矩阵、向量求导

    包括一些基本的矩阵向量求导 本文的目标读者是想快速掌握矩阵、向量求导法则的学习者,主要面向矩阵、向量求导在机器学习中的应用。因此,本教程而非一 份严格的数学教材,而是希望帮助读者尽快熟悉相关的求导方法并在实践中应用。另外,本教程假定读者熟悉一元函数的求导

    0
    515
    741KB
    2018-05-10
    50
  • 《Python3程序开发指南》第二版

    目录 1 过程型程序设计快速入门 2 数据类型 3 组合类型 4 控制结构与函数 5 模块 6 OOP 7 文件处理 8 高级程序设计技术 8.1 FP 9 调试、测试与Profiling 10 进程与线程 11 网络 12 数据库 13 正则表达式 14 分析简介 14.1 PyParsing 14.2 PLY 15 GUI

    0
    149
    28.33MB
    2018-05-08
    11
  • 机器学习实战 Peter

    机器学习是人工智能研究领域中的一个极其重要的方向。在现今大数据时代的背景下捕获数据并从中萃取有价值的信息或模式使得这一过去为分析师与数学家所专属的研究领域越来越为人们瞩目。本书通过精心排的实例切入日常工作任务摒弃学术化语言利用高效可复用的Python 代码阐释如何处理统计数据进行数据分析及可视化。读者可从中学到一些核心的机器学习算法并将其运用于某些策略性任务中如分类、预测及推荐等。本书适合机器学习相关研究人员及互联网从业人员学习参考。

    0
    0
    13.39MB
    2018-05-08
    7
  • 数学之美(吴军著)

    数学之美完整版,目录:第1章 文字和语言 vs 数字和信息 第2章 自然语言处理 — 从规则到统计 第3章 统计语言模型 第4章 谈谈中文分词 第5章 隐含马尔可夫模型 第6章 信息的度量和作用 第7章 贾里尼克和现代语言处理 第8章 简单之美 — 布尔代数和搜索引擎的索引 第9章 图论和网络爬虫 第10章 PageRank — Google的民主表决式网页排名技术 第11章 如何确定网页和查询的相关性 第12章 地图和本地搜索的最基本技术 — 有限状态机和动态规划 第13章 Google AK-47的设计者 — 阿米特 · 辛格博士 第14章 余弦定理和新闻的分类 第15章 矩阵运算和文本处理中的两个分类问题 第16章 信息指纹及其应用 第17章 由电视剧《暗算》所想到的 — 谈谈密码学的数学原理 第18章 闪光的不一定是金子 — 谈谈搜索引擎反作弊问题 第19章 谈谈数学模型的重要性 第20章 不要把鸡蛋放到一个篮子里 — 谈谈最大熵模型 第21章 拼音输入法的数学原理 第22章 自然语言处理的教父马库斯和他的优秀弟子们 第23章 布隆过滤器 第24章 马尔可夫链的扩展 — 贝叶斯网络 第25章 条件随机场和句法分 析 第26章 维特比和他的维特比算法 第27章 再谈文本自动分类问题 — 期望最大化算法 第28章 逻辑回归和搜索广告 第29章 各个击破算法和Google云计算的基础

    0
    0
    49.06MB
    2018-05-08
    0
  • C++ Primer plus 第六版 中文版

    自己学习用的,有书签的中文版C++ Primer plus,本人是新手,如果连接有问题请联系

    3
    0
    64B
    2018-04-26
    50
  • 笔耕不辍

    累计1年每年原创文章数量>=20篇
  • 创作能手

    授予每个自然周发布4篇到6篇原创IT博文的用户
  • 持续创作

    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
关注 私信
上传资源赚积分or赚钱