- Facebook、Twitter和LinkedIn产生了大量宝贵的社交数据,但是怎样才能找出谁通过社交媒介正在进行联系?他们在讨论些什么?或者他们在哪儿?本书简洁而且具有可操作性,它将揭示如何回答这些问题甚至更多的问题。你将学到如何组合社交网络数据、分析技术,如何通过可视化帮助你找到你一直在社交世界中寻找的内容,以及你闻所未闻的有用信息。 本书每章都介绍了在社交网络的不同领域挖掘数据的技术,这些领域包括博客和电子邮件。你所需要具备的就是一定的编程经验和学习基本的Python工具的意愿。 通过本书,你将 . 获得对社交网络世界的直观认识 . 使用GitHub上灵活的脚本来获取从诸如Twitter、Facebook和LinkedIn等社交网络API中的数据 . 学习如何应用便捷的Python工具来交叉分析你所收集的数据 . 通过XFN探讨基于微格式的社交联系 . 应用诸如TF-IDF、余弦相似性、搭配分析、文档摘要、派系检测之类的先进挖掘技术 . 通过基于HTML 5和JavaScript工具包的网络技术建立交互式可视化5 1063浏览会员免费
- 本白皮书由中国计算机学会大数据专家委员会组织撰写,参与白皮书撰写的专家来自大学、科研单位、企业和政府部门,从事的专业涵盖计算机系统、通信、数据库和数据挖掘、大数据应用等多个不同的领域,白皮书的编写集中了各个领域众多专家的知识和智慧,一定程度上反映了我国大数据学术界和产业界的共识。白皮书旨在为业界梳理大数据应用现状及发展趋势,为政府制定推动大数据产业 发展的政策提供建议;同时,探讨大数据研究面临的科学问题和技术挑战,为研究机构和研究人员提供参考指南。 如果提示输入密码,建议使用Adobe Reader阅读器打开。5 583浏览会员免费
- 《时间序列分析及应用:R语言 原书第2版 》以易于理解的方式讲述了时间序列模型及其应用 主要内容包括:趋势 平稳时间序列模型 非平稳时间序列模型 模型识别 参数估计 模型诊断 预测 季节模型 时间序列回归模型 异方差时间序列模型 谱分析入门 谱估计 门限模型 对所有的思想和方法 都用真实数据集和模拟数据集进行了说明 《时间序列分析及应用:R语言 原书第2版 》可作为高等院校统计 经济 商科 工程及定量社会科学等专业学生的教材或教学参考书 同时也可供相关技术人员使用 ">《时间序列分析及应用:R语言 原书第2版 》以易于理解的方式讲述了时间序列模型及其应用 主要内容包括:趋势 平稳时间序列模型 非平稳时间序列模型 模型识别 参数估计 模型诊断 预测 季节模型 时间序列回归模 [更多]5 5315浏览会员免费
- 作为分布式开源数据库Hadoop的创造者,雅虎一直是大数据的重要玩家。在第五届云计算大会上,雅虎北京全球研发中心资深研发总监George Chu介绍了雅虎在数据挖掘方面的最新成果——OnePush。5 241浏览会员免费
- 本书是数据库系统方面的经典教材之一,已被斯坦福大学、德克萨斯大学、耶鲁大学、康奈匀大学、伊利诺伊大学、印度理工学院等众多名校作为数据库系统课程的指定教材或推荐教材,其第3版的中文版也已被国内多所大学采用为本科生和研究生数据库课程的教材或主要教学参考书,收到了良了的效果。 本书主要介绍了数据库系统的基本概念,包括数据库设计、数据库语言和系统实现。第4版中扩展了ER模型、SQL、数据仓库、OLAP、数据挖掘的内容,新增了XML、数据库管理、应用开发等章节,更新并扩展了信息检索部分。本书可作为三、四年级本科生一年级研究生的数据库课程的教材,同时,可供数据库领域的技术人员参考。涵盖了数据模型、基本对象的系统和XML、数据库存储和检索、事务处理、 数据库系统体系结构等多方面的内容,采用直观的方式描述所有概念,并以结构清晰的图示和例子代替形式化的证明,以银行数据库实例生动地解释重要概念,增强了本书的易读性。资料来源:http://www.duruofei.com/index.php/books/download/name/DataBase_System_Concept_Chs.html5 346浏览会员免费
- 本书基于Tabelau最新版本9.1编写,全面介绍了Tableau的核心功能,包括数据连接与编辑、图形展示与编辑功能,如何与R等工具进行集成,如何在服务器上进行发布管理等内容,而且广泛覆盖数据获取与管理、基础与高级图形分析、地图分析、交互分析与数据挖掘、图表集成整合与分享发布等主要内容,方便大家快速掌握敏捷分析方法与技术。4 0浏览会员免费
- 《MapReduce2.0源码分析与编程实战》比较系统地介绍了新一代MapReduce2.0的理论体系、架构和程序设计方法。全书分为10章,系统地介绍了HDFS存储系统,Hadoop的文件I/O系统,MapReduce2.0的框架结构和源码分析,MapReduce2.0的配置与测试,MapReduce2.0运行流程,MapReduce2.0高级程序设计以及相关特性等内容。《MapReduce2.0源码分析与编程实战》最后部分介绍了数据挖掘的初步知识,以及不同应用类型的MapReduce2.0编程实战。《MapReduce2.0源码分析与编程实战》强调理论联系实际,帮助读者在掌握MapReduce2.0基本知识和特性的基础上,培养实际编程和解决大数据处理相关问题的能力。《MapReduce2.0源码分析与编程实战》可作为学习MapReduce2.0的源码、MapReduce2.0程序设计、数据挖掘、机器学习等相关内容的程序设计人员的培训和自学读物,也可以作为高等院校相关专业的教学辅导书。5 278浏览会员免费
- 数据挖掘,推理于预测 中文版 trevor hastie robert tibshirani jerme friedman5 372浏览会员免费
- 0 积分下载;文件大小:64.6 M;清晰完整中文扫描版,529页,无书签。5 585浏览会员免费
- spss数据挖掘流程手册4 170浏览会员免费
- 本书内容分为八个部分。共20章,分上、下两册,每册10章。各章均有大量习题。本书给出了大量的实际例子,这些例子涉及众多的学科和实际领域,但又不过于专门,容易理解。在大部分章节中都使用实例未引入主题,并把统计概念和这些非常实际的问题联系在一起进行讲解,深入浅出,从而可以避免许多人对统计所抱有的粗浅的感性认识,即认为统计仅仅是另一门数学课程。作者把统计数据的收集与分析过程总结成"四步法",并把"四步法"的讲解贯穿始终,利用实例逐步展开并阐明在设计调查研究或试验时所需要的统计技术和思路,然后讲解用直观、有效的"四步法"来收集并分析数据,非常利于初学者和实际工作人员抓住有关统计方法和模型的本质。书中提供了多种多样的图示,如正态概率图、盒形图、散点图、矩阵图和残差图等,通过这些图,读者可以一方面理解数据的特点和概括数据的方法,--方面进一步理解有关统计方法的基本思想和特点。作者很重视统计在解决实际问题中的作用,在全书中用许多篇幅讨论如何解释数据分析的结果,并专门用一章讲述了如何写数据分析报告。 本书适用于作为我国文科各专业的统计学引论教程。以及理工科各专业应用统计学课程的教材或教学参考书;也可作为有关方面实际工作人员的统计入门书。阅读本书不需要其他统计方面的基础,也不需要高等数学知识。 目录: 序言 第一部分引论 第一章什么是统计 1.1引言 1.2为什么学习统计 1.3当前统计的一些应用 1.4统计学家做什么 1.5质量和工序改进 1.6学生注意 1.7小结 补充练习 第二部分收集数据 第二章利用调查和科学研究来收集数据- 2.1引言 2.2调查 2.3科学研究 2.4观察研究 2.5数据整理:为概括和分析准备数据 2.6小结 第三部分概括数据 3.1引言 3.2计算器、计算机及软件系统 3.3单个变量数据的描述:图表法 3.4单个变量数据的描述:中心趋势的度量 3.5单个变虽数据的描述:变异性度量 3.6盒形图 3.7多变量数据的概括 3.8小结 重要公式 补充练习 第四部分工具和概念 第四章概率和概率分布 4.1如何应用概率进行推断 4.2确定一个事件的概率 4.3基本的事件关系和概率法则 4.4条件概率和独立性 4.5Bayes公式 4.6离散变最和连续变量 4.7离散随机变量的概率分布 4.8一个常用的离散随机变量:二项分布 4.9连续随机变量的概率分布 4.10一个常用的连续随机变量:正态分布 4.11随机抽样 4.12抽样分布 4.13二项分布的正态逼近 4.14Minitab指令 4.15小结 重要公式 补充练习 第五部分数据分析:中心值方差和比例 第五章关于总体中心值的推断 5.1引言和案例 5.2μ的估计 5.3估计μ时样本容量的选取 5.4关于μ的统计检验 5.5对于进行检验时样本容量的选取 5.6统计检验的显著性水十 5.7正态总体均值p的统计推断。未知 5.8关于中位数的推断 5.9小结 重要公式 补充练习 第六章两总体中心值的比较 6.1引言和案例 6.2关于μ1-μ2的推断:独立样本 6.3非参数推断方法:Wilcoxon秩和检验 6.4关于μ1-μ2的推断:成对数据 6.5非参数推断方法:Wilcoxon符号秩检验 6.6惟断μ1-μ2时样本容量的选取 6.7小结 重要公式 补充练习 第七章关于总体方差的推断 7.1引言和案例 7.2单个总体方差的估计和检验 7.3比较两个总体方差时的估计和检验 7.4比较多个总体方差时的检验 7.5小结 重要公式 补充练习 第八章两个以上总体的中心值的推断 8.1引言和案例 8.2两个以上总体均值的统计检验:方差分析 8.3完全随机化设计中观测值的模型 8.4方差分析条件的检查 8.5其他的分析方法:数据变换 8.6另一种非参数方法:Kruskal-Wallis检验 8.7小结 重要公式 补充练习 第九章多重比较 9.1引言和案例 9.2线性对照 9.3控制哪个错误率 9.4Fisher(费舍尔)最小显著差异法 9.5Tukey的W方法 9.6Student-Newman-Keuls方法 9.7Dunnett方法:处理组与对照组的比较 9.8Scheffe的S方法 9.9小结 重要公式 补充练习 第十章类型数据 10.1引言和案例 10.2总体比例π的推断 10.3两总体比例之差π1-π2的推断 10.4多比例的推断:卡方拟合优度检验 10.5Pokmn(泊松)分布- 10.6列联表:独立性检验和齐性检验 10.7柏关程度的度量 10.8几率和优比 10.9小结 重要公式 补充练习 第六部分数据分析:回归方法和模型的建立 第十一章线性回归和相关 11.1引言和案例 11.2估计模型中的参数 11.3回归参数的推断 11.4利用同归预测新的y值 11.5线性回归中拟合不足的考察 11.6逆回归问题(校准) 11.7相关 11.8小结 重要公式 补充练习 第十二章多元回归与一般线性模型 12.1引言和案例 12.2一般线性模型 12.3估计多元回归系数 12.4多元回归中的推断 12.5回归系数子集的检验 12.6用多元回归进行的预测 12.7比较几条回归线的斜率 12.8Logistic回归 12.9多元回归的一些理论结果(任选) 12.10小结 重要公式 补充练习 第十三章多元回归续论 13.1引言和案例 13.2变量的挑选(第一步) I3.3模型形式的确定(第二步) 13.4模型假设的检查(第三步) 13.5小结 重要公式 补充练习 第七部分试验设计与方差分析 第十四章试验和研究的设计概念 14.1引言 14.2研究的类型 14.3设计的试验:术语 14.4控制试验误差 14.5试验单元对处理的随机化 14.6确定重复试验的次数 14.7小结 第十五章标准设计的方差分析 15.1引言和案例 15.2单因子的完全随机化设计 15.3随机化完全区组设计 15.4拉丁方设计 15.5完全随机化设计中的因子处理结构 15.6随机化完全区组设计中的因子处理结构 15.7处理差异的估计和处理均值的比较 15.8小结 重要公式 补充练习 第十六章协方差分析 16.1引言和案例 16.2具有一个协变量的完全随机化设计 16.3外推问题 16.4多维协变量和更复杂的设计 16.5小结 补充练习 第十七章一些固定效应、随机效应和混合效应模型的方差分析 17.1引言和案例 17.2具有随机处理效应的单因子试验:随机效应模型 17.3随机效应模型的扩充 17.4混合效应模型 17.5计算期望均方的规则 17.6套抽样和裂区设计 17.7小结 补充练习 第十八章重复测量与交叉设计 18.1引言和案例 18.2有重复观测的单因子试验 18.3一个因子有重复观测的两因子试验 18.4交叉设计 18.5小结 补充练习 第十九章一些非平衡设计的方差分析 19.1引言和案例 19.2有一个或多个缺失观察值的随机化区组设计 19.3有缺失数据的拉丁方设计 19.4平衡不完全区组(BIB)设计 19.5小结 重要公式 补充练习 第二十章分析结果的传达和备案 20.1引言 20.2做好传达沟通工作所面临的困难 20.3传达的障碍:图形的歪曲 20.4传达的障碍:有偏抽样 20.5传达的障碍:样本容量 20.6为统计分析准备数据 20.7统计分析的指导原则和报告 20.8文档和结果的保存 20.9小结 补充练习 附录统计表 参考文献 索引 译后记4 2593浏览会员免费
- 这是一本跟机器学习和数据挖掘相关的基础书,上面讲述了很多基础概念,已经应用。5 173浏览会员免费
- 之前应老师要求,跟学弟学妹们吹了下牛。只准备了一天,水平有限,看看就好5 500浏览会员免费
- 基于用户画像的大数据挖掘实践-.pdf 个人收集电子书,仅用学习使用,不可用于商业用途,如有版权问题,请联系删除!3 481浏览会员免费
- SPSS Statistics 软件原名SPSS,是英文名称社会科学统计软件包(Statistical Package forthe Social Sciences)首字母的缩写。随着SPSS 公司产品服务领域的扩大和服务深度的增加,SPSS 公司整个产品线的名称都进行了调整,现在SPSS 软件的名称全称为“Statistical Product and Service Solutions”,即“统计产品与服务解决方案”,虽然缩写仍为SPSS,但这却标志着SPSS 的战略方向做出了重大调整。SPSS 社会科学统计软件包(Statistical Package for the Social Sciences)SPSS 统计产品与服务解决方案(Statistical Product and Service Solutions) 随着SPSS 产品家族的丰富,原为大家熟知的统计分析软件SPSS,现在全名为SPSS Statistics,以区别于SPSS 公司的其它产品如SPSS Data Collection 数据收集产品、SPSS Modeler 数据挖掘产品等。同时,由于适应商业分析应用的要求,SPSS Statistics 产品已经发展为包括Server 端和Client 端等在内的整体CS 架构的软件系统。我们通常熟悉的SPSS 软件,应该说现在准确的全称为SPSS Statistics4 4336浏览会员免费
- 数据挖掘用到的基础数学知识,主要是向量和线性代数5 306浏览会员免费
- 董大钧sas统计分析应用教程,帮助sas初学者快速掌握sas基本5 1522浏览会员免费
- 2014中华架构师大会材料 大数据,用户画像,机器学习,数据挖掘5 678浏览会员免费
- 《程序员》封面报道:智能算法 智能应用每时每刻都在影响着我们的工作和生活,然而对于许多软件开发人员来说,构建智能应用的技术—智能算法依然披着神秘的面纱。一方面,这些技术的潜在价值可以带来巨大的经济回报,商业公司往往不会轻易示人;另一方面,几乎所有的相关技术都源自学术研究,倘若缺乏引领,则难以深入其中。本期封面报道,我们将从搜索技术、社交网络数据挖掘、机器翻译、推荐引擎等角度,结合具体应用,为你揭开智能算法的面纱。 (1)地图和本地搜索的最基本技术 (2)搜索引擎的查询意图识别 (3)社交网络:数据科学家眼中的金矿 (4)标签传播算法在微博用户兴趣图谱的应用 (5)基于大规模语料的新词发现算法 (6)内容推荐和优化的在线模型 (7)“人工+智能”:机器翻译应用的未来 (8) 基于HMM的中文整句输入法实现 资讯 (1)外刊速递 (2)新闻 (3)外刊速递 (4)新产品新工具 (5)程序天下事 报道 (1)创新与实践——第四届中国云计算大会观察 (2)灵活、开放、自由的统计语言——第五届中国R语言会议剪影 (3)开发者为王——苹果WWDC 2012见闻 (4)异构系统架构编程的现状和展望——AMD副总裁Leendert van Doorn专访 管理 (1)轻敏捷——开放平台的制胜之道 本文结合轻敏捷方法的三条原则,讲述敏捷团队所需要完成的工作、核心实践及所依赖的工具。 (2)如何设计高转化率的网站 本文分析了在流量既定的情况下,影响网站转化率的因素,同时指出了设计高转化率网站的要点。 (3)敏捷中的控制,控制中的敏捷 (4)听市场需求,而非个人需求 (5)如何辅导新人 移动 (1)做正确的加法 (2) Windows 8能否推动移动互联网新变革? 本文从移动设备、Metro UI、编程的变化、Windows Store四个方面分析了Windows 8在移动互联网时代带来的影响与面对的挑战。 (3)游戏画面的印象价值和审美属性分析 (4)Cocos2D-X for XNA游戏开发指南(下)—《TweeJump》项目实战 (5)iOS即时语音聊天技术实践 本文讲解了如何在iOS设备上实现语音聊天应用开发,主要介绍了语音应用开发中的语音录制、播放、编解码等技术。 云计算 (1)公共IaaS服务的实测与选择 本文基于多个公共IaaS服务的实际测试数据,从架构、存储等多个方面,阐释了影响IaaS服务性价比的因素,同时给出了中肯的建议。 (2)腾讯分布式数据仓库解析 (3)高可用的HDFS架构剖析 本文将对HDFS的NameNode内核的原理、数据结构及社区中最新的HA解决方案进行剖析,同时给出了社区的架构走向。 (4)Swift:OpenStack对象存储 OpenStack Object Storage(Swift)是OpenStack开源云计算项目的子项目之一,被称为对象存储,提供了强大的扩展性、冗余和持久性。本文将从架构、原理和实践等几方面讲述Swift。 技术 (1)Facebook Folly代码分析 Folly是Facebook的一个开源C++11组件库,它提供了类似Boost库和STL的功能,用于满足大规模高性能的需求。 (2)用C++进行函数式编程 《Quake》作者Carmack认为追求函数式编程有着实在的价值,但劝说所有程序员抛弃C++,转而启用边缘语言,是不负责任的。 百味 (1)新书上架 (2)Mac OS X文件系统的来龙去脉(上) (3)“新”科学家:Stephen Wolfram 企业专栏 (1)风起亚洲公有云——Joyent技术在中国的崛起 (2) UC梁捷专栏:Web App的未来 (3)中国首台云电脑全面解析——天霆云计算董事长谈天霆专访 (4)十年磨一剑,开源促创新——英特尔开源技术总监Dirk Hohndel专访 (5)MSUP三步曲:MPD之因团队施教——聚焦软件研发中心的快速成长 云计算基础架构特别专题 (1)云计算基础架构:没有最好,只有最合适——IBM韩忠恒带你解读IDC《中国云计算基础架构建设指南》 (2)云计算基础架构建设一席谈5 128浏览会员免费
- 数据挖掘论文,可参考......................4 150浏览会员免费
- <br>【原 书 名】 Clickstream Data Warehousing <br>【原出版社】 John Weley <br>【作 者】(美)Mark Seiger,Mark R.Madsen,Jimmy Langston,Howard Lombard <br>【译 者】 陆昌辉 张光剑 陈佐 张丽 <br>【丛 书 名】 数据仓库与数据挖掘技术应用丛书 <br><br>http://images.china-pub.com/ebook15001-20000/16342/shupi.jpg<br><br><br>本书解释了构建点击流数据仓库所需要的Web技术和IT基础设施,并对设计、实现点击流数据仓库的整个过程提供全面的指导,包括:计划、人员分工以及管理整个工程;使用创新的元模式设计模板设计点击流数据仓库;挑选合适的数据仓库软件和存储子系统以支撑点击流数据仓库;建立抽取、变形和装载(即ETL)机制,以及将数据传送给分析这些数据的终端用户。 本书主要面向学习或在工作中运用点击流数据仓库技术的教师、学生或工程技术人员,特别适合对数据仓库技术有所了解,但希望进一步提高构建点击流数据仓库能力的应用开发人员。 <br><br><br>第一篇 点击流数据仓库的构建基础<br>第1章 典型电子商务体系结构<br>◣ 1.1 电子商务体系结构简述<br>◣ 1.2 INTERNET服务提供商——ISP<br>◣ 1.3 多种INTERNET连接服务<br>◣ 1.4 多种物理WEB服务器<br>◣ 1.5 不同类型的备份WEB服务器<br>◣ 1.6 集群商业交易系统<br>◣ 1.7 点击流数据仓库<br>◣ 1.8 规范的电子商务体系结构<br>◣ 1.9 小结<br>第2章 Web应用环境<br>◣ 2.1 状态无关的HTTP事务模型<br>◣ 2.2 HTTP事务间的信息交互<br>◣ 2.3 查询字符串<br>◣ 2.4 COOKIES, 用户标识以及WEB服务器日志记录<br>◣ 2.5 站点点击、页面访问和用户会话<br>◣ 2.6 使用CGI调用其他可执行程序<br>◣ 2.7 使用脚本语言记录用户行为<br>◣ 2.8 网页服务器、应用服务器及动态生成WEB页<br>◣ 2.9 动态生成WEB页和搜索引擎<br>◣ 2.10 小结<br>第3章 点击流数据源和Web服务器日志文件<br>◣ 3.1 WEB服务器日志<br>3.1.1 标准日志文件格式<br>3.1.2 扩展Web服务器的日志<br>3.1.3 Cookies<br>◣ 3.2 内部数据源<br>3.2.1 Web站点和日志文件分析工具<br>3.2.2 其他的Web服务器相关系统<br>3.2.3 商务应用<br>3.2.4 客户联系系统<br>◣ 3.3 外部数据源<br>3.3.1 内容缓存服务<br>3.3.2 合作伙伴<br>3.3.3 在线广告数据<br>3.3.4 代理商的关于用户或商业的数据<br>◣ 3.4 小结<br>第4章 用Cookies和其他机制跟踪用户身份<br>◣ 4.1 维持应用状态的WEB编程技术<br>4.1.1 Cookies<br>4.1.2 查询字符串和URL重写<br>4.1.3 隐藏表单域<br>◣ 4.2 管理会话并跟踪用户<br>4.2.1 用Cookies跟踪会话<br>4.2.2 用URL重写来跟踪会话<br>4.2.3 用隐藏域来跟踪会话<br>4.2.4 会话管理的设计技术<br>4.2.5 跟踪用户<br>◣ 4.3 用户的身份验证和用户概要信息<br>4.3.1 在线用户分类<br>4.3.2 用户身份验证<br>4.3.3 处理用户身份的数据<br>4.3.4 建立用户概要信息<br>◣ 4.4 网站的个性化和用户概要信息<br>4.4.1 基本的个性化方法<br>4.4.2 个性化的类型<br>4.4.3 数据仓库和Web站点概要信息之间的链接<br>◣ 4.5 隐私权政策对点击流数据仓库的影响<br>◣ 4.6 小结<br>第二篇 逐步建立点击流数据仓库<br>第5章 点击流数据仓库的计划、管理及其人员配置<br>◣ 5.1 点击流数据仓库项目流程简介<br>◣ 5.2 项目管理<br>5.2.1 第1阶段:项目定义和计划<br>5.2.2 第2阶段:商业需求分析<br>5.2.3 第3阶段:数据仓库设计<br>5.2.4 第4阶段:数据仓库的实现<br>5.2.5 第5阶段:部署阶段<br>◣ 5.3 项目人员配置和组织<br>5.3.1 项目角色<br>5.3.2 项目组织<br>5.3.3 项目人员<br>◣ 5.4 小结<br>第6章 点击流数据仓库的元模式<br>◣ 6.1 由销售分析基准发展到元模型<br>6.1.1 CRM客户维<br>6.1.2 用户行为/站点点击事实表<br>6.1.3 用户维<br>6.1.4 财政时间维和用户时间维<br>6.1.5 物理、Web和站点地理维<br>6.1.6 内容和活动维<br>6.1.7 内部促销维和外部促销维<br>6.1.8 用户活动/站点点击元模式<br>◣ 6.2 元模式属性<br>6.2.1 财政时间维属性<br>6.2.2 用户时间维属性<br>6.2.3 物理地理维属性<br>6.2.4 Web地理维属性<br>6.2.5 站点地理维属性<br>6.2.6 用户维属性<br>6.2.7 内容维属性<br>6.2.8 活动维属性<br>6.2.9 内部促销维属性<br>6.2.10 外部促销维属性<br>6.2.11 用户活动/站点事实表属性<br>◣ 6.3 页面活动和会话活动聚合<br>6.3.1 页面维<br>6.3.2 会话维<br>6.3.3 会话聚合<br>◣ 6.4 元模式的B2B应用<br>◣ 6.5 对现有面向商务模式加入点击流特征<br>◣ 6.6 用多个冗余WEB服务器来支持大型的站点<br>◣ 6.7 小结<br>第7章 实现合适的点击流数据仓库的技术基础<br>◣ 7.1 点击流数据仓库的数据库支持<br>7.1.1 RDBMS的批装载器<br>7.1.2 分区<br>7.1.3 索引<br>7.1.4 特殊的联接(joins)<br>7.1.5 聚合的创建、认识和管理<br>7.1.6 并行性<br>7.1.7 对SQL的有用分析扩展<br>◣ 7.2 磁盘驱动和卷管理<br>7.2.1 逻辑卷管理<br>7.2.2 数据库对象<br>7.2.3 对数据库对象磁盘布局的建议<br>◣ 7.3 选择合适的基础结构供应商<br>7.3.1 数据库软件<br>7.3.2 逻辑卷管理软件(LVM)和磁盘子系统<br>◣ 7.4 小结<br>第8章 建立点击流的抽取、转换和装载机制<br>◣ 8.1 抽取、转换和装载的体系结构<br>◣ 8.2 点击流ETL体系结构<br>8.2.1 更加复杂的点击流环境<br>8.2.2 点击流ETL体系结构<br>◣ 8.3 建立ETL子系统<br>8.3.1 第1步:数据分析<br>8.3.2 第2步:使Web站点适合点击流<br>8.3.3 第3步:创建高层ETL设计和体系结构<br>8.3.4 第4步:设计特定点击流的组件<br>8.3.5 第5步:设计和建立ETL组件维表<br>8.3.6 第6步:设计和建立事实表ETL组件<br>8.3.7 第7步:建立数据装载机制和整合ETL程序<br>8.3.8 第8步:为数据管理建立支持<br>◣ 8.4 小结<br>第9章 点击流数据仓库中的数据分析<br>◣ 9.1 OLAP 工具<br>9.1.1 MOLAP概述<br>9.1.2 ROLAP 概述<br>9.1.3 HOLAP 概述<br>9.1.4 今天的OLAP<br>◣ 9.2 分析特点和技术<br>9.2.1 查询工具相关特点和技术<br>9.2.2 数据模型相关的特点和技术<br>9.2.3 数据库引擎相关特性和技术<br>◣ 9.3 小结 <br><br><br>http://www.china-pub.com/16342<br><br>5 288浏览会员免费
- 详细介绍了统计决策,和贝叶斯分析方法。主要用于数据分析,数据挖掘,机器学习等领域5 0浏览会员免费
- 大数据,数据挖掘 Data Science for Business What you need to know about data mining and data analytic thinking 20134 48浏览会员免费
- Book Reviews The Text Mining Handbook: Advanced Approaches to Analyzing Unstructured Data Ronen Feldman and James Sanger (Bar-Ilan University and ABS Ventures) ...5 161浏览会员免费
- 使用python scikit-learn进行数据挖掘。 本书内容简介 第1章 机器学习基础 第2章 线性回归 第3章 特征提取与处理 第4章 从线性回归到逻辑回归 第5章 决策树——非线性回归与分类 第6章 K-Means聚类 第7章 用PCA降维 第8章 感知器 第9章 从感知器到支持向量机 第10章 从感知器到人工神经网络5 1浏览会员免费
- 数据挖掘方面的硕士论文4 124浏览会员免费
- 本书在总结多年来MapReduce并行处理技术课程教学经验和成果的基础上,与业界著名企业Intel公司的大数据技术和产品开发团队和资深工程师联合,以学术界的教学成果与业界高水平系统研发经验完美结合,在理论联系实际的基础上,在基础理论原理、实际算法设计方法以及业界深度技术三个层面上,精心组织材料编写而成。 全书的主要内容包括: ■ 大数据处理技术与Hadoop MapReduce简介 ■ Hadoop系统的安装和操作管理 ■ 大数据分布式文件系统HDFS ■ Hadoop MapReduce并行编程模型、框架与编程接口 ■ 分布式数据库HBase ■ 分布式数据仓库Hive ■ Intel Hadoop系统优化与功能增强 ■ MapReduce基础算法程序设计 ■ MapReduce高级程序设计技术 ■ MapReduce机器学习与数据挖掘基础算法 ■ 大数据处理算法与应用编程案例 本书中算法设计章节的程序源码可在南京大学PASA大数据实验室(PASA:Parallel Algorithms,Systems,and Applications)网站上下载: http://pasa-bigdata.nju.edu.cn/links.html Intel Hadoop系统免费试用版下载地址: http://www.intel.cn/idh 本书反馈意见发送邮箱: feedback_bigdata@163.com。 【编辑推荐】 学术界与业界完美结合的结晶,从原理剖析到系统化算法设计与编程实践 多年来系统性教学实践和成果总结,一系列业界产品增强功能深度技术剖析 一系列大赛获奖算法、优秀课程设计以及来自科研课题及业界应用的实战案例 【媒体推荐】 从计算技术的角度看,大数据处理是一种涉及到几乎所有计算机技术层面的综合性计算技术,涉及到计算机软硬件技术的方方面面。大数据研究和应用已成为产业升级与新产业崛起的重要推动力量。 作为国内第一本经过多年课堂教学实践总结而成的大数据并行处理和编程技术书籍,本书全面地介绍了大数据处理相关的基本概念和原理,着重讲述了Hadoop MapReduce大数据处理系统的组成结构、工作原理和编程模型,分析了基于MapReduce的各种大数据并行处理算法和程序设计的思想方法。适合高等院校作为MapReduce大数据并行处理技术课程的教材,同时也很适合作为大数据处理应用开发和编程专业技术人员的参考手册。 我很高兴地看到,该书已纳入了教育部计算机类专业教学指导委员会制定的计算机类专业系统能力培养计划。大数据处理是一门综合性、最能体现计算机系统能力培养的课程。把大数据处理纳入计算机类专业系统能力培养课程体系中第三层次的核心课程,作为一门起到一定“收官”作用的综合性课程,这是在计算机系统能力培养方面的一个很好的尝试。 —— 中国工程院院士、中国计算机学会大数据专家委员会主任 李国杰 作为国内最早从事大数据技术研究和教学的团队之一,南京大学黄宜华教授和他的大数据实验室同仁们在大数据技术领域已经进行了多年系统深入的研究工作,取得了卓有成效的研究成果。英特尔作为一家全球领先的计算技术公司,长期以来始终以计算技术的创新为己任。在大数据处理技术方面,我们也竭尽全力发挥出我们在软硬件平台的组合优势引领大数据技术的全面发展和推广。 这本《深入理解大数据》的力作正是我们双方在大数据领域共同努力的结晶,是以学术界和业界完美结合的方式,在融合了学术界系统化的研究教学工作和业界深度的系统和应用研发工作基础上,成功打造出的一本大数据技术佳作。相信这是一本适合软件技术人员和 IT 行业管理人员理解和掌握大数据技术的不可多得的技术书籍,也是一本适合于在校大学生和研究生学习和掌握大数据处理和编程技术的好教材。 —— 英特尔亚太研发有限公司总经理 何京翔5 0浏览会员免费
- 本文档为技术公开课《以性别预测为例,谈谈数据挖掘中常见的分类算法》的讲演PPT。以实例的形式,用尽量通俗的方式,针对性别预测这个分类问题,来谈一下数据挖掘基本的处理流程,常见的算法和算法的选择等5 394浏览会员免费
- 论文,电子商务中的WEB数据挖掘与XML0 53浏览会员免费
- 云存储与虚拟化分论坛-基于云计算的海量数据挖掘 何清7.pdf云存储与虚拟化分论坛-基于云计算的海量数据挖掘 何清7.pdf4 81浏览会员免费
- The increasing volume of data in modern business and science calls for more complex and sophisticated tools. Although advances in data mining technology have made extensive data collection much easier, it's still always evolving and there is a constant need for new techniques and tools that can help us transform this data into useful information and knowledge. Since the previous edition's publication, great advances have been made in the field of data mining. Not only does the third of edition of Data Mining: Concepts and Techniques continue the tradition of equipping you with an understanding and application of the theory and practice of discovering patterns hidden in large data sets, it also focuses on new, important topics in the field: data warehouses and data cube technology, mining stream, mining social networks, and mining spatial, multimedia and other complex data. Each chapter is a stand-alone guide to a critical topic, presenting proven algorithms and sound implementations ready to be used directly or with strategic modification against live data. This is the resource you need if you want to apply today's most powerful data mining techniques to meet real business challenges. * Presents dozens of algorithms and implementation examples, all in pseudo-code and suitable for use in real-world, large-scale data mining projects. * Addresses advanced topics such as mining object-relational databases, spatial databases, multimedia databases, time-series databases, text databases, the World Wide Web, and applications in several fields. *Provides a comprehensive, practical look at the concepts and techniques you need to get the most out of your data5 330浏览会员免费
- 数据分析基础5 123浏览会员免费
- Mining Heterogeneous Information Networks: Principles and Methodologies. Synthesis Lectures on Data Mining and Knowledge Discovery5 103浏览会员免费
- Data Mining with R Learning with Case Studies是将R与数据挖掘相结合的一些实例化的书籍,其实R中应用数据挖掘方法在R中的包有很多了,大家可以在R的官网上看帮助文档也可以。如有哪位没有积分可留下邮箱,我会及时给大家发过去。5 103浏览会员免费
- csdn在weka发面的内容多为入门资料。 这篇是网上收集到的一篇较为深入的报告,希望对大家有帮助。 更希望csdn上能有些更为深入的资料,大家共同学习共同进步。 基于 JAVA 的 WEKA 数据挖掘平台分析及二次开发 共60页 摘 要 数据挖掘是在“信息爆炸,知识缺乏”的背景下提出的新技术。所谓数据挖掘就是从大量的、不完整的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。该技术在银行业、市场业、零售业、保险业及电信业等诸多领域的数据分析中有着广阔的应用前景。 本文首先针对数据挖掘技术作了比较全面的综述,并深入分析聚类方法。其次,针对学术界典型的开放数据挖掘工具 WEKA,进行数据挖掘测试,主要包括预处理、分类、聚类、属性选择、关联规则及可视化等,并对挖掘结果进行统计分析,指出 WEKA 系统存在的缺陷及发展前景。为了弥补 WEKA 系统存在的一些缺陷,本文还在 WEKA 平台下进行二次开发,根据描述的 k-中心点轮换法的算法流程,利用 eclipse 在 WEKA 平台下嵌入该算法,并对其进行优化以提高其聚类效果。 虽然本文研究的 WEKA 数据挖掘工具目前还处于研究阶段,但它却汇集了多样化的机器学习算法,是数据挖掘研究的理想选择。同时,本文所研究的 k-中心点轮换算法改进了传统的 k-中心点算法,避免陷入局部最优,并进行了属性正常化、处理残缺值等优化,聚类效果明显提高了。 关键词:数据挖掘 WEKA 聚类分析 k-中心点轮换算法 目 录 1 前言 7 1.1 课题背景• 7 1.2 本文所做的主要工作• 7 1.3 本文结构 8 2 数据挖掘技术综述 9 2.1 数据挖掘的定义 9 2.2 数据挖掘的基本功能• 9 2.3 数据挖掘的流程 10 2.4 数据挖掘的常用方法和技术• 11 2.5 数据挖掘的应用领域• 12 2.6 国内外数据挖掘工具现状 13 2.7 聚类分析概述 14 2.7.1 聚类概念• 14 2.7.2 主要聚类方法的分类• 14 3 基于 WEKA 平台的数据挖掘测试 16 3.1 WEKA 系统简介 16 3.2 WEKA 系统的特点• 16 3.2.1 WEKA 系统的文件格式• 16 3.2.2 WEKA 系统的界面• 17 3.2.3 WEKA 实现的功能及算法• 19 3.2.4 WEKA 系统的包结构• 22 3.3 WEKA 系统的挖掘测试及结果分析• 24 3.3.1 WEKA 系统的数据挖掘过程 24 3.3.2 WEKA 系统的挖掘实验• 25 3.3.3 WEKA 系统中存在的问题• 34 3.4 WEKA 系统的发展前景 34 4 WEKA 平台下的二次开发 35 4.1 二次开发背景及一般过程 35 4.1.1 二次开发背景 35 4.1.2 二次开发一般过程• 35 4.1.3 系统的开发与运行环境• 35 4.2 K-中心点轮换算法 35 4.3 K-中心点轮换算法的实现 37 4.3.1 K-中心点轮换算法的类模块关系• 37 4.3.2 K-中心点轮换算法的流程图 • 38 4.3.3 K-中心点轮换算法的类说明 39 4.4 K-中心点轮换算法的测试 45 5 总结 49 致谢 50 参考文献 50 附录 515 0浏览会员免费
- 统计学经典书籍,讲解统计学的历史,机器学习、数据挖掘基础4 1211浏览会员免费
- 数据挖掘在Web中的研究与应用.pdf3 102浏览会员免费
- 在大数据和业务智能领域,Splunk是功能强大、简单易学并且能够快速获取直接动力的一个分析工具。你可以利用Splunk实时地监控数据,或者在海量事实中进行数据挖掘。Splunk提供的强有力的可视化工具可以帮助你从海量的数据中发现商业价值。Splunk的地理位置功能支持在地图上显示数据,你可以根据自己的兴趣下钻到某个地理区域。4 129浏览会员免费
- 进行数据挖掘前,数据的预处理是非常重要的阶段,该资源介绍了数据补全的方法。5 5470浏览会员免费
- 0 积分下载;文件大小:49.6 M;清晰完整中文扫描版,454页,无书签。0 1652浏览会员免费
- 数据挖掘十大算法的思维导图,树形结构,帮助记忆3 576浏览会员免费
- 聚类分析是数据挖掘研究领域中一个非常活跃的研究课题)本文重点分析了高维度数据的自动子空间聚类算法及其各类改进算法,并对其未来发展方向进行了简要展望4 1753浏览会员免费
- 数据挖掘(SSAS)介绍 微软MVP5 186浏览会员免费
- RapidMiner-v6-user-manual.pdf RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。 功能和特点 免费提供数据挖掘技术和库 100%用Java代码(可运行在大部分操作系统上) 数据挖掘过程简单,强大和直观 内部XML保证了标准化的格式来表示交换数据挖掘过程 可以用简单脚本语言自动进行大规模进程 多层次的数据视图,确保有效和透明的数据 图形用户界面的互动原型 命令行(批处理模式)自动大规模应用 Java API(应用编程接口) 简单的插件和推广机制 强大的可视化引擎,许多尖端的高维数据的可视化建模 400多个数据挖掘运营商支持 耶鲁大学已成功地应用在许多不同的应用领域,包括文本挖掘,多媒体挖掘,功能设计,数据流挖掘,集成开发的方法和分布式数据挖掘4 334浏览会员免费
- 该文档详细介绍了数据挖掘软件RapidMiner的背景,安装以及详细的应用方法和使用手则。5 362浏览会员免费
- 本资源为中国科学院大学2017年数据挖掘期末考试试题,题目仅供交流,请各位下载的同学花更多精力去研读课本和实际操作。2 2158浏览会员免费
- 数据挖掘原理与实践 课后参考答案 蒋盛益 电子工业出版.由于是新书,大家可能找不到资源,所以共享一下5 555浏览会员免费
- R语言数据挖掘,里面含有完整的数据挖掘项目介绍,项目实例5 85浏览会员免费
- DPS 第二版数据整理软件丛书主要讲述怎么进行数据的统计分析实验的设计以及数据挖掘 此PDF 为该软件自带的丛书的电子版 清晰5 255浏览会员免费
- 全书内容分为三篇。第一篇(基础篇)主要介绍数据挖掘与量化投资的关系,以及数据挖掘的概念、实现过程、主要内容、主要工具等内容。第二篇(技术篇)系统介绍了数据挖掘的相关技术及这些技术在量化投资中的应用,主要包括数据的准备、数据的探索、关联规则方法、数据回规方法、分类方法、聚类方法、预测方法、诊断方法、时间序列方法、智能优化方法等内容。第三篇(实践篇)主要介绍数据挖掘技术在量化投资中的综合应用实例,包括统计套利策略的挖掘与优化、配对交易策略的挖掘与实现、数据挖掘在股票程序化交易中的综合应用,以及基于数据挖掘技术的量化交易系统的构建。0 506浏览会员免费
- Clementine完整教程,目前最好的学习Clementine数据挖掘的教程,缺点事例缺乏。5 171浏览会员免费
- This series aims to capture new developments and applications in data mining and knowledge discovery, while summarizing the computational tools and techniques useful in data analysis. This series encourages the integration of mathematical, statistical, and computational methods and techniques through the publication of a broad range of textbooks, reference works, and hand- books. The inclusion of concrete examples and applications is highly encouraged. The scope of the series includes, but is not limited to, titles in the areas of data mining and knowledge discovery methods and applications, modeling, algorithms, theory and foundations, data and knowledge visualization, data mining systems and tools, and privacy and security issues.5 155浏览会员免费
- 市场营销、销售与客户关系管理的学问如何破解? 数据挖掘技术5 151浏览会员免费
- 数据的商业化——应该且必具体到行业运用,并支持决策。方法可以是简单数理统计,也可以是复杂的数据挖掘!5 109浏览会员免费
- 数据挖掘领域,IBM SPSS MODELER软件介绍3 236浏览会员免费
- 全面的SAS em,很全面,可以提高英语水平又能学习很牛的数据挖掘技术!5 456浏览会员免费
- 【全美经典】统计学原理(上)<br>统计学经典,对数据挖掘很有启发4 65浏览会员免费
- 很专业的资源哦,是学习数据挖掘很好的很详细的一本书,第三版是最新版本,比较容易理解。5 164浏览会员免费
- 0 45浏览会员免费
- 论文《基于xml的web挖掘研究》0 103浏览会员免费