一般我们拿到的数据都是压缩格式的文本文件,需要解压缩,都在 G 字节以上存储
单位,一般最好在外置电源移动硬盘存储;如果客户不告知,你大概是不知道有多
少记录和字段的;
Modeler 挖掘软件默认安装一般都需要与 C 盘进行数据交换,至少需要 100G 空间
预留,否则读取数据过程中将造成空间不足
海量数据处理要有耐心, 等待 30 分钟以上运行出结果是常有的现象, 特别是在进行
抽样、合并数据、数据重构、神经网络建模过程中,要有韧性,否则差一分钟中断
就悲剧了,呵呵;
数据挖掘的准备阶段和数据预处理时间占整个项目的 70% ,我这里说如果是超大数
据集可能时间要占到 90% 以上。一方面是处理费时,一方面可能就只能这台电脑处
理,不能几台电脑同时操作;
多带来不同,这是我一直强调的体验。所以海量数据需要用到抽样技术,用来查看
数据和预操作,记住:有时候即使样本数据正常,也可能全部数据有问题。建议数
据分隔符采用“ |”存储;
如何强调一个数据挖掘项目和挖掘工程师对行业的理解和业务的洞察都不为过,好
的数据挖掘一定是市场导向的,当然也需要 IT 人员与市场人员有好的沟通机制;
数据挖掘会面临数据字典和语义层含义理解,在 MetaData 元数据管理和理解上下
功夫会事半功倍,否则等数据重构完成发现问题又要推倒重来,悲剧;
每次海量大数据挖掘工作时都是我上微博最多的时侯,它真的没我算的快,只好上
微博等它,哈哈!
传统 RFM 分析转换为电信业务 RFM 分析主要思考:
评论1
最新资源