下载频道  >  sunearlier的资源
  • 基于MapReduce的非平衡大数据集分类

    非平衡大数据集分类是近年来机器学习领域的研究热点。因为许多实际应用领域中都存在非平衡大数据,如医疗诊断数据、信用卡欺诈检测数据、网络入侵检测数据等集。所以研究非平衡大数据集分类具有重要的理论意义和实际应用价值。针对两类非平衡大数据集分类,本文提出了正类样例交叉上采样与分类器集成相结合的方法。具体地,在上采样阶段,正类样例的上采样按下面两步交叉进行:第一步,利用Map Reduce计算正类样例的类中心,并在中心与每一个正类样例点的连线上进行采样;第二步,对新采样的正类样例中的每一个样例点,用Map Redcue计算它的k个负类近邻,并在每一个样例点与它的k个负类近邻点的连线上进行采样。第一步和第二步交叉采样若干次,得到一个上采样的正类样例集合(不要求正类样例与负类样例达到平衡)。在分类器集成阶段,首先以上采样得到的正类样例为标准,从数据集中采样等量的负类样例若干次,分别与正类样例组成若干个平衡化的数据集。然后用极限学习机从平衡化的数据集上训练基本分类器,并用简单的多数投票法进行集成。实验结果显示本文提出算法具有较好的加速比和可扩展性。

    2020-01-15
    6
  • 基于SOA的信用卡系统的设计与实现

    信用卡行业作为银行业的分支,在银行业的盈利结构中越来越重要。此外,随着信息化、智能化社会的推进发展,银行IT系统面临着巨大的机遇和挑战,网上银行系统是其中具有代表性的例子。由于银行IT系统本身存在着系统庞大、技术错综复杂,在稳定性、安全性、性能方面要求严格的特点,所以基于SOA架构的、面向业务流程的整合对于银行系统来说是比较合适的一种改进方案。本文通过对SOA架构的介绍,并针对业务流程整合技术作进一步的分析、研究,在网上银行系统上使用该技术作了流程重构和优化,解决了现有系统结构分散、耦合程度高、维护成本大的问题。

    2020-01-15
    5
  • 基于Hadoop的数据挖掘算法研究与实现

    随着移动智能操作系统技术的突破,智能手机的普及,移动互联网时代的到来,web app每天都在产生TB甚至PB级的web日志,如何从这些海量日志信息中提取用户的个人爱好及其他信息,为用户提供个性化推荐服务,为人们的生活带来便利,成为各大互联网公司和科研机构研究人员的研究热点。由于开源云计算平台Hadoop的出现,解决海量web日志信息的数据挖掘成为可能。 本文的研究内容主要包含以下几个方面: 一、对Hadoop云计算平台进行研究。Hadoop是Apache下的顶级开源项目,该平台能够利用成千上万的廉价计算机提供并行计算与存储服务。本文主要深入研究了Hadoop平台下的HDFS分布式文件系统,并行编程模型MapReduce,分布式列型存储数据库HBase。 二、对聚类分析进行研究。聚类分析是数据挖掘中应用极为广泛的一类,本文主要研究了聚类分析的起源、定义和样本相似距离,并详细介绍了聚类分析的常用方法。 三、基于Hadoop平台,设计并实现了数据挖掘系统,.,系统封装了底层的Hadoop系统接口,提供了本文介绍的几种聚类算法服务。系统自顶向下的逻辑层次分别为用户层、服务引擎层、挖掘引擎层、底层Hadoop驱动层。 四、研究分析了K-Means和PAM聚类算法

    2020-01-15
    8
  • 机器学习中的权重学习与差分演化

    机器学习是人工智能的核心研究问题,是计算机获得智能的根本途径。自从20世纪50年代人工智能学科建立以来,人们已经提出了大量的机器学习算法,如决策树、神经网络、支持向量机、K均值聚类及KNN算法等。而实际问题中的真实数据往往具有以下的一个或几个特点:含噪音的、具有缺失数据、数据类别分布不平衡、特征重要程度不同、大数据以及数据含有不确定性等,特别是当前随着计算机技术及通讯网络的迅猛发展,这些问题变得更加突出。为了处理这些不完美的数据,人们提出了许多改进的算法,比如可以集成多个学习器的集成学习系统,能够处理模糊数据的模糊系统,引入权重的加权学习算法,基于高性能进化计算技术的学习算法等。其中加权技术和模糊系统是经常使用的两种技巧,在这两个课题上仍然存在着一些问题值得我们进一步研究,如在学习系统中如何获取“良好”的权重以提高加权学习算法的性能?模糊分类器的性能与其模糊输出向量之间有没有关系?本文在选定的几个学习模型上深入研究了权重的优化模型及模糊分类器的模糊度与其性能的关系,并将改进的差分演化技术引入到权重的学习问题中。

    2020-01-15
    5
  • 基于神经网络及Logistic回归的混合信用卡评分模型

    更好地对信用卡申请人进行识别和判断,提高银行预防和抵抗信用卡风险的能力,是所有银行迫切需要解决的问题。

    2017-11-10
    10
  • 机器学习与R语言实战

    本书共11章。第1章介绍如何创建一个可用的R环境和基本的R命令;第2章讲述如何使用R语言进行探索性数据分析;第3章重点探讨数据采样和概率分布的概念;第4章探讨因变量和解释变量集合之间的线性关系;第5章介绍基于树的分类器:K近邻分类器、逻辑回归分类器以及朴素贝叶斯分类器;第6章神经网络和支持向量机;第7章展示一些模型评估的方法;第8章探讨集成分类器;第9章讲述多种聚类算法;第10章介绍关联分析和序列挖掘;第11章介绍如何从原始变量中选择和抽取特征;第12章讨论大数据分析(R和Hadoop)。

    2017-11-10
    9
  • 数据挖掘在个人信用评估中的研究

    个人信用评估是现代商业银行个人信用管理的核心.本文将数据挖掘中的随机森林算法(RandomForests,RF)运用到现代个人信用评估模型中,实现了逐步优化和评估.

    2017-11-10
    10
  • Apriori算法在商务网站用户行为分析中的应用

    介绍关联规则的相关概念后分析了关联规则经典的Apriori算法,探讨了Apriori算法在某商务网站用户行为分析中的具体应用,通过Apriori算法的挖掘结果分析出用户行为特征,即用户在点击购买不同商品时存在着某种必然或者大概率事件,从而改善网站结构,提高用户满意度

    2017-11-10
    10
  • 某咨询公司的项目建议书

    某咨询公司的 项目建议书 参考参考 看看看还可以 当个参考

    2017-10-17
    9
  • 信用卡系统建设方案分析报告

    信用卡系统建设方案分析报告信用卡系统建设方案分析报告

    2017-10-17
    4
img

关注 私信


用户积分:583