• 基于机器学习的文本分类技术研究进展

    文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望.

    0
    233
    429KB
    2018-07-14
    13
  • 基于核的机器学习方法及其在多用户检测中的应用

    阐述了核方法的基本原理与研究动机,分析了特征空间的性质,介绍了常见的核方法,给出了构建新核方法的步骤及需要注意的问题,指出了核方法值得关注的研究方向,展示了其在多用户检测中的应用情况,以其对核方法研究领域有较全面的把握。

    0
    177
    939KB
    2018-07-11
    10
  • 自然语言信息抽取中的机器学习方法研究

    信息抽取是一种用于处理各种类型文本文档的非常有效的方法,然而建立一个文本信息抽取系统却是非常困难和耗费时间的。近年来,基于统计的机器学习方法在信息抽取领域的研究受到了广泛关注。本文深入探讨了当前自然语言信息抽取领域广泛采用的几种非常有效的统计学习方法,比较分析了各种方法的统计推断过程和学习算法及其优缺点,讨论了各种统计学习方法所面临的训练语料匮乏问题的主要解决方法,并指出了今后进一步研究的方向。

    0
    191
    524KB
    2018-07-11
    15
  • 机器学习中的核覆盖算法

    基于统计学习理论的支持向量机(SVM)方法在样本空间或特征空间构造最优分类超平面解决了分类器的构造问题,但其本质是二分类的,且核函数中的参数难以确定,计算复杂性高.构造性学习算法根据训练样本构造性地设计分类网络,运行效率高,便于处理多分类问题,但存在所得的分界面零乱、测试计算量大的缺点.该文将SVM中的核函数法与构造性学习的覆盖算法相融合,给出一种新的核覆盖算法.新算法克服了以上两种模型的缺点,具有运算速度快、精度高、鲁棒性强的优点.其次,文中给出风险误差上界与覆盖个数的关系.最后给出实验模拟,模拟结果证明了新方法的优越性.

    0
    150
    238KB
    2018-07-11
    13
  • 基于统计方法的Hive数据仓库查询优化实现

    Map/Reduce是海量离线数据分析中广泛应用的并行编程模型.Hive数据仓库基于Map/Reduce实现了查询处理引擎,然而Map/Reduce框架在处理偏斜数据时会出现工作负载分布不均的问题.均衡计算模型(computation balanced model,CBM),其核心思想是通过数据分布特征指导查询计划优化.相应研究贡献包括2部分,首先针对应用极广的GroupBy查询和Join查询建立了运行估价模型,确定了不同场景下查询计划的优化选择分支;其次基于Hive ETL机制设计了一种统计信息收集方法,解决了统计海量数据分布特征的问题.实验数据表明,通过CBM优化的GroupBy查询耗时节省了8%~45%,Join查询耗时节省了12%~46%;集群CPU负载均衡指标优化了60%~80%,I/O负载均衡指标优化了60%~90%.实验结果证实了基于CBM模型优化的查询计划生成器能显著均衡化Hive查询运行时的集群负载,并优化了查询处理效率.

    0
    369
    1.35MB
    2018-07-09
    50
  • 大数据时代下数据挖掘技术的应用

    大数据时代下,数据挖掘技术越来越受到人们的关注。本文介绍了数据挖掘技术的研究背景和研究现状,论述了决策树、支持向量机、神经网络等数据挖掘技术的相关算法,分析了数据挖掘技术在大数据中的相关应用及未来的发展趋势,探讨了在大数据时代数据挖掘技术面临的挑战。

    0
    353
    1.95MB
    2018-07-04
    29
  • 大数据环境下数据的查询优化研究

    文章以Hbase为数据管理工具,重点研究在HBase上采用分布式处理的方式进行数据查询优化,保证数据查询的反馈时间。研究对海量数据从传统数据库软件迁移到大数据平台上具有重要意义。

    2
    0
    70KB
    2018-07-04
    5
  • 公共安全大数据平台的研究与设计

    本文主要针对公共安全领域快速增长的海量数据处理需求,介绍了当前主流的大数据应用平台Hadoop框架,结合公安业务分析了Hadoop框架优势与应用场景,提出了公安大数据平台的建设思路以及RDBMS与Hadoop框架相结合的混合软件体系架构,从而兼顾海量数据的存储处理与OLTP的高实时性需求。

    0
    109
    301KB
    2018-07-04
    9
  • 大数据建模方法与实践

    2014年出现的一款名为"榫卯"的APP似乎一夜之间火了起来,达到20天内18万次下载量。"榫卯"进入了大众的视野:这种中国古典木匠工艺,仅仅通过木结构的凹凸结合就可以打造出坚固的结构。在明清之际,大部分宫廷家具做成了半榫、闷榫等暗藏结构,又运用了如竹钉、楔子等一些细小的零件来加固。这些体积微小却发挥着重要作用的零件,加上工匠们代代相传的精妙的制作方法,一起构成了中国传统木建筑之美。如"榫卯"一般,在信息时代,金融机构要在大数据领域有所作为,描绘数据之美,离不开各种分析方法与分析工具。这些方法与工具帮助我们准备分析所需的数据,执行分析算法,展现与评估分析结果。在技术飞跃发展的当下,分析方法与工具的深度与功能性也一直在提高。本期《技术应用》栏目以"大数据分析方法与工具"为专题,从数据建模、文本分析、大数据可视化三个方面阐述我们如何改变方法来构建分析流程,以更好地利用分析工具带来的性能与可扩展性的提升。

    0
    730
    386KB
    2018-07-04
    50
  • 关于云计算平台搭建的探讨

    云计算是当前国内外比较热门的研究课题.Hadoop开源实现了谷歌公司的GFS(Google File System),并且成为云计算平台的标准模型,本文在对Hadoop的核心组件HDFS和于项目HBase.Hive深入分析基础上,基于Hadoop+HBase+Hive搭建起云计算平台。经过实验证明云计算平台具有查询速度快和高容错性等特点。

    0
    158
    1.21MB
    2018-07-04
    14
上传资源赚积分or赚钱