• 基于Hadoop高效的数据挖掘框架

    利用持久化方法(JPA),解决了Hadoop的子任务无法共享数据的问题,提出了一个hadoop上的数据挖掘框架,可以完成树型结构。具体实现了DBtree。 下面是ris格式的引文,存盘后,可为endnote等文献管理软件导入。 TY - CONF JO - Computer and Information Technology, International Conference on TI - An Efficient Data Mining Framework on Hadoop using Java Persistence API SN - 978-0-7695-4108-2 SP - 203 EP - 209 A1 - Yang Lai A2 - Shi ZhongZhi PY - 2010/06/29 KW - Data Mining KW - Distributed applications KW - JPA KW - ORM KW - Distributed file systems KW - Cloud computing VL - 0 JA - Computer and Information Technology, International Conference on UR - http://doi.ieeecomputersociety.org/10.1109/CIT.2010.71 ER -

    4
    233
    424KB
    2010-11-07
    9
  • 海量高效数据索引·hadoop·JPA·data mining

    利用JPA做“公共黑板”,解决了数据挖掘中hadoop的子任务无法共享数据的问题,提出了树型结构的高效算法。具体实现了kdtree的hadoop版本。 代码可以在http://svn.javaforge.com/svn/hadoopjpa/HadoopDataMining check out. 需要先注册;如果不能成功,换小写地址。 下面是ris格式的引文,存盘后可为endnote等文献管理软件导入。 TY - CHAP AU - Lai, Yang AU - ZhongZhi, Shi A2 - Shi, Zhongzhi A2 - Vadera, Sunil A2 - Aamodt, Agnar A2 - Leake, David T1 - An Efficient Data Indexing Approach on Hadoop Using Java Persistence API T2 - Intelligent Information Processing V T3 - IFIP Advances in Information and Communication Technology PY - 2010 PB - Springer Boston SN - SP - 213 EP - 224 VL - 340 UR - http://dx.doi.org/10.1007/978-3-642-16327-2_27 DO - 10.1007/978-3-642-16327-2_27 AB - Data indexing is common in data mining when working with high-dimensional, large-scale data sets. Hadoop, a cloud computing project using the MapReduce framework in Java, has become of significant interest in distributed data mining. To resolve problems of globalization, random-write and duration in Hadoop, a data indexing approach on Hadoop using the Java Persistence API (JPA) is elaborated in the implementation of a KD-tree algorithm on Hadoop. An improved intersection algorithm for distributed data indexing on Hadoop is proposed, it performs O(M+logN), and is suitable for occasions of multiple intersections. We compare the data indexing algorithm on open dataset and synthetic dataset in a modest cloud environment. The results show the algorithms are feasible in large-scale data mining. ER -

    5
    108
    233KB
    2010-11-07
    0
  • A list of fonts available for JAVA in windows XP[一个字体列表]

    一个字体列表 在java环境中有效的windows字体被列出383个,分为正规和斜体两列。 一般程序员需要等宽字体来编程,而且需要区分0(zero)和O。在列表中的第一个为作者推荐的编程字体。 在数学文章的英文编辑中,我们可以要用到这些符号:for all 和 exist,即“对所有”和“存在一个”,以及"is proven"证明与"is true"逻辑蕴涵,在作者推荐的第二、三、四个字体中我们可以使用这些符号。 A list of fonts available for JAVA in windows XP 383 fonts are presented for java in windows, as two columns regular and italic. A programmer needs monospace fonts for coding, which can distinguish 0(zero) and O. The first font in the list is the preferred by the author. In English mathematical paper, we have to use this glyphs: for all, and exist, and "is proven", and "is true". The preferred second, the third, the 4th font can be used in your paper. Total fonts under windows: 383; First Example: A URL address; Second Example: Upper and Lower Character, Digits; Third Example: Mathematical Glyph (if exists); Forth Example: Chinese Glyph (if exists); Author: [email protected] Date: 2010-10-22

    0
    79
    2.08MB
    2010-10-22
    9
  • 入门的DLL例子(附完整代码)

    由于网络上的文章总是有错,而且缺少完整可行的代码,所以做了这个示例,编译sample后会在其debug目录生成dll。不要copydll,编译test后可以直接显示调用该dll。 参考附后的文章,在VC6环境,使用DEF文件,显式调用DLL的完整代码。 用VC++5.0定制和调用动态链接库 山东省泰安市 杨波 ---- ---- 动 态 链 接 库(dll) 是 包 含 共 享 函 数 库 的 二 进 制 文 件, 可 以 被 多 个 应 用 程 序 同 时 使 用。 建 立 应 用 程 序 的 可 执 行 文 件 时, 不 必 将DLL 连 接 到 应 用 程 序 中, 而 是 在 运 行 时 动 态 装 载DLL, 装 载 时DLL 被 映 射 到 调 用 进 程 的 地 址 空 间 中。 通 常 我 们 在 调 用DLL 时 所 需 的DLL 文 件 必 须 位 于 以 下 三 个 目 录 之 一: ---- (1)Windows 的 系 统 目 录:\windows\system; ---- (2)DOS 中path 所 指 出 的 任 何 目 录; ---- (3) 程 序 所 在 的 目 录;

    4
    185
    22KB
    2010-10-08
    50
  • Patent it yourself_自己申请专利英文原版

    申请美国专利的重要参考书,David Pressman 的13版。 极有参考价值。605页,pdf格式,英文,17.17MB。

    5
    654
    17.18MB
    2010-01-02
    21
  • 运行成功的hadoop配置文件

    经过多次反复试验,完全可用的hadoop配置,有0.19的版本,也有0.20的版本。并且有脚本可以在两个版本之间切换,无需格式化文件系统。Without "hadoop namenode -format" 目录结构: /data/hadoop 为工作目录,实际为一个链接(link) /data/hadoop-0.19.1 为实际0.19.1的安装目录 /data/hadoop-0.20.1 为实际0.20.1的安装目录 /data/hadoop-0.19.1的conf删除,link到本压缩文件的/data/hadoop-conf /data/hadoop-0.20.1的conf删除,link到本压缩文件的/data/hadoop-conf-0.20 注意: 有个小bug,由于不能重新更换资源zip;请找到hadoop.tmp.dir修改如下 vi hadoop/conf/core-site.xml <name>hadoop.tmp.dir</name> <value>/data/hadoop_tmp</value> 祝好运!

    3
    245
    26KB
    2010-01-02
    10
  • hadoop-0.20.1-eclipse-plugin.jar

    注意:下载完毕后,如果进行“评论”且“评分”,您的资源分不会减少,而且会多一分! 在Eclipse环境中可以使用插件对hadoop直接操作文件系统,也可以即时运行任务。 从hadoop 0.19.1 升级到 0.20.1时才发现原来0.19.1的插件不能使用,包里没有jar文件,需要自行编译。然而编译出来的jar总是不能用,最后改写一点代码,才可以在Eclipse (europa, galileo)下正常使用。 注意:使用0.20.1的插件之后,要把原来的项目中的0.19.1.core.jar的Lib也更换掉。

    4
    80
    2.76MB
    2009-12-11
    10
  • 在Eclipse下的Hadoop0.17.0(MapReduce)的统计作业指导书

    注意:下载完毕后,如果进行“评论”且“评分”,您的资源分不会减少,而且会多一分! 1. 导言 Hadoop为分布式编程提供了一个理想的平台,普通的程序员只要理解了分布式的特点,就可以轻易地实现分布式计算,而不需要理解分布式的细节。本文用实例讲解了在Eclipse下,使用Hadoop对数据集的统计度量的实现过程。 1.1. 预备条件 熟悉java编程和Eclipse,了解Hadoop,MapReduce,了解linux; 已经建立了Hadoop-0.17.0环境;本文中master的ip为10.63.0.60,用户为root; 数据为实数。

    5
    192
    367KB
    2009-03-29
    9
关注 私信
上传资源赚积分or赚钱