下载  >  开发技术  >  其它  > 聚类结果记录

聚类结果记录 评分:

对于AP聚类的结果用文本文件形式记录,便于查看和比较。

...展开详情
2014-03-11 上传 大小:891B
举报 收藏
分享
[python] Kmeans文本聚类算法+PAC降维+Matplotlib显示聚类图像源码

该资源主要参考我的博客: [python] Kmeans文本聚类算法+PAC降维+Matplotlib显示聚类图像 http://blog.csdn.net/eastmount/article/details/50545937 包括输入文档txt,共1000行数据,每行都是分词完的文本。 本文主要讲述以下几点: 1.通过scikit-learn计算文本内容的tfidf并构造N*M矩阵(N个文档 M个特征词); 2.调用scikit-learn中的K-means进行文本聚类; 3.使用PAC进行降维处理,每行文本表示成两维数据;

立即下载
聚类分析matlab源代码

运用此代码在matlab中实现聚类判别分析

立即下载
K均值聚类(C++)

C++实现的KMeans算法,并进行封装,详细记录迭代的次数和分类结果

立即下载
协同过滤中的k-means多维聚类和语义分析部分

k-means聚类部分是我从一个java一维聚类改的,语义关联度分析部分是我自己写的,对协同过滤,聚类,语义关联程度分析等感兴趣的朋友可以下载,输入是语义分析的基准词汇(对哪些词汇比较语义关联度),和需要聚类的记录,输出是聚类中心,距离大小,KNN结果,以及基准词汇中的有关联的部分。

立即下载
论文中期检查——数据挖掘类参考文档

论文中期检查——数据挖掘类参考文档;(2) 在熟悉业务基础上,利用开源工具Weka在近5年实际生产数据上利用传统的simpleKmeans算法进行了建立研究分析,发现数据每年分为10个近似簇时,记录的簇归属有较明显变化。聚类结果较不影响。 (3) 研究演化聚类相关理论知识,并对聚类后的数据进行了分类挖掘,以期发现质量管理中的数据演化,深刻理解离散制造业中影响产品质量因素的演变和实质。 (4) 研究遗传算法的特点和其在聚类挖掘中的应用,通过对比和研究,并应用于实际数据中发现,聚类效果仍不太理想。 (5) 建立混合遗传算法模型并初步设定传统指标,聚类效果有明显改善。

立即下载
聚生网管2009 v4.0.1.328专业版破解版

聚生网管是一款功能极为强大的局域网控制软件,是所有网管必备的管理利器!只要在局域网中的任何一台计算机安装聚生网管,就可以控制整个局域网,而所有受控机器不需要安装任何软件或进行任何设置~安装超级的方便!!   它可以直接在网络应用层对P2P(BT、电驴、pp点点通、卡盟……)数据报文进行封堵,从而可以让管理只要轻轻点击一下鼠标,就可以完全封堵所有的BT的下载。并且它实时控制局域网任意主机上、下行流速(带宽);同时又可以控制任意主机上、下行流量和总流量。还能限制别人使用聊天工具(如QQ、MSN)和限制别人访问网站(全部或指定的部分),限制迅雷下载等……   它甚至还可以检测到局域网终结者、网络

立即下载
有效最低价D类投标预测分析软件-用户手册.doc

有效最低价D类投标预测分析软件是一种针对大型项目招投标过程中,采用有效最低价D类(也叫第三类评标)评标方法,对D类投标模型过程进行分析演算、模拟报价实验和投标结果综合管理的软件,该软件采用大数据统计分析、特征归一化、模型评估、支持向量机和聚类算法等算法模型优化。 应用该软件极大地提高了各公司在参与有效低价D类投标过程中的模拟报价计算效率和中标概率,大大缩减了投标报价人员的计算时间。使得由过去的单次计算3小时缩减至1分钟,并且解决了人工演算容易出错的问题,并且做到无限次、快速模拟投标报价,填补了当前招投标软件中的空白。 同时,对历史投标案例进行数据库录入和关联项目以及关联公司进行成本降幅、投标降

立即下载
屏蔽了输入参数敏感性的DBSCAN改进算法.pdf

提出了一种新的DBscAN改进算法,通过记录簇连接信息,能够有效地屏蔽输人参数敏感性,提高聚类结果的质量,同时保持了DBscAN算法的高执行效率。测试结果表明新算法的性能较高。

立即下载
k均值算法的研究

将 K—me a n s 算法引入到朴素贝叶斯分类研究中 , 提 出一种基于 K—me a n s的朴素贝叶斯分类算法。首先用 K— me . a r k s 算法对原始数据集 中的完整数据子集进行聚类 , 计算缺失数据子集中的每条记录与 个簇重心之间的相似度 , 把记 录赋给距离最近的一个簇, 并用该簇相应的属性均值来填充记录的缺失值 , 然后用朴素贝叶斯分类算法对处理后的数据 集进行分类。实验结果表明, 与朴素贝叶斯相比, 基于 K—me a n s 思想的朴素贝叶斯算法具有较高的分类准确率。

立即下载
数据挖掘原理.算法.技术

1. 时代的挑战 近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。需要是发明之母,因此,面对"人们被数据淹没,人们却饥饿于知识"的挑战,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展

立即下载
应用Web挖掘的主题元搜索引擎的设计与实现

本论文介绍了应用Web数据挖掘,基于开源搜索引擎Nutch 0.9及相关软件包,结合主题搜索引擎和元搜索引擎的特点,设计和实现一个主题元搜索引擎TSMSE,借以改善通用全文搜索引擎的查全率和查准率。 论文首先开发了主题提取器TopicDistiller,应用Web内容挖掘和Web链接分析,从通用搜索引擎检索结果网页集中提取主题词集和种子站点用于主题表示,为后续主题元搜索引擎的主题判断和主题度计算提供了依据。 论文接着提出了具有独立数据库的主题元搜索引擎TSMSE的设计思想,将元搜索引擎综合各个独立搜索引擎检索结果,提高查全率的特点和主题搜索引擎按主题爬行、索引文档,提高查准率的特点结合起来。

立即下载
Spark高级数据分析.pdf

本书是使用Spark进行大规模数据分析的实战宝典,由大数据公司Cloudera的数据科学家撰写。四位作者首先结合数据科学和大数据分析的广阔背景讲解了Spark,然后介绍了用Spark和Scala进行数据处理的基础知识,接着讨论了如何将Spark用于机器学习,同时介绍了常见应用中几个常用的算法。此外还收集了一些更加新颖的应用,比如通过文本隐含语义关系来查询Wikipedia或分析基因数据。 目录 推荐序 ix 译者序 xi 序 xiii 前言 xv 第1 章 大数据分析 1 1.1 数据科学面临的挑战 2 1.2 认识Apache Spark 4 1.3 关于本书 5 第2 章 用Scala 和

立即下载
阿里巴巴大数据竞赛

AliDMCompetition 阿里巴巴大数据竞赛(http://102.alibaba.com/competition/addDiscovery/index.htm ) 数据说明 提供的原始文件有大约4M左右,涉及1千多天猫用户,几千个天猫品牌,总共10万多条的行为记录。 用户4种行为类型(Type)对应代码分别为: 点击:0 购买:1 收藏:2 购物车:3 提交格式 参赛者将预测的用户存入文本文件中,格式如下: user_id \t brand_id , brand_id , brand_id \n 上传的结果文件名字不限(20字以内),文件必须为txt格式。 预测结果

立即下载
大数据:互联网大规模数据挖掘与分布式处理,中文完整pdf

《大数据•互联网大规模数据挖掘与分布式处理》由斯坦福大学的“web 挖掘”课程的内容总结而成,由拉贾拉曼、厄尔曼所著,主要关注极大规模数据的挖掘。 《大数据•互联网大规模数据挖掘与分布式处理》主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统。其中相关章节有对应的习题,以巩固所讲解的内容。读者更可以从网上获取相关拓展材料。 《大数据•互联网大规模数据挖掘与分布式处理》适合本科生、研究生及对数据挖掘感兴趣的读者阅读。 第1章数据挖掘基本概念 1.1数据挖掘的定义 1.1.1统计建模 1.1.2机器学习 1.1.3建模的计算方法 1.1.4数据汇总 1

立即下载
灵柩软件 可用于汉语分词处理

LJParser文本搜索与挖掘开发平台的十大功能: 1. 全文精准检索 支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。 2. 新词发现: 从文件集合中挖掘出内涵的新词语列表,可以用于用户专业词典的编撰;还可以进一步编辑标注,导入分词词典中,从而提高分词系统的准确度,并适应新的语言变化。 3. 分词标注: 对原始语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及词性标注。并可在分析过程中,导入用户定义的

立即下载
软件工程教程

软件工程ppt 建议没有基础或者兴趣的同学别下载 因为软件工程理解需要耐心和能力 主讲:邱焕耀 经历 华南理工大学,博士,计算机控制 曾任职以下公司: 中国民航信息广州公司(香港上市)技术总监 广州金鹏集团(电子百强)项目总监 广东金宇恒(佛山最大软企)技术总监 曾获国家创新基金、广州科学技术奖 中联通炫铃广东/湖南/广西项目负责人(用户800万) 长期移动、民航、政府、互联网行业软件研发 项目一 软件工程概述 任务1 软件工程任务2 软件生命周期与软件开发模型任务3 建模工具 最富哲理的软件工程 UML是“三人帮”“捣”出来的 迭代开发过程这样流转 软件工程水平是这样提高的 敏捷开发过

立即下载
客户管理系统

旧版地址:http://www.jb51.net/codes/272886.html 软件名称:云点滴客户关系管理CRMOA系统 软件版本:v1.02.13简体中文安装部署版 软件大小:8.12M 软件类型:简体中文/国产软件/免费版 软件分类:电子商务/客户管理 软件所需系统要求:winserver2003、winserver2008、win7、winxp、mssql2008 联系人:QQ1921681647 开 发 商:http://www.yundiandi.cn 软件下载地址:http://www.yundiandi.cn/Soft/YDDV1.0.ZIP 简要介

立即下载
LJParser文本搜索与挖掘开发平台

一、简介 LJParser文本搜索与挖掘开发平台包括:全文精准搜索,新词发现,汉语分词标注,词语统计与术语翻译,自动聚类与热点发现,分类过滤,自动摘要,关键词提取,文档去重,正文提取等十余项功能。针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,C,C#等各类开发语言使用。 LJParser是一套专门针对原始文本集进行处理和加工的软件,

立即下载
ZServer4D 云服务器中间件,可以承载百万级的分布式负载服务,并且支持IoT及内网穿透

ZSERVER4D是一套高级通讯系统的地基平台,它偏向于开发工艺和多平台支持。支持运行平台Android,IOS,Win32/64,Linux,OSX,物联网IOT(任意版本的linux均能支持,包括树莓1-3代,香橙,高通,三星,小序列cpu mips linux) 支持编译器:FPC3.0.4以及DelphiXE10.2和以后的版本 并行计算支持HPC服务器,并行深度参数服务器可配置 良好支持轻量云主机,腾讯云,阿里云,亚马逊云,均有数百台使用ZServer4D的服务器在运行中 支持内置的Pascal语系的内网穿透稳定核心库XNat(直接内核支持,非外部支持) 支持基于FRP的内

立即下载
天猫淘宝秒杀抢购插件源码

天猫淘宝秒杀抢购360插件完整源码crx包,用rar或者zip解压,可得到源码进行修改,不做修改,可直接导入浏览器使用

立即下载