没有合适的资源?快使用搜索试试~ 我知道了~
人工智人-家居设计-基于Internet的智能信息挖掘系统建模及关键技术研究.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 118 浏览量
2022-07-13
13:45:18
上传
评论
收藏 3.17MB PDF 举报
温馨提示
试读
66页
人工智人-家居设计-基于Internet的智能信息挖掘系统建模及关键技术研究.pdf
资源推荐
资源详情
资源评论
苎:!=!!!!竺竺塑塑些笪:垦丝塑墨堕丝堡丝差壁垫查型壅——』二里—!!—鱼
第一章绪论
1.1研究目的及意义
随着互联网(Intemet)的迅猛发展,人们面临着数据爆炸的挑战,也常常会
感到被数据淹没却仍觉得知识饥饿的困惑。互联网已成为一个巨大的信息知识
库,但始终没有合适的工具来开采。
经济全球化给每个国家的每个发展领域都带来的巨大的影响,其中制造领
域、商业领域首当其冲。经济全球化过程中信息将引领经济发展,不管在制造领
域,还是在商业领域,信息的重要性众所周知。互联网的出现和发展导致了信息
全球化,信息全球化又加速了经济全球化。在经济全球化形势下,谁能获得信息,
谁就有可能在竞争中取胜;谁能快速的获得信息,谁就能有更好的发展。而目前
对于一个企业来说,正面临着决策支持数据来源严重不足的问题,如果不及时在
信息的获取和利用方面采取措施,就很可能在经济全球化竞争中被淘汰。搜索引
擎给每个人、每个企业带来了从互联网挖掘“黄金”的效率,但是,随着互联网
的发展,其信息量时时刻刻在飞速增加,人们越来越感觉到即使是用最好的搜索
引擎,也不得不浏览成千上万的页面和站点来寻找目标,即使如此,搜索引擎目
前仍然是我们利用互联网信息的最有效手段。如此低的效率,如果用于企业决策,
那么机会已经在决策诞生之前消失了。
因此,建立基于Intemet的智能信息挖掘系统模型并开展与之相关的应用研
究就具有重要的意义,主要表现为:
1)能够解决互联网应用水平低和制造企业基于数据仓库决策分析系统数据
来源不足的问题。
2)填补国内基于Intemet的深度数据挖掘应用空白,引导企业分析决策走出
单个企业的局限,深入到国际互连网领域,使企业能够从国际宏观范围内的共享
信息中发现商机,发掘新技术,寻求最佳合作伙伴,开发新产品,开拓新市场。
3)为企业开发基于Internet的应用开辟新领域,提取分析Intemet上的有用
信息,推动企业应用下一代互联网信息水平的巨大提高。
4)为企业信息集成提供新方案,避免企业由于局限于企业内部的信息集成,
导致企业决策分析等行为的局限性,企业可以实现内部信息同外部互联网海量信
息的集成,开拓更广阔的应用空间,为企业有效集成内部信息和Internet上的海
量信息指明解决方案。
此外,本系统模型在金融、证券、电信、政府、能源、交通、零售、银行、
医疗、教育等领域也有潜在的应用前景,并将为互联网信息应用,基于互联网进
行决策来加快发展提供参考。
基于IntClTiCt的智能信息挖掘系统建模及关键技术研究
第一章缝论
1.2国内外研究现状
人们应用互联网的方式已经不再局限于单个网站的浏览和通过搜索引擎来
查找感兴趣的互联网信息,已经开始研究以互联网为数据源建立应用系统,来利
用包含着海量信息的互联网。
Junglee公司Anand
Rflj&tflllla/1等人曾研究过用VDB(Virtual
database虚拟
数据库)技术【5
8】将互联网的一些网站变成一个虚拟的数据库系统,该系统在客户
端以标准SQL语句形式接收用户查询请求,请求由VDB服务器处理,转换成针
对于每个具体互联网站点数据源的查询,并交给运行在每个具体互联网站点数据
源上的包装提取程序(Wrapper)去查询相应的站点,最终由VDB服务器合并每
个Wrapper返回的结果集,以表格形式显示给用户。
这个系统比较简单,但它提供了一个应用互联网的思想,即通过一定的包装
提取程序,半结构化的互联网可以像普通数据库一样作为应用程序的数据源。随
着半结构化文本信息处理技术的逐步成熟,原来数据来源于企业内部,现在可以
通过半结构化文本处理技术如分类、提取等以互联网代替或补充企业内部数据
源,将数据仓库建立在大量的互联网数据信息之上。显然,互联网的信息数据比
单个企业内部的要丰富的多。
目前国内外还没有建立在广泛互联网(任意互联网站点)上的用于决策分析
支持这方面系统现成的模型,但是一些相关领域的研究所取得的成果逐渐使之成
为可能,这些关键领域包括:互联网信息提取、XML、ETCL、数据库技术、数
据挖掘、CORBA(Common
Object
Request
Broker
Architecture公共对象请求代
理体系)等。
1.2.1互联网信息提取
在信息化浪潮的推动下,西方发达国家都十分重视信息提取技术的研究和
应用,把它列为与信息检索、信息理解、文档归类和摘要、语音识别等并重的语
言工程项目。美国政府有专门的文本处理研究计划(例如Tipster计划),内容包
括了信息提取、文档检索、文献摘要等,以期提高政府部门的信息处理速度和质
量。美国多所大学和公司研究机构都已开展了有计划的、长期的系统的信息提取
研究与应用工作,并且有专门的机构组织各种评测活动对当前的研究进展进行评
估,例如著名的MUC(Message
Understanding
Conference)、MET(Multilingual
Entity
Task)、TREC(Text
Retrieval
Conferences)三大会议等。日本、西欧各国
也进行了大量的有关信息提取的研究工作,尤其是在大规模电子词典的研制方面
取得了很大的成绩,为进一步的信息提取等工作奠定了基础。由于信息提取是一
门综合的技术,它需要比较深入的语言处理基本理论和技术作为支撑,并可以进
挂十Interact的智能信息挖掘系统建模及关键技术研究
鹅一章绪论
一步促进相关语言处理领域的发展,因而各国都在对其进行研究和投资。
台湾大学开展了中文命名实体(人名、地名、时间、事件等)的识别的研究,
已经在第6次和第7次MUC通过测试,取得了与英文命名实体识别系统相近的
性能。北京大学经过十多年的研究,在机器翻译和中文信息处理研究领域取得了
有广泛影响的成果,该所正致力于自然语言和中文信息提取技术的研究,并取得
了可喜的成果。北京工业大学的人工智能实验室也开展了这方面的研究,并且开
发了SEMITXT半格式化网页信息提取系统,能够从训练样本中通过机器学习方
法归纳提取规则,依据提取规则进行新网页信息提取。其他研究单位还有清华大
学、南京大学、上海交大、南京理工大学,IBM,新加坡国立大学,韩国的三星
集团等等,它们通过科研项目形式加强研究力度。
现在,互联网上的搜索引擎有成千上万个,其中象Google、Inktomi、Yahoo
等大型搜索引擎都采用了最新的信息提取和分析算法。而且它们都同时支持英
文、中文、日文、德文等几十种语言。
1.2.2XML技术
与HTML不同,XML允许文档开发人员创建描述数据的标记,并使开发人
员可以创建被称为文档类型定义(DTD)的规则集合。任何标准的XML语法分
析器都可以读取、解码和检验这种基于文本的自描述文档,并以独立于平台的方
式提取数据元素,因此使应用程序可以通过另一种名为文档对象模型(DOM)
的标准访问数据对象。
W3C开发了XML标准作为下一代Web发布语言,并制定了XML标准规范,
国内外在XML相关技术和基于XML的应用方面研究已经取得了巨大成果。各
大型的应用软件提供商都已经展开在产品中支持XML的研究:数据库厂商
Oracle公司和IBM从一开始就支持XML:Software
AG研究开发了世界上第一
套基于纯XML的数据库系统(Tamino):Microsoft的IE5.0以上版本以及Netscape
Web浏览器都支持XML
Sun公司考虑将此标准作为用于Java的可移植数据语
言;像Object
Design公司的eXcelon、BEA
Weblogic等应用服务器都提供XML
来支持应用集成、数据交换和电子商务:开发商和垂直应用厂商也都在开发自己
风格的DTD和模式。
与此同时,XML标准自身及各领域的基于XML的标准和规范的完善和研
究也在不断地进行:W3C于2002年4月25日发布了XML
1.1规范草案,就
Unicode的应用版本进行了更新;2002年11月,OASIS组织发布了单点登录
(single
sign-on)安全标准“SecurityAssertion
Markup
Language(SAML)v1.0”,
它是一个面向基于XML的W拍服务的架构;W3C于2002年7月9日发布了
Web服务描述语言WSDL
1.2规范以及WSDL
1.2
Bindings规范的公开工作草案
培十Intemet的智能信息挖掘系统建模及关键技术研究
第一章绪论
版本,这是一个基于XML的描述Web
Service的语言,描述内容包括Web
Service
所涉及的数据交换、使用的协议以及在Web上的部署位置:OASIS和
UN/CEFACT联合资助开发了ebXML电子商务标准,其目标是致力于使任意大
小的企业都能够通过交换基于XML的消息来实施商务事务的交互和处理。目前,
已经有很多公司按照ebXML规范进行了项目或产品的实施。18J
1.2.3数据仓库技术及数据挖掘
数据仓库(Data
Warehouse)技术出现在20世纪80年代,热点是在20世纪
90年代。数据仓库出现的背景是由于残酷的市场竞争,传统的数据库管理系统
的发展陷入低潮,各个数据库供应商都被迫寻找新的技术和经济增长点,结果很
多厂家都把目标瞄准了以数据仓库技术为核心的商业智能领域。商业智能(B1
Business
Intelligence)是综合了数据仓库技术和数据挖掘技术的一个比较成熟的
应用领域。商业智能的基本体系结构包括以下部分:数据仓库(用于抽取、整合、
分布、存储有用的信息)、多维分析(全方位了解现状)和数据挖掘(发现问题、
找出规律,达到真正的智能效果,预测将来)。商业智能的基础是企业各业务活
动的各项绩效指标(Performance
Indicator),它们来自企业各应用系统并经提取
计算而得,这些应用系统包括SCM、ERP、CRM、HR、E—Business等等。商业
智能及时将各种基础绩效指标及关键绩效指标(KPI,
Key
Performance
Indicator)提供企业各级管理者,管理者藉以快速做出决策。
不过,商业智能的数据来源并不是互联网。
在商业智能化方面,美国、日本、新加坡以及欧盟诸国起步较早,成果较好,
积累了经验,它们的许多思路和做法对我国商业信息化建设具有启示和借鉴作
用。在国内,商业智能开始实施商品化。商业智能是当前中国信息技术研究的一
个热点和趋势,它的应用将在金融、证券、电信、政府、能源、交通、制造、零
售等国民经济的各主要领域呈现全面的高速增长的态势。
IBM、Oracle、Sybase、CA、NCR、Microsoft和SAS等有实力的公司相继(通
过收购或研发的途径)推出了自己的数据仓库解决方案。虽然国内有很多大学和
研究机构从事数据仓库技术的研究,但到目前为止,国内还没有自己成熟的数据
仓库解决方案。新一代数据仓库将朝着关键使命数据仓库、主动数据仓库、面向
对象数据仓库、动态查询优化数据仓库等方向发展。
1989年在美国召开的人工智能会议上首次提出的数据挖掘(Data
Mining)
技术,又名数据库知识发现(KDD:Knowledge
Discovery
in
Database),起源于数
据仓库的研究,是一种在海量数据基础上推断归纳出一般性结论(人可以理解的
未知知识)的方法。
随着KDD在学术界和工业界的影响越来越大,国际KDD
组委会于1995年把专题讨论会更名为国际会议,在加拿大蒙特利尔市召开了第
堆十Internet的智能信息挖掘系统建模及关键技术研究
第一章绪论
一届KDD国际学术会议,以后每年召开一次。1999年,亚太地区在北京召开了
第三届PAKDD会议。IEEE的Knowledge
and
Data
Engineering会刊率先在1993
年出版了KDD技术专刊。并行计算、计算机网络和信息工程等其他领域的国际
学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论。此外,在Intemet上
还有不少KDD电子出版物,其中以半月刊KnowledgeDiscoveryNuggets最为权
威。在网上还有许多自由论坛,如DM
Email
Club等。目前的研究重点逐渐从发
现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相
互渗透。近年来,KDD在研究和应用方面发展迅速,尤其是在商业和银行领域。
目前,国外数据挖掘的发展趋势其研究方面主要有:对知识发现方法的研究
进一步发展,如近年来注重对Bayes(贝叶斯)方法以及Boosting方法的研究和
提高;传统的统计学回归法在KDD中的应用;KDD与数据库的紧密结合;研究
专门用于知识发现的数据挖掘语言,并像SQL语言一样走向形式化和标准化;
寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便
于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特别是在
Internet上建立知识发现和数据挖掘服务器,与数据库服务器配合,实现数据挖
掘:加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。
在应用方面包括:KDD商业软件工具不断产生和完善,注重建立解决问题的整
体系统,而不是孤立的过程。用户主要集中在大型银行、保险公司、电信公司和
销售业。国外很多计算机公司非常重视数据挖掘的开发应用,IBM和微软都成
立了相应的研究中心进行这方面的工作,此外,一些公司的相关软件也开始在国
内销售,如Platinum、BO以及IBM。目前,世界上比较有影响的典型数据挖掘
系统有:SAS公司的Enterprise
Miner、IBM公司的Intelligent
Miner、SGI公司
的SetMiner、SPSS公司的Clementine、Sybase公司的Warehouse
Studio、RuleQuest
Research公司的See5、还有CoverStory、EXPLORA、Knowledge
Discovery
Workbench、DBMi.Rer、Quest等。
国内从事数据挖掘研究的人员主要在大学,也有部分在研究所或公司。所涉
及的研究领域很多,一般集中于学习算法的研究、数据挖掘的实际应用以及有关
数据挖掘理论方面的研究。目前进行的大多数研究项目是由政府资助进行的,如
国家自然科学基金、863计划、“九五”计划等,但还没有关于国内数据挖掘产
品的报道。与国外相比,国内对数据挖掘的研究起步晚,没有形成整体力量。1993
年国家自然科学基金首次支持该领域的研究项目。目前,国内的许多科研单位和
高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、
中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系
统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学开
展了对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技
剩余65页未读,继续阅读
资源评论
programmh
- 粉丝: 4
- 资源: 2163
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功