人工智人-家居设计-基于Internet的智能信息挖掘系统建模及关键技术研究.pdf资源-CSDN文库

版权申诉

118 浏览量 2022-07-13 13:45:18 上传评论收藏 3.17MB PDF 举报

资源推荐

资源详情

资源评论

苎：！＝！！！！竺竺塑塑些笪：垦丝塑墨堕丝堡丝差壁垫查型壅——』二里—！！—鱼

第一章绪论

１．１研究目的及意义

随着互联网（Ｉｎｔｅｍｅｔ）的迅猛发展，人们面临着数据爆炸的挑战，也常常会

感到被数据淹没却仍觉得知识饥饿的困惑。互联网已成为一个巨大的信息知识

库，但始终没有合适的工具来开采。

经济全球化给每个国家的每个发展领域都带来的巨大的影响，其中制造领

域、商业领域首当其冲。经济全球化过程中信息将引领经济发展，不管在制造领

域，还是在商业领域，信息的重要性众所周知。互联网的出现和发展导致了信息

全球化，信息全球化又加速了经济全球化。在经济全球化形势下，谁能获得信息，

谁就有可能在竞争中取胜；谁能快速的获得信息，谁就能有更好的发展。而目前

对于一个企业来说，正面临着决策支持数据来源严重不足的问题，如果不及时在

信息的获取和利用方面采取措施，就很可能在经济全球化竞争中被淘汰。搜索引

擎给每个人、每个企业带来了从互联网挖掘“黄金”的效率，但是，随着互联网

的发展，其信息量时时刻刻在飞速增加，人们越来越感觉到即使是用最好的搜索

引擎，也不得不浏览成千上万的页面和站点来寻找目标，即使如此，搜索引擎目

前仍然是我们利用互联网信息的最有效手段。如此低的效率，如果用于企业决策，

那么机会已经在决策诞生之前消失了。

因此，建立基于Ｉｎｔｅｍｅｔ的智能信息挖掘系统模型并开展与之相关的应用研

究就具有重要的意义，主要表现为：

１）能够解决互联网应用水平低和制造企业基于数据仓库决策分析系统数据

来源不足的问题。

２）填补国内基于Ｉｎｔｅｍｅｔ的深度数据挖掘应用空白，引导企业分析决策走出

单个企业的局限，深入到国际互连网领域，使企业能够从国际宏观范围内的共享

信息中发现商机，发掘新技术，寻求最佳合作伙伴，开发新产品，开拓新市场。

３）为企业开发基于Ｉｎｔｅｒｎｅｔ的应用开辟新领域，提取分析Ｉｎｔｅｍｅｔ上的有用

信息，推动企业应用下一代互联网信息水平的巨大提高。

４）为企业信息集成提供新方案，避免企业由于局限于企业内部的信息集成，

导致企业决策分析等行为的局限性，企业可以实现内部信息同外部互联网海量信

息的集成，开拓更广阔的应用空间，为企业有效集成内部信息和Ｉｎｔｅｒｎｅｔ上的海

量信息指明解决方案。

此外，本系统模型在金融、证券、电信、政府、能源、交通、零售、银行、

医疗、教育等领域也有潜在的应用前景，并将为互联网信息应用，基于互联网进

行决策来加快发展提供参考。

基于ＩｎｔＣｌＴｉＣｔ的智能信息挖掘系统建模及关键技术研究

第一章缝论

１．２国内外研究现状

人们应用互联网的方式已经不再局限于单个网站的浏览和通过搜索引擎来

查找感兴趣的互联网信息，已经开始研究以互联网为数据源建立应用系统，来利

用包含着海量信息的互联网。

Ｊｕｎｇｌｅｅ公司Ａｎａｎｄ

Ｒｆｌｊ＆ｔｆｌｌｌｌａ／１等人曾研究过用ＶＤＢ（Ｖｉｒｔｕａｌ

ｄａｔａｂａｓｅ虚拟

数据库）技术【５

８】将互联网的一些网站变成一个虚拟的数据库系统，该系统在客户

端以标准ＳＱＬ语句形式接收用户查询请求，请求由ＶＤＢ服务器处理，转换成针

对于每个具体互联网站点数据源的查询，并交给运行在每个具体互联网站点数据

源上的包装提取程序（Ｗｒａｐｐｅｒ）去查询相应的站点，最终由ＶＤＢ服务器合并每

个Ｗｒａｐｐｅｒ返回的结果集，以表格形式显示给用户。

这个系统比较简单，但它提供了一个应用互联网的思想，即通过一定的包装

提取程序，半结构化的互联网可以像普通数据库一样作为应用程序的数据源。随

着半结构化文本信息处理技术的逐步成熟，原来数据来源于企业内部，现在可以

通过半结构化文本处理技术如分类、提取等以互联网代替或补充企业内部数据

源，将数据仓库建立在大量的互联网数据信息之上。显然，互联网的信息数据比

单个企业内部的要丰富的多。

目前国内外还没有建立在广泛互联网（任意互联网站点）上的用于决策分析

支持这方面系统现成的模型，但是一些相关领域的研究所取得的成果逐渐使之成

为可能，这些关键领域包括：互联网信息提取、ＸＭＬ、ＥＴＣＬ、数据库技术、数

据挖掘、ＣＯＲＢＡ（Ｃｏｍｍｏｎ

Ｏｂｊｅｃｔ

Ｒｅｑｕｅｓｔ

Ｂｒｏｋｅｒ

Ａｒｃｈｉｔｅｃｔｕｒｅ公共对象请求代

理体系）等。

１．２．１互联网信息提取

在信息化浪潮的推动下，西方发达国家都十分重视信息提取技术的研究和

应用，把它列为与信息检索、信息理解、文档归类和摘要、语音识别等并重的语

言工程项目。美国政府有专门的文本处理研究计划（例如Ｔｉｐｓｔｅｒ计划），内容包

括了信息提取、文档检索、文献摘要等，以期提高政府部门的信息处理速度和质

量。美国多所大学和公司研究机构都已开展了有计划的、长期的系统的信息提取

研究与应用工作，并且有专门的机构组织各种评测活动对当前的研究进展进行评

估，例如著名的ＭＵＣ（Ｍｅｓｓａｇｅ

Ｕｎｄｅｒｓｔａｎｄｉｎｇ

Ｃｏｎｆｅｒｅｎｃｅ）、ＭＥＴ（Ｍｕｌｔｉｌｉｎｇｕａｌ

Ｅｎｔｉｔｙ

Ｔａｓｋ）、ＴＲＥＣ（Ｔｅｘｔ

Ｒｅｔｒｉｅｖａｌ

Ｃｏｎｆｅｒｅｎｃｅｓ）三大会议等。日本、西欧各国

也进行了大量的有关信息提取的研究工作，尤其是在大规模电子词典的研制方面

取得了很大的成绩，为进一步的信息提取等工作奠定了基础。由于信息提取是一

门综合的技术，它需要比较深入的语言处理基本理论和技术作为支撑，并可以进

挂十Ｉｎｔｅｒａｃｔ的智能信息挖掘系统建模及关键技术研究

鹅一章绪论

一步促进相关语言处理领域的发展，因而各国都在对其进行研究和投资。

台湾大学开展了中文命名实体（人名、地名、时间、事件等）的识别的研究，

已经在第６次和第７次ＭＵＣ通过测试，取得了与英文命名实体识别系统相近的

性能。北京大学经过十多年的研究，在机器翻译和中文信息处理研究领域取得了

有广泛影响的成果，该所正致力于自然语言和中文信息提取技术的研究，并取得

了可喜的成果。北京工业大学的人工智能实验室也开展了这方面的研究，并且开

发了ＳＥＭＩＴＸＴ半格式化网页信息提取系统，能够从训练样本中通过机器学习方

法归纳提取规则，依据提取规则进行新网页信息提取。其他研究单位还有清华大

学、南京大学、上海交大、南京理工大学，ＩＢＭ，新加坡国立大学，韩国的三星

集团等等，它们通过科研项目形式加强研究力度。

现在，互联网上的搜索引擎有成千上万个，其中象Ｇｏｏｇｌｅ、Ｉｎｋｔｏｍｉ、Ｙａｈｏｏ

等大型搜索引擎都采用了最新的信息提取和分析算法。而且它们都同时支持英

文、中文、日文、德文等几十种语言。

１．２．２ＸＭＬ技术

与ＨＴＭＬ不同，ＸＭＬ允许文档开发人员创建描述数据的标记，并使开发人

员可以创建被称为文档类型定义（ＤＴＤ）的规则集合。任何标准的ＸＭＬ语法分

析器都可以读取、解码和检验这种基于文本的自描述文档，并以独立于平台的方

式提取数据元素，因此使应用程序可以通过另一种名为文档对象模型（ＤＯＭ）

的标准访问数据对象。

Ｗ３Ｃ开发了ＸＭＬ标准作为下一代Ｗｅｂ发布语言，并制定了ＸＭＬ标准规范，

国内外在ＸＭＬ相关技术和基于ＸＭＬ的应用方面研究已经取得了巨大成果。各

大型的应用软件提供商都已经展开在产品中支持ＸＭＬ的研究：数据库厂商

Ｏｒａｃｌｅ公司和ＩＢＭ从一开始就支持ＸＭＬ：Ｓｏｆｔｗａｒｅ

ＡＧ研究开发了世界上第一

套基于纯ＸＭＬ的数据库系统（Ｔａｍｉｎｏ）：Ｍｉｃｒｏｓｏｆｔ的ＩＥ５．０以上版本以及Ｎｅｔｓｃａｐｅ

Ｗｅｂ浏览器都支持ＸＭＬ

Ｓｕｎ公司考虑将此标准作为用于Ｊａｖａ的可移植数据语

言；像Ｏｂｊｅｃｔ

Ｄｅｓｉｇｎ公司的ｅＸｃｅｌｏｎ、ＢＥＡ

Ｗｅｂｌｏｇｉｃ等应用服务器都提供ＸＭＬ

来支持应用集成、数据交换和电子商务：开发商和垂直应用厂商也都在开发自己

风格的ＤＴＤ和模式。

与此同时，ＸＭＬ标准自身及各领域的基于ＸＭＬ的标准和规范的完善和研

究也在不断地进行：Ｗ３Ｃ于２００２年４月２５日发布了ＸＭＬ

１．１规范草案，就

Ｕｎｉｃｏｄｅ的应用版本进行了更新；２００２年１１月，ＯＡＳＩＳ组织发布了单点登录

（ｓｉｎｇｌｅ

ｓｉｇｎ－ｏｎ）安全标准“ＳｅｃｕｒｉｔｙＡｓｓｅｒｔｉｏｎ

Ｍａｒｋｕｐ

Ｌａｎｇｕａｇｅ（ＳＡＭＬ）ｖ１．０”，

它是一个面向基于ＸＭＬ的Ｗ拍服务的架构；Ｗ３Ｃ于２００２年７月９日发布了

Ｗｅｂ服务描述语言ＷＳＤＬ

１．２规范以及ＷＳＤＬ

１．２

Ｂｉｎｄｉｎｇｓ规范的公开工作草案

培十Ｉｎｔｅｍｅｔ的智能信息挖掘系统建模及关键技术研究

第一章绪论

版本，这是一个基于ＸＭＬ的描述Ｗｅｂ

Ｓｅｒｖｉｃｅ的语言，描述内容包括Ｗｅｂ

Ｓｅｒｖｉｃｅ

所涉及的数据交换、使用的协议以及在Ｗｅｂ上的部署位置：ＯＡＳＩＳ和

ＵＮ／ＣＥＦＡＣＴ联合资助开发了ｅｂＸＭＬ电子商务标准，其目标是致力于使任意大

小的企业都能够通过交换基于ＸＭＬ的消息来实施商务事务的交互和处理。目前，

已经有很多公司按照ｅｂＸＭＬ规范进行了项目或产品的实施。１８Ｊ

１．２．３数据仓库技术及数据挖掘

数据仓库（Ｄａｔａ

Ｗａｒｅｈｏｕｓｅ）技术出现在２０世纪８０年代，热点是在２０世纪

９０年代。数据仓库出现的背景是由于残酷的市场竞争，传统的数据库管理系统

的发展陷入低潮，各个数据库供应商都被迫寻找新的技术和经济增长点，结果很

多厂家都把目标瞄准了以数据仓库技术为核心的商业智能领域。商业智能（Ｂ１

Ｂｕｓｉｎｅｓｓ

Ｉｎｔｅｌｌｉｇｅｎｃｅ）是综合了数据仓库技术和数据挖掘技术的一个比较成熟的

应用领域。商业智能的基本体系结构包括以下部分：数据仓库（用于抽取、整合、

分布、存储有用的信息）、多维分析（全方位了解现状）和数据挖掘（发现问题、

找出规律，达到真正的智能效果，预测将来）。商业智能的基础是企业各业务活

动的各项绩效指标（Ｐｅｒｆｏｒｍａｎｃｅ

Ｉｎｄｉｃａｔｏｒ），它们来自企业各应用系统并经提取

计算而得，这些应用系统包括ＳＣＭ、ＥＲＰ、ＣＲＭ、ＨＲ、Ｅ—Ｂｕｓｉｎｅｓｓ等等。商业

智能及时将各种基础绩效指标及关键绩效指标（ＫＰＩ，

Ｋｅｙ

Ｐｅｒｆｏｒｍａｎｃｅ

Ｉｎｄｉｃａｔｏｒ）提供企业各级管理者，管理者藉以快速做出决策。

不过，商业智能的数据来源并不是互联网。

在商业智能化方面，美国、日本、新加坡以及欧盟诸国起步较早，成果较好，

积累了经验，它们的许多思路和做法对我国商业信息化建设具有启示和借鉴作

用。在国内，商业智能开始实施商品化。商业智能是当前中国信息技术研究的一

个热点和趋势，它的应用将在金融、证券、电信、政府、能源、交通、制造、零

售等国民经济的各主要领域呈现全面的高速增长的态势。

ＩＢＭ、Ｏｒａｃｌｅ、Ｓｙｂａｓｅ、ＣＡ、ＮＣＲ、Ｍｉｃｒｏｓｏｆｔ和ＳＡＳ等有实力的公司相继（通

过收购或研发的途径）推出了自己的数据仓库解决方案。虽然国内有很多大学和

研究机构从事数据仓库技术的研究，但到目前为止，国内还没有自己成熟的数据

仓库解决方案。新一代数据仓库将朝着关键使命数据仓库、主动数据仓库、面向

对象数据仓库、动态查询优化数据仓库等方向发展。

１９８９年在美国召开的人工智能会议上首次提出的数据挖掘（Ｄａｔａ

Ｍｉｎｉｎｇ）

技术，又名数据库知识发现（ＫＤＤ：Ｋｎｏｗｌｅｄｇｅ

Ｄｉｓｃｏｖｅｒｙ

ｉｎ

Ｄａｔａｂａｓｅ），起源于数

据仓库的研究，是一种在海量数据基础上推断归纳出一般性结论（人可以理解的

未知知识）的方法。

随着ＫＤＤ在学术界和工业界的影响越来越大，国际ＫＤＤ

组委会于１９９５年把专题讨论会更名为国际会议，在加拿大蒙特利尔市召开了第

堆十Ｉｎｔｅｒｎｅｔ的智能信息挖掘系统建模及关键技术研究

第一章绪论

一届ＫＤＤ国际学术会议，以后每年召开一次。１９９９年，亚太地区在北京召开了

第三届ＰＡＫＤＤ会议。ＩＥＥＥ的Ｋｎｏｗｌｅｄｇｅ

ａｎｄ

Ｄａｔａ

Ｅｎｇｉｎｅｅｒｉｎｇ会刊率先在１９９３

年出版了ＫＤＤ技术专刊。并行计算、计算机网络和信息工程等其他领域的国际

学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论。此外，在Ｉｎｔｅｍｅｔ上

还有不少ＫＤＤ电子出版物，其中以半月刊ＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙＮｕｇｇｅｔｓ最为权

威。在网上还有许多自由论坛，如ＤＭ

Ｅｍａｉｌ

Ｃｌｕｂ等。目前的研究重点逐渐从发

现方法转向系统应用，注重多种发现策略和技术的集成，以及多种学科之间的相

互渗透。近年来，ＫＤＤ在研究和应用方面发展迅速，尤其是在商业和银行领域。

目前，国外数据挖掘的发展趋势其研究方面主要有：对知识发现方法的研究

进一步发展，如近年来注重对Ｂａｙｅｓ（贝叶斯）方法以及Ｂｏｏｓｔｉｎｇ方法的研究和

提高；传统的统计学回归法在ＫＤＤ中的应用；ＫＤＤ与数据库的紧密结合；研究

专门用于知识发现的数据挖掘语言，并像ＳＱＬ语言一样走向形式化和标准化；

寻求数据挖掘过程中的可视化方法，使得知识发现的过程能够被用户理解，也便

于在知识发现过程中的人机交互；研究在网络环境下的数据挖掘技术，特别是在

Ｉｎｔｅｒｎｅｔ上建立知识发现和数据挖掘服务器，与数据库服务器配合，实现数据挖

掘：加强对各种非结构化数据的挖掘，如文本数据、图形图像数据、多媒体数据。

在应用方面包括：ＫＤＤ商业软件工具不断产生和完善，注重建立解决问题的整

体系统，而不是孤立的过程。用户主要集中在大型银行、保险公司、电信公司和

销售业。国外很多计算机公司非常重视数据挖掘的开发应用，ＩＢＭ和微软都成

立了相应的研究中心进行这方面的工作，此外，一些公司的相关软件也开始在国

内销售，如Ｐｌａｔｉｎｕｍ、ＢＯ以及ＩＢＭ。目前，世界上比较有影响的典型数据挖掘

系统有：ＳＡＳ公司的Ｅｎｔｅｒｐｒｉｓｅ

Ｍｉｎｅｒ、ＩＢＭ公司的Ｉｎｔｅｌｌｉｇｅｎｔ

Ｍｉｎｅｒ、ＳＧＩ公司

的ＳｅｔＭｉｎｅｒ、ＳＰＳＳ公司的Ｃｌｅｍｅｎｔｉｎｅ、Ｓｙｂａｓｅ公司的Ｗａｒｅｈｏｕｓｅ

Ｓｔｕｄｉｏ、ＲｕｌｅＱｕｅｓｔ

Ｒｅｓｅａｒｃｈ公司的Ｓｅｅ５、还有ＣｏｖｅｒＳｔｏｒｙ、ＥＸＰＬＯＲＡ、Ｋｎｏｗｌｅｄｇｅ

Ｄｉｓｃｏｖｅｒｙ

Ｗｏｒｋｂｅｎｃｈ、ＤＢＭｉ．Ｒｅｒ、Ｑｕｅｓｔ等。

国内从事数据挖掘研究的人员主要在大学，也有部分在研究所或公司。所涉

及的研究领域很多，一般集中于学习算法的研究、数据挖掘的实际应用以及有关

数据挖掘理论方面的研究。目前进行的大多数研究项目是由政府资助进行的，如

国家自然科学基金、８６３计划、“九五”计划等，但还没有关于国内数据挖掘产

品的报道。与国外相比，国内对数据挖掘的研究起步晚，没有形成整体力量。１９９３

年国家自然科学基金首次支持该领域的研究项目。目前，国内的许多科研单位和

高等院校竞相开展知识发现的基础理论及其应用研究，这些单位包括清华大学、

中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中，北京系

统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究，北京大学开

展了对数据立方体代数的研究，华中理工大学、复旦大学、浙江大学、中国科技

剩余65页未读，继续阅读

评论收藏

内容反馈

版权申诉

programmh

粉丝: 4
资源: 2163

人工智人-家居设计-基于Internet的智能信息挖掘系统建模及关键技术研究.pdf

人工智人-家居设计-基于OpenWrt的智能路由系统研究与实现.pdf

人工智人-家居设计-WCDMA系统中智能天线的研究.pdf

人工智人-家居设计-电子书智能入库系统的研究与实现.pdf

人工智人-家居设计-多智能体系统的群一致性研究.pdf

人工智人-家居设计-基于PROFIBUS-DPV1的智能从站研究.pdf

人工智人-家居设计-基于MDT的注塑模浇注系统特征建模及智能化研究.pdf

人工智人-家居设计-基于DSP+FPGA的智能相机关键技术研究.pdf

人工智人-家居设计-基于GIS的智能公交管理系统的应用研究.pdf

人工智人-家居设计-车辆牌照智能识别若干关键技术的研究.pdf

人工智人-家居设计-电子设备智能故障诊断系统的研究.pdf

人工智人-家居设计-基于Internet的远程教学研究——在线教学系统和智能学习系统.pdf

人工智人-家居设计-多智能体系统预测协同控制研究.pdf

人工智人-家居设计-机泵群智能巡检系统研究开发.pdf

人工智人-家居设计-基于CDMA的智能停车场控制系统研究.pdf

人工智人-家居设计-基于DPI的智能管道控制研究.pdf

人工智人-家居设计-基于ARM的智能家居远程监控系统研究与实现.pdf

人工智人-家居设计-基于SVM的智能邮件过滤系统研究与实现.pdf

人工智人-家居设计-基于PVDF的智能微夹钳的研究.pdf

人工智人-家居设计-基于GPS的智能车评估系统.pdf

人工智人-家居设计-缸内直喷汽油机智能起停关键技术研究.pdf

人工智人-家居设计-钢丝绳拉力智能检测系统研究.pdf

人工智人-家居设计-基于MC9S12DG128的智能车控制系统研究.pdf

人工智人-家居设计-电动汽车电池组智能监控系统研究.pdf

人工智人-家居设计-基于MBD特征的大型船舶发动机缸体智能工艺关键技术研究.pdf

人工智人-家居设计-基于PKI的智能卡公钥管理的研究.pdf

人工智人-家居设计-大学生基于智能手机的移动学习状况研究.pdf

人工智人-家居设计-基于RFID的智能工具管理系统的设计与实现.pdf

人工智人-家居设计-基于RFID的智能实验室管理系统设计.pdf

最新资源