web intelligence and big data--笔记

preview
需积分: 0 2 下载量 102 浏览量 更新于2014-02-19 收藏 1.32MB PDF 举报
Web Intelligence and Big Data是当前信息技术领域中的重要课题,主要涉及互联网上的数据处理和智能化分析,以及大数据环境下的存储、管理和分析技术。以下从几个方面来详细解释在给定文件中提及的知识点。 ### 1. 概述与入门 #### 1.1 重返图灵机 图灵机由数学家阿兰·图灵提出,是用于模拟任何算法过程的抽象计算模型。图灵测试作为图灵机的一个应用,用来评估机器是否具有与人相仿的智能。它通过一个不可区分的人机对话来判断机器是否具有智能。在Web环境中,利用机器对人类进行区分和理解,是Web Intelligence的一部分。 #### 1.2 Web-Scale AI和BigData Web-Scale AI指的是在Web规模上实现的AI应用,如图像识别、人脸识别等,它们利用大数据技术来处理大规模数据集,并对数据进行智能化分析。大数据(Big Data)则描述了数据量巨大、处理速度快、类型多样的数据集。大数据的特征通常被归纳为“3V”,即Volume(大量)、Velocity(高速)、Variety(多样)。Web Intelligence与Big Data的结合应用包括在线广告定向、智能问答系统等。 ### 2. Look—FindingStuff #### 2.1 索引基础 在Web环境下,信息检索的效率和准确性依赖于有效的索引机制。索引基础涉及如何通过关键词索引来快速定位和访问网页。简单的索引方法包括遍历网页,提取重要词语,并将其与页面链接(URL)一起存入索引库中。高级的索引技术会运用到数据结构如倒排索引(Inverted Index)等。 ### 3. Listen辨别 #### 3.1 信息 在大数据背景下,信息是指能够进行存储、处理和分析的数据。信息处理旨在提高数据的价值,包括对信息进行提取、分类和整合。 #### 3.2 TF-IDF TF-IDF是“词频-逆文档频率”(Term Frequency-Inverse Document Frequency)的缩写,用于信息检索和文本挖掘中的一种加权技术。它评估一个词语对于一个文档集或一个语料库中的其中一份文档的重要程度。 #### 3.3 语言与信息 利用语言学原理对信息进行处理和分析,如自然语言处理(NLP)技术,可应用于文本挖掘、情感分析、机器翻译等。 #### 3.4 机器学习 机器学习是指计算机利用数据进行学习和模式识别的过程,以便做出决策或预测。包括贝叶斯定理、朴素贝叶斯分类、实例分析以及机器学习在信息检索中的应用,如通过机器学习进行情感分析。 ### 4. Load I #### 4.1 并行计算 在大数据分析中,由于数据量巨大,单台计算机难以在合理时间内完成处理,因此需要使用并行计算方法。并行计算涉及将任务分散到多个计算节点上并行处理。 #### 4.2 Map-Reduce Map-Reduce是一种编程模型,用于大规模数据集的并行运算。它将计算任务分为Map(映射)和Reduce(归约)两个阶段,Google的MapReduce框架就是这一思想的实现。 ### 5. Load II #### 5.1 分布式文件系统 分布式文件系统是为了支持大数据存储和处理需求而设计的文件系统。它们可以在多台计算机上分布式地存储和管理数据。 #### 5.2 数据库技术 数据库技术是管理、存储和检索数据的一系列技术。随着大数据的兴起,数据库技术也在不断地发展,以适应大数据的需求。 #### 5.3 数据库的进化 数据库技术的进化包括关系型数据库向非关系型数据库(NoSQL)的转变。NoSQL数据库设计用来解决传统关系型数据库难以处理的场景,如海量数据处理和灵活的数据模型。 #### 5.4 典型NoSQL NoSQL数据库类型繁多,包括文档型数据库、键值存储、列存储和图数据库等。它们各自针对不同场景优化,如Cassandra和HBase等。 #### 5.5 NoSQL和数据一致性 NoSQL系统在处理数据一致性方面采取不同于传统关系型数据库的方法。CAP定理阐述了在分布式系统中,一致性(Consistency)、可用性(Availability)和分区容忍性(Partition tolerance)三者之间不能完全兼顾。 #### 5.6 NoSQL未来之Dremel Dremel是一种大数据查询服务,它支持对海量数据进行快速交互式分析。Dremel可以处理PB级别的数据,并在秒级返回查询结果。 #### 5.7 SQL和Map-Reduce的进一步发展 SQL是一种用于存取和操作关系型数据库的标准编程语言。随着大数据技术的发展,SQL也在不断扩展,以支持大数据分析操作。 ### 6. Learn学习 #### 6.1 分类与聚类 分类和聚类是两种基本的机器学习方法。分类用于将数据分为预定义的类别,聚类则用于发现数据的自然分组。 #### 6.2 Learning Rules(关联规则) 关联规则学习在数据挖掘中用于发现大型数据集中变量之间的有趣关系,如购物篮分析中商品之间的关联。 #### 6.3 Learning with big data 在大数据环境下进行机器学习面临着特殊的挑战,包括数据的存储、计算能力和算法效率等问题。 #### 6.4 隐变量模型 隐变量模型是概率模型的一种,其中一些变量是不可直接观测的,需要通过观测到的数据来推断其值。 ### 7. Connect #### 7.1 逻辑推理(logical inference) 逻辑推理是计算机科学中的一种技术,用于从一组已知事实中推导出新知识。 #### 7.2 逻辑和不确定性(uncertainty) 在处理大数据时,经常需要在不确定性的环境中做出决策,因此逻辑推理的扩展,如概率逻辑,变得尤为重要。 #### 7.3 概率表 概率表用于表示变量之间概率关系的表格,是概率逻辑推理的一部分。 #### 7.4 贝叶斯网络 贝叶斯网络是概率图模型的一种,用于表示一组变量及其条件依赖关系。 ### 8. Predict预测 #### 8.1 线性回归 线性回归是统计学中一种回归分析方法,用来预测连续变量的值。 #### 8.2 典型技术分类 数据挖掘中,分类是一类预测建模任务,用于将数据划分到不同的类别中。 #### 8.3 预测应用 在大数据分析中,预测应用包括时间序列预测、用户行为预测、市场趋势分析等。 #### 8.4 HTM算法 HTM(Hierarchical Temporal Memory)是一种模仿人脑的算法,用于模式识别和预测。 ### 9. 一些工具 文中提到的“一些工具”没有具体列出,但这个部分可能涉及一系列大数据分析和人工智能工具,包括数据挖掘软件、机器学习平台等。 ### 10. Reference 参考文献部分提供了课程学习来源的链接,以及对于作者的感谢。 通过学习这些知识点,可以更好地理解Web Intelligence和Big Data在信息科学与技术领域中的重要性和应用。同时也了解到了数据的处理和分析从传统的数据分析方法转变到大数据时代所面临的技术挑战与创新。