客观题考点:
c++
:
1.DOM 的描述;
Document Object Model:文档对象模型,根据 W3C DOM 规范,DOM 是 HTML 与
XML 的应用编程接口(API), DOM 将整个页面映射为一个由层次节点组成的文件。
javascrip 里面的 dom(文档对象模型)它是一种模型,将格式化文档对象化处理。在
xml 和 html 的处理中广泛应用。>>//dom 是定义超文本结构的对象及方法,分层次的,有容
器类的对象,也有基本元素对象,而这些对象,都包含有相应的属性和对应的 操作方法
(接口)。
一般而言,DOM 结构准确地反映了 HTML 文档所包含的内容,也就是说,每个 HTML 标
记表现为一个标记节点(tag node),每个文本项内容表现为一个文本项节点( text
node)。 //是 W3C 组织推荐的处理可扩展置标语言的标准编程接口。
2.网络蜘蛛系统;
网络蜘蛛即 Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么
Spider 就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站
某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后
通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓
取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上
所有的网页都抓取下来。
对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据
来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原
因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的链接中
找到;另一个原因是存储技术和处理技术的问题,
在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先。广度优先是指
网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓
取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛
并行
处
理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接的跟踪
下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网
络蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会更加明确。
在网络蜘蛛机器人系统里面,真正起到指挥作用的是人工管理系统制定的规则和检索
索引数据库。它可以决定什么样的网站抓的勤一点,或者干脆不抓.
3.UTF-8;
UTF-8 是 UNICODE 的一种变长字符编码又称万国码。使用 UTF-8 编码唯一的好处是,
国外的用户如果使用 Windows XP 英文版,浏览 UTF-8 编码的任何网页,无论是中文、还
是日文、韩文、阿拉伯文,都可以正常显示,UTF-8 是世界通用的语言编码,UTF-8 的推
广 要归功于 Google 的应用,以及 Blog 开发者。而如果用 Windows XP 英文版的 IE6.0 浏览
gb2312 语言编码的网页,则会提示是否安装语言包。因此,可能会失去很多的国外浏览者。
使用 gb2312 编码的好处是,因为程序产生的网页文本使用 ANSI 编码格式,会比 UTF-8 文
本编码节省一些体积,访问速度会稍微快一点点,大约是 30:38 的比例,也就是 30K 的
ANSI 编码,转为 UTF-8 编码是 38K,当然,这个比例并不准确,是会随 Unicode 字符集区
域的不同而变化的。UTF-8(8 位元 Universal Character Set/Unicode Transformation Format)
是针对 Unicode 的一种可变长度字符编码。它可以用来表示 Unicode 标准中的任何字符,
评论6
最新资源