阿里巴巴面试大礼包（最近几年阿里巴巴笔试和面试题）资源-CSDN文库

共56个文件

tmp：30个

jpg：15个

doc：6个

阿里巴巴

5星 · 超过95%的资源需积分: 34 130 浏览量 2011-05-24 21:18:49 上传评论 6 收藏 2.89MB RAR 举报

资源详情

资源评论

收起资源包目录

阿里巴巴面试大礼包.rar （56个子文件）

阿里巴巴

高性能网络爬虫研究综述.pdf 552KB

~WRL2946.tmp 58KB

~WRL0364.tmp 42KB

~WRL3195.tmp 46KB

~WRL2079.tmp 68KB

~WRL1549.tmp 62KB

阿里巴巴2010.doc 66KB

~WRL3521.tmp 47KB

~WRL3030.tmp 62KB

阿里巴巴试卷

5.jpg 95KB

3.jpg 82KB

8.jpg 122KB

4.jpg 110KB

12.jpg 105KB

9.jpg 86KB

2.jpg 104KB

10.jpg 76KB

1.jpg 107KB

Thumbs.db 41KB

11.jpg 79KB

14.jpg 88KB

6.jpg 71KB

15.jpg 57KB

7.jpg 117KB

13.jpg 105KB

~WRL0583.tmp 61KB

阿里巴巴2010实习生笔试题.doc 24KB

~WRL3947.tmp 62KB

阿里巴巴2008笔试题统计.doc 71KB

~WRL3037.tmp 57KB

~WRL2745.tmp 41KB

阿里巴巴2011求职大礼包.pdf 913KB

~WRL0939.tmp 47KB

阿里巴巴笔试题-马尔科夫(HMM)的特征.doc 30KB

~WRL1878.tmp 53KB

~WRL2447.tmp 62KB

阿里巴巴职位信息.txt 480B

~WRL0191.tmp 69KB

~WRL2968.tmp 40KB

~WRL1677.tmp 42KB

chmod详解.txt 4KB

~WRL1218.tmp 70KB

~WRL3862.tmp 62KB

~WRL0295.tmp 45KB

~WRL0852.tmp 59KB

~WRL1632.tmp 49KB

~WRL1804.tmp 68KB

~WRL0002.tmp 34KB

~$巴巴2008笔试题统计.doc 162B

~WRL1657.tmp 42KB

~WRL3421.tmp 42KB

~WRL1958.tmp 49KB

~WRL1302.tmp 70KB

~WRL4063.tmp 55KB

阿里巴巴笔试记.doc 53KB

~WRL1046.tmp 58KB

客观题考点：

c++

：

1.DOM 的描述；

Document Object Model：文档对象模型，根据 W3C DOM 规范，DOM 是 HTML 与

XML 的应用编程接口（API）， DOM 将整个页面映射为一个由层次节点组成的文件。

javascrip 里面的 dom（文档对象模型）它是一种模型，将格式化文档对象化处理。在

xml 和 html 的处理中广泛应用。>>//dom 是定义超文本结构的对象及方法，分层次的，有容

器类的对象，也有基本元素对象，而这些对象，都包含有相应的属性和对应的操作方法

（接口）。

一般而言，DOM 结构准确地反映了 HTML 文档所包含的内容，也就是说，每个 HTML 标

记表现为一个标记节点（tag node），每个文本项内容表现为一个文本项节点（ text

node）。 //是 W3C 组织推荐的处理可扩展置标语言的标准编程接口。

2.网络蜘蛛系统；

网络蜘蛛即 Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么

Spider 就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站

某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后

通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓

取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上

所有的网页都抓取下来。

对于搜索引擎来说，要抓取互联网上所有的网页几乎是不可能的，从目前公布的数据

来看，容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原

因一方面是抓取技术的瓶颈，无法遍历所有的网页，有许多网页无法从其它网页的链接中

找到；另一个原因是存储技术和处理技术的问题，

在抓取网页的时候，网络蜘蛛一般有两种策略：广度优先和深度优先。广度优先是指

网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓

取在此网页中链接的所有网页。这是最常用的方式，因为这个方法可以让网络蜘蛛

并行

处

理，提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始，一个链接一个链接的跟踪

下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。这个方法有个优点是网

络蜘蛛在设计的时候比较容易。两种策略的区别，下图的说明会更加明确。

在网络蜘蛛机器人系统里面，真正起到指挥作用的是人工管理系统制定的规则和检索

索引数据库。它可以决定什么样的网站抓的勤一点，或者干脆不抓.

3.UTF-8；

UTF-8 是 UNICODE 的一种变长字符编码又称万国码。使用 UTF-8 编码唯一的好处是，

国外的用户如果使用 Windows XP 英文版，浏览 UTF-8 编码的任何网页，无论是中文、还

是日文、韩文、阿拉伯文，都可以正常显示，UTF-8 是世界通用的语言编码，UTF-8 的推

广要归功于 Google 的应用，以及 Blog 开发者。而如果用 Windows XP 英文版的 IE6.0 浏览

gb2312 语言编码的网页，则会提示是否安装语言包。因此，可能会失去很多的国外浏览者。

使用 gb2312 编码的好处是，因为程序产生的网页文本使用 ANSI 编码格式，会比 UTF-8 文

本编码节省一些体积，访问速度会稍微快一点点，大约是 30:38 的比例，也就是 30K 的

ANSI 编码，转为 UTF-8 编码是 38K，当然，这个比例并不准确，是会随 Unicode 字符集区

域的不同而变化的。UTF-8（8 位元 Universal Character Set/Unicode Transformation Format）

是针对 Unicode 的一种可变长度字符编码。它可以用来表示 Unicode 标准中的任何字符，

而且其编码中的第一个字节仍与 ASCII 相容，使得原来处理 ASCII 字符的软件无需或只作

少部份修改后，便可继续使用。因此，它逐渐成为电子邮件、网页及其他储存或传送文字

的应用中，优先采用的编码。>>UTF-8 编码提供了一种简便而向后兼容的方法, 使得那种完

全围绕 ASCII 设计的操作系统, 比如 Unix, 也可以使用 Unicode. UTF-8. UTF_8 字符集

　　UTF-8 是 UNICODE 的一种变长字符编码，由 Ken Thompson 于 1992 年创建。现

在已经标准化为 RFC 3629。UTF-8 用 1 到 6 个字节编码 UNICODE 字符。如果 UNICODE

字符由 2 个字节表示，则编码成 UTF-8 很可能需要 3 个字节，而如果 UNICODE 字符由 4

个字节表示，则编码成 UTF-8 可能需要 6 个字节。用 4 个或 6 个字节去编码一个 UNICODE

字符可能太多了，但很少会遇到那样的 UNICODE 字符

4.分布列（概率中的数学期望）

4.数据库检索：查准率和查全率；

查准率（精度）是衡量某一检索系统的信号噪声比的一种指标，即检出的相关文献与检出的全部文

献的百分比。普遍表示为：查准率=（检索出的相关信息量/检索出的信息总量）x100%，衡量信息

检索系统检出文献准确度的尺度。>>

查全率（召回率）是衡量某一检索系统从文献集合中检出相关文献成功度的一项指标，即检出的相

关文献与全部相关文献的百分比。普遍表示为：查全率=（检索出的相关信息量/系统中的相关信息

总量）x100%，衡量信息检索系统检出相关文献能力的尺度。>

关系：查全率与查准率为互逆相关性,查全率一般为 60%～70%,查准率约为 40%～50%,当查全率超过

70%时,若想再提高查全率就必然降低查准率。

5.索引压缩；

建立索引是搜索引擎核心技术之一，建立索引的目的是能够快速的响应用户的查询。搜索引擎

最常用的索引数据结构是倒排文档，倒排文档的原理其实相当简单。为什么要进行索引压缩？对索

引进行压缩有很多好处：比如可以减少索引占用的磁盘空间和内存；比如可以减少 I/O 读写量；>比

如可以查询响应速度加快；为了能够增加压缩效果，一般在进行压缩前先改写索引内容，首先把倒

排索引的数值按照大小排序，然后用差值而非实际值表示（d-gap)；这个是每个压缩算法开展前要

做的工作；目前的压缩方法可以分为固定长度的和变长压缩。

具体说是将索引编码（落实到机器中应该是 MD5 哈希值）以一种压缩的方式来表示，既利于

节省存储空间，又可以提高检索速度。其实，我觉得这个东西最大的好处还是节约“缓存空间”，提高

访问速度。采用索引压缩能够带来很多好处，所以实用的搜索引擎都会采用索引压缩技术，但是对

索引进行压缩也会带来问题，就是比不压缩需要更多的计算量.

6.cralwer 速度的影响；

搜索引擎的工作整体上可分为三个部分，在第一阶段，Crawler 开始“爬行”页面，获取最>原始

信息，Crawler 是一段小程序，它通过初始地址，访问页面，分析出页面内部包括的链接，将链接

传送给 Crawler 控制模块，Crawler 控制模块判断哪些链接对应的页面是下一步需要访问的，哪一

些是已经被访问过的，从而指示 Crawler 进行下一步“爬行”；另一方面，Crawler 将获取到>的 Web

页面传送到页面数据存储库（Page Repository）中，临时存储起来。第二阶段，索引器将库中存

储的页面进行解析，根据索引构建原则创建索引，并将索引存储到索引库中，另外，在一些基于页

面链接对页面进行排名的搜索引擎系统中，链接分析与页面排名的确定也在这个阶段完成。第三阶

段，检索引擎处理用户的搜索请求，找出相关页面文档，并根据页面排名高低，按顺序将结果返回

给用户。三个阶段并行协同工作，维持搜索引擎的正常运转

爬行器技术>：爬行器（Crawler，Spider）又叫“爬虫”、“蜘蛛”，工作在搜索引擎的最前端，

是搜索引擎中最关键的部分之一，它的性能好坏直接影响到搜索引擎对于页面信息的采集与更新。>

Internet 上的网页可以通过链接进行互访，这使得 Crawler 可以从初始 URL 出发，沿着链接导向，

遍历 Internet 上整体网页构成的连通>图。即使整体页面构成的图不是完全连通的，也可以将

Internet 上的页面集合看成是一个个连通的子图构成的，多个 Crawler 选择合理的起点，顺着>页

面链接进行爬行，也能遍历完整个图。考虑到网络上 Web 页面的数量非常庞大，设计一个性能良好

的爬行器需要考虑以下 4 个问题[10]：>1．应下载哪些页面？>在多数情况下，Crawler 并不下载

Web 上的所有页面，即使是最复杂的搜索引擎，其索引库中能检索到的页面也只占整个 Web 总页

面的一小部分。所以，Crawler 优先选择最“重要”的页面进行下载非常重要，以保证下载的部分更有

价值。>2．如何更新页面？一旦 Crawler 下载了大量的页面，它会周期性的访问原始页面地址，看

其是否是更新过的。Web 上的页面内容可能变化非常>快，Crawler 必须决定以不同的频率访问不

同的页面。

3．如何降低被爬行站点的负载？当 Crawler 获取页面时，需要消耗部分被访问服务器的资源，

同时也占用网络带宽，增加了网络负担。Cralwer 应使用相应的策略降低这些消耗，否则相应站点

将禁止 Cralwer 去访问其页面。>4．如何并行化爬行过程？>由于要爬行的页面数量非常大，一个

Crawler 在一定时间内，通常不能胜任爬行所有页面的能力，必须使用多个 Crawler 来完成这一工

作。因>此，Crawler 之间的并行协同工作显得非常重要。

针对 Crawler 工作任务的重要性及其工作量的巨大，许多搜索引擎采用了分布式 Crawler 技

术，但是如何将巨大的爬行任务均衡地分配给各个 Crawler 是分布式 WebCrawler 的关键问题之

一。目前许多 Crawler 系统都采用了集中式的任务分割策略。

7.信息熵量大小的影响；

8.Trie 算法的最差时间复杂度；

基于三数组 Trie 索引树原理的汉语词典查询机制,并用递归算法实现构词状态表的自动构建.

Trie 树是搜索树的一种，来自英文单词"Retrieval"的简写，可以建立有效的数据>检索组织结

构，是中文匹配分词算法中词典的一种常见实现。它本质上是一个确定的有限状态自动机

（DFA），每个节点代表自动机的一个状态。在词典中这此状>态包括＂词前缀＂，＂已成词＂等。

Trie 树就是字典树，其核心思想就是空间换时间.字典树有如下简单的性质：

(1) 根节点不包含字符信息；

(3) 一棵 m 度的 Trie 或者为空，或者由 m 棵 m 度的 Trie 组成。

搜索字典项目的方法为：

评论收藏

内容反馈

xiaoyuanyuan76

2013-10-10

值得借鉴的资源！！！！！！！

阿里巴巴面试大礼包（最近几年阿里巴巴笔试和面试题）

评论6

最新资源

阿里巴巴面试大礼包（最近几年阿里巴巴笔试和面试题）

评论6

最新资源

相关推荐

阿里巴巴校招笔试题目（安全工程师）

阿里巴巴Java笔试面试题.zip_面试资料下载

程序员面试笔试题集锦节选 题库内容都出自各大IT名企的最近几年校园招聘笔试题

阿里巴巴面试大礼包

阿里巴巴求职大礼包

2010年阿里巴巴求职大礼包

阿里巴巴2014求职大礼包

2013年IT面试之百度笔试面试大礼包

阿里巴巴历年笔试真题，面经求职大礼包

阿里巴巴2011校园招聘大礼包

求职大礼包-百度，阿里巴巴，中兴，网易等笔试题+各大IT公司的薪酬情况

阿里巴巴 2011 招聘大礼包

腾讯面试大礼包，面经、面试题等

阿里巴巴2012校园招聘大礼包

阿里巴巴2011求职大礼包

面试题大礼包 各类的总结

2012年阿里巴巴实习大礼包

阿里巴巴2010实习大礼包

笔试面试题大礼包，很多

阿里巴巴2013求职大礼包.pdf

名企求职笔试大礼包（几十套名企笔试试题）

Java 面经手册·小傅哥.pdf

解压后拖入浏览器扩展程序使用.zip

103套PPT模板.zip

Beyond Compare 免安装直接使用

notepad++.exe官网下载

Mars4_5.zip

QT自制精美Ui模板系列（一）桃子风格模板 - 二次开发专用

Postman9.12.2安装包

程序员面试笔试题集锦节选题库内容都出自各大IT名企的最近几年校园招聘笔试题

面试题大礼包各类的总结