大型网站技术面试知识点资源-CSDN文库

共21个文件

doc：21个

大型网站

架构设计

需积分: 3 29 浏览量 2024-09-29 15:25:06 上传评论收藏 1.27MB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

大型网站技术面试知识点.rar （21个子文件）

关于大型网站技术演进的思考系列文章摘自博客园

06关于大型网站技术演进的思考（六）--存储的瓶颈（6）.doc 40KB

10关于大型网站技术演进的思考（十）--网站静态化处理—动静整合方案（2）.doc 157KB

12关于大型网站技术演进的思考（十二）--网站静态化处理—缓存（4）.doc 183KB

19关于大型网站技术演进的思考（十九）--网站静态化处理—web前端优化—上（11）.doc 121KB

17关于大型网站技术演进的思考（十七）--网站静态化处理—满足静态化的前后端分离（9）.doc 32KB

11关于大型网站技术演进的思考（十一）--网站静态化处理—动静分离策略（3）.doc 32KB

07关于大型网站技术演进的思考（七）--存储的瓶颈（7）.doc 512KB

15关于大型网站技术演进的思考（十五）--网站静态化处理—前后端分离—中（7）.doc 40KB

09关于大型网站技术演进的思考（九）--网站静态化处理--总述（1）.doc 33KB

02关于大型网站技术演进的思考（二）--存储的瓶颈（中）.doc 34KB

21关于大型网站技术演进的思考（二十一）--网站静态化处理—web前端优化—下【终篇】（13）.doc 41KB

03关于大型网站技术演进的思考（三）--存储的瓶颈（3）.doc 38KB

18关于大型网站技术演进的思考（十八）--网站静态化处理—反向代理（10）.doc 47KB

16关于大型网站技术演进的思考（十六）--网站静态化处理—前后端分离—下（8）.doc 37KB

20关于大型网站技术演进的思考（二十）--网站静态化处理—web前端优化—中（12）.doc 125KB

14关于大型网站技术演进的思考（十四）--网站静态化处理—前后端分离—上（6）.doc 39KB

04关于大型网站技术演进的思考（四）--存储的瓶颈（4）.doc 52KB

08关于大型网站技术演进的思考（八）--存储的瓶颈终篇（8）.doc 96KB

13关于大型网站技术演进的思考（十三）--网站静态化处理—CSI（5）.doc 55KB

01关于大型网站技术演进的思考（一）--存储的瓶颈（上）.doc 159KB

05关于大型网站技术演进的思考（五）--存储的瓶颈（5）.doc 41KB

关于大型网站技术演进的思考（七）--存储的瓶颈（7）

本文开篇提个问题给大家，关系数据库的瓶颈有哪些？我想有些朋友看到这个问题肯定会说出自己平时开发中碰

到了一个跟数据库有关的什么什么问题，然后如何解决的等等，这样的答案没问题，但是却没有代表性，如果出

现了一个新的存储瓶颈问题，你在那个场景的处理经验可以套用在这个新问题上吗？这个真的很难说。

　　其实不管什么样的问题场景最后解决它都要落实到数据库的话，那么这个问题场景一定是击中了数据库的某

个痛点，那么我前面的六篇文章里那些手段到底是在解决数据库的那些痛点，下面我总结下，具体如下：

　　痛点一：数据库的连接数不够用了。换句话说就是在同一个时间内，要求和数据库建立连接的请求超出了数

据库所允许的最大连接数，如果我们对超出的连接数没有进行有效的控制让它们直接落到了数据库上，那么就有

可能会让数据库不堪重负，那么我们就得要分散这些连接，或者让请求排队。

　　痛点二：对于数据库表的操作无非两种一种是写操作，一种是读操作，在现实场景下很难出现读写都成问题

的事情，往往是其中一种表的操作出现了瓶颈问题所引起的，由于读和写都是操作同一个介质，这就导致如果我

们不对介质进行拆分去单独解决读的问题或者写的问题会让问题变的复杂化，最后很难从根本上解决问题。

　　痛点三：实时计算和海量数据的矛盾。本系列讲存储瓶颈问题其实有一个范畴的，那就是本系列讲到的手段

都是在使用关系数据库来完成实时计算的业务场景，而现实中，数据库里表的数据都会随着时间推移而不断增长，

当表的数据超出了一定规模后，受制于计算机硬盘、内存以及 CPU 本身的能力，我们很难完成对这些数据的实

时处理，因此我们就必须要采取新的手段解决这些问题。

　　我今天之所以总结下这三个痛点，主要是为了告诉大家当我们面对存储瓶颈问题时候，我们要把问题最终落

实到这个问题到底是因为触碰到了数据库的那些痛点，这样回过头来再看我前面说到的技术手段，我就会知道该

用什么手段来解决问题了。

　　好了，多余的话就说到这里，下面开始本篇的主要内容了。首先给大伙看一张有趣的漫画，如下图所示：

　　身为程序员的我看到这个漫画感到很沮丧，因为我们被机器打败了。但是这个漫画同时提醒了做软件的程序

员，软件的性能其实和硬件有着不可分割的关系，也许我们碰到的存储问题不一定是由我们的程序产生的，而是

因为好的炮弹装进了一个老旧过时的大炮里，最后当然我们会感到炮弹的威力没有达到我们的预期。除此之外了，

也有可能我们的程序设计本身没有有效的利用好已有的资源，所以在前文里我提到如果我们知道存储的瓶颈问题

将会是网站首先发生问题的地方，那么在数据库建模时候我们要尽量减轻数据库的计算功能，只保留数据库最基

本的计算功能，而复杂的计算功能交由数据访问层完成，这其实是为解决瓶颈问题打下了一个良好的基础。最后

我想强调一点，作为软件工程师经常会不自觉地忽视硬件对程序性能的影响，因此在设计方案时候考察下硬件和

问题场景的关系或许能开拓我们解决问题的思路。

　　上面的问题按本篇开篇的痛点总结的思路总结下的话，那么就是如下：

　　痛点四：当数据库所在服务器的硬件有很大提升时候，我们可以优先考虑是否可以通过提升硬件性能的手段

来提升数据库的性能。

　　在本系列的第一篇里，我讲到根据 http 无状态的特点，我们可以通过剥离 web 服务器的状态性主要是

session 的功能，那么当网站负载增大我们可以通过增加 web 服务器的方式扩容网站的并发能力。其实不管是读

写分离方案，垂直拆分方案还是水平拆分方案细细体会下，它们也跟水平扩展 web 服务的方式有类似之处，这

个类似之处也就是通过增加新的服务来扩展整个存储的性能，那么新的问题来了，前面的三种解决存储瓶颈的方

案也能做到像 web 服务那样的水平扩展吗？换句话说，当方案执行一段时间后，又出现了瓶颈问题，我们可以

通过增加服务器就能解决新的问题吗？

　　要回答清楚这个问题，我们首先要详细分析下 web 服务的水平扩展原理，web 服务的水平扩展是基于 http

协议的无状态，http 的无状态是指不同的 http 请求之间不存在任何关联关系，因此如果后台有多个 web 服务处

理 http 请求，每个 web 服务器都部署相同的 web 服务，那么不管那个 web 服务处理 http 请求，结果都是等

价的。这个原理如果平移到数据库，那么就是每个数据库操作落到任意一台数据库服务器都是等价的，那么这个

等价就要求每个不同的物理数据库都得存储相同的数据，这么一来就没法解决读写失衡，解决海量数据的问题了，

当然这样做看起来似乎可以解决连接数的问题，但是面对写操作就麻烦了，因为写数据时候我们必须保证两个数

据库的数据同步问题，这就把问题变复杂了，所以 web 服务的水平扩展是不适用于数据库的。这也变相说明，

分库分表的数据库本身就拥有很强的状态性。

　　不过 web 服务的水平扩展还代表一个思想，那就是当业务操作超出了单机服务器的处理能力，那么我们可

以通过增加服务器的方式水平拓展整个 web 服务器的处理能力，这个思想放到数据库而言，肯定是适用的。那

么我们就可以定义下数据库的水平扩展，具体如下：

　　数据库的水平扩展是指通过增加服务器的方式提升整个存储层的性能。

　　数据库的读写分离方案，垂直拆分方案还有水平拆分方案其实都是以表为单位进行的，假如我们把数据库的

表作为一个操作原子，读写分离方案和垂直拆分方案都没有打破表的原子性，并且都是以表为着力点进行，因此

如果我们增加服务器来扩容这些方案的性能，肯定会触碰表原子性的红线，那么这个方案也就演变成了水平拆分

方案了，由此我们可以得出一个结论：

　　数据库的水平扩展基本都是基于水平拆分进行的，也就是说数据库的水平扩展是在数据库水平拆分后再进行

一次水平拆分，水平扩展的次数也就代表的水平拆分迭代的次数。因此要谈好数据库的水平扩展问题，我们首先

要更加细致的分析下水平拆分的方案，当然这里所说的水平拆分方案指的是狭义的水平拆分。

　　数据库的水平扩展其实就是让被水平拆分的表的数据跟进一步的分散，而数据的离散规则是由水平拆分的主

键设计方案所决定的，在前文里我推崇了一个使用 sequence 及自增列的方案，当时我给出了两种实现手段，一

种是通过设置不同的起始数和相同的步长，这样来拆分数据的分布，另一种是通过估算每台服务器的存储承载能

力，通过设定自增的起始值和最大值来拆分数据，我当时说到方案一我们可以通过设置不同步长的间隔，这样我

们为我们之后的水平扩展带来便利，方案二起始也可以设定新的起始值也来完成水平扩展，但是不管哪个方案进

行水平扩展后，有个新问题我们不得不去面对，那就是数据分配的不均衡，因为原有的服务器会有历史数据的负

担问题。而在我谈到狭义水平拆分时候，数据分配的均匀问题曾被我作为水平技术拆分的优点，但是到了扩展就

出现了数据分配的不均衡了，数据的不均衡会造成系统计算资源利用率混乱，更要命的是它还会影响到上层的计

算操作，例如海量数据的排序查询，因为数据分配不均衡，那么局部排序的偏差会变得更大。解决这个问题的手

段只有一个，那就是对数据根据平均原则重新分布，这就得进行大规模的数据迁移了，由此可见，除非我们觉得

数据是否分布均匀对业务影响不大，不需要调整数据分布，那么这个水平扩展还是很有效果，但是如果业务系统

不能容忍数据分布的不均衡，那么我们的水平扩展就相当于重新做了一遍水平拆分，那是相当的麻烦。其实这些

还不是最要命的，如果一个系统后台数据库要做水平扩展，水平扩展后又要做数据迁移，这个扩展的表还是一个

核心业务表，那么方案上线时候必然导致数据库停止服务一段时间。

　　数据库的水平扩展本质上就是水平拆分的迭代操作，换句话说水平扩展就是在已经进行了水平拆分后再拆分

一次，扩展的主要问题就是新的水平拆分是否能继承前一次的水平拆分，从而实现只做少量的修改就能达到我们

的业务需求，那么我们如果想解决这个问题就得回到问题的源头，我们的前一次水平拆分是否能良好的支持后续

的水平拆分，那么为了做到这点我们到底要注意哪些问题呢？我个人认为应该主要注意两个问题，它们分别是：

水平扩展和数据迁移的关系问题以及排序的问题。

　　问题一：水平扩展和数据迁移的关系问题。在我上边的例子里，我们所做的水平拆分的主键设计方案都是基

于一个平均的原则进行的，如果新的服务器加入后就会破坏数据平均分配的原则，为了保证数据分布的均匀我们

就不能不将数据做相应的迁移。这个问题推而广之，就算我们水平拆分没有过分强调平均原则，或者使用其他维

度来分割数据，如果这个维度在水平扩展时候和原库原表有关联关系，那么结果都有可能导致数据的迁移问题，

因为水平扩展是很容易产生数据迁移问题。

评论收藏

内容反馈

天涯学馆

粉丝: 2693
资源: 440

大型网站技术面试知识点

2021Java高级架构面试知识点整理V1.0

Java面试知识点Java面试知识点

大型机面试大全

高级Java面试知识点

JAVA高级面试常问知识点总结

校招Java面试常见知识点

知识图谱,面试大纲,可以学习使用

CS-Notes.zip包含计算机技术面试必备的基础知识

JAVA核心面试知识梳理大全.pdf

面试知识点总结--流行的框架与新技术.pdf

面试知识点总结--XML.pdf

计算机操作系统面试知识点整理.doc

面试知识点总结--JSP与Servlet.pdf

JAVA面试题及知识点整理

JAVA核心面试知识整理【书签完整】【高清可复制】

C# 技术面试 宝典

EMC 面试题 笔试题 面试经验 知识树

大型公司程序员面试题

腾讯技术类、非技术类面试经10篇,实习面试。

CS-Notes基础上的学习笔记。Tech Interview Guide 技术面试必备基础知识.zip

Mysql、Python、Django、Flask面试笔记大全

《程序员面试宝典》程序员面试必备

Python-技术面试需要掌握的基础知识整理

大型机,主机面试宝典

ASP面试-数通知识点整理.doc

全国大型公司软件面试笔试资料

Notepad++安装包

安卓期末大作业（AndroidStudio开发），垃圾分类助手app，分为前台后台，代码有注释，均能正常运行

最新资源

C# 技术面试宝典

EMC 面试题笔试题面试经验知识树