下载频道  >  hyy80688的资源
  • GFS(Google File System)架构

    GFS的架构,体现了很多经典的设计实践: • 简化系统角色,单点master降低系统复杂度 • 不管是文件还是服务,均通过“冗余+故障自动转移”保证高可用 • 由于存在单点master,GFS将“降低与单点master的交互”作为性能优化核心 • 通过写日志,原子修改,checksum,快速监控快速恢复等方式保证可靠性与完整性 • 通过串行化保证多个副本数据的一致性 • 控制流与数据流分离,提高性能

    2019-02-27
    50
  • 集合合并与查找-并查集

    分离集合(disjoint set)是一种经典的数据结构,它有三类操作: Make-set(a):生成包含一个元素a的集合S; Union(X, Y):合并两个集合X和Y; Find-set(a):查找元素a所在集合S,即通过元素找集合句柄;

    2019-02-27
    10
  • 内容反爬技术解析

    爬虫是一种按照某种特定的规则,自动抓取万维网信息的程序或者脚本。反爬虫是运用各种技术阻止爬虫抓取数据的同时还能让正常用户获取数据。随着爬虫技术进步,程序很难能完全分辨出请求者是否为爬虫,由此反爬虫技术衍生出了一个新的分支---内容反爬。

    2019-02-27
    50
  • “反向代理层”不能替代“DNS轮询”

    (1) 接入层架构要考虑的问题域为:高可用、扩展性、反向代理、负载均衡; (2) Nginx、keepalived、lvs、f5可以很好的解决高可用、扩展性、反向代理、负载均衡的问题; (3) 水平扩展scale out是解决扩展性问题的根本方案,DNS轮询是不能完全被Nginx/lvs/f5所替代的;

    2019-02-27
    14
  • 磁盘满了,为啥du却显示还有很大空间

    • du:disk usage • df:disk free • lsof:list open files • echo "" > access.log

    2019-02-27
    10
  • 点评网的反爬

    点评网对数字做了处理,一些数字的信息像评论条数、人均、评分等都做了反爬保护。上面的网页中评论条数是1405条,但在页面源码中,除了第一个数字1以外,后面的数字我们看不到,都是一些像随机编码一样的css class。

    2019-02-27
    9
  • Google MapReduce(四)

    MapReduce离线业务的特点是: • 吞吐量比较小,同时发起的任务比较少 • 每个任务,处理的数据量非常大 • 用户对处理时延容忍性大 这类业务,使用“固定数据,移动CPU”的分层架构是合理的。

    2019-02-27
    5
  • Google MapReduce(三)

    Google MapReduce架构,提现了很多经典架构实践: • 单点master简化系统复杂度 • 单点master不高可用,简化系统复杂度 • master对worker的监控以及重启,保证worker高可用 • 幂等性,保证结果的正确性 • 多个worker执行同一个任务优化长尾问题

    2019-02-27
    5
  • Google MapReduce(二)

    Google MapReduce实施了一系列的优化。 • 分区函数:保证不同map输出的相同key,落到同一个reduce里 • 合并函数:在map结束时,对相同key的多个输出做本地合并,节省总体资源 • 输入文件到map如何切分:随意,切分均匀就行

    2019-02-27
    7
  • Google MapReduce(一)

    • 并行计算 • 数据分发 • 错误处理 • 集群通讯 • … 这些综合到一起,就成为了一个困难的问题,这也是Google MapReduce工程架构要解决的问题

    2019-02-27
    6
关注 私信 TA的资源