SlideShare a Scribd company logo
了解集群

核心系统数据库组 余锋
  http://yufeng.info
     @淘宝褚霸
     2012-10-10
集群初感

Cloud = "CPU + Storage + Queues + Management"
            -The Amazon Web Services says essentially




                                                    2
集群类型

    • 同构与异构
        – 区别在于组成集群系统的计算机之间的体系结构是否
          相同
    • 按功能和结构划分
        –   高可用性集群 High-availability (HA) clusters
        –   负载均衡集群 Load balancing clusters
        –   高性能计算集群 High-performance (HPC) clusters
        –   网格计算 Grid computing



                                                                                3
来源:http://zh.wikipedia.org/wiki/%E8%AE%A1%E7%AE%97%E6%9C%BA%E9%9B%86%E7%BE%A4
集群典型例子

•   WEB服务器
•   聊天服务器
•   存储服务器
•   云计算平台




                      4
集群层次

• 通过层次消化复杂性,层越靠后业务越单纯
• 前端状态尽可能的推到后一层
• 后端功能单一、结构简单,性能和可靠性容易做
  到极致
• 性能不够,通常可引入cache层解决
• 三层是个好的选择




                          5
集群服务

•   不中断服务(公路的例子)
•   容量规划(高速公路5车道例子)
•   预警机制 (依据是什么)
•   流量调度/排队机制( 国庆高速公路不发卡例子)
•   降级服务 (高速绕行国道例子)




                              6
集群并发活动




         7
集群规模

•   再小的事情乘以13亿人口都不是小事情
•   避免群体事件
•   配置管理
•   资源池调度




                         8
集群保障关键技术

• 流量切割
 – 4层和7层
• 角色分工明确
• 名称服务
 – 引入间接层
 – 其他服务如全局锁的基础
• 数据冗余
• 故障隔离/恢复


                       9
集群可扩展性

•   scale out 还是 scale up
•   按照现实社会建模
•   分而治之
•   数据复制方式
    – 强同步
    – replica




                             10
单点问题

• 逻辑单点
 – 单一视图简化系统模型
• 物理单点
 – 潜在风险点,尽量消除
 – 候补队员




                       11
集群通讯

• 网络通信问题
 – 丢包延时/带宽问题
 – 可靠通信
 – 防火墙友好
• 消息队列(MQ)
• 网络风暴




                      12
集群开发

•   系统实现足够简单清晰
•   开发效率/运行效率/维护效率方面的考虑
•   平台和工具方面的考虑
•   高并发带来的风险




                          13
技术选择

• 采用成熟主流的技术
 – Massive adoption leads to massive investment.
 – Massive investment leads to better tools,
   better and faster VMs.
• 复用工业强度的部件,避免造轮子




                                                   14
稳定性和容灾

• 高可用,为失效设计
  – 硬件/软件都会失效
  – 节点自我保护(拒绝服务/服务降级)
  – 处处维稳 (非典期间人员监控的例子)
• watchdog/heartbeat系统
• failover/takeover机制




                           15
可维护性

•   系统健康检查
•   双集群保证平滑切换(公路修理例子)
•   系统升级/热部署
•   节点添加/退出




                        16
问题定位

• 为诊断而开发
• 日志/收集分析融入到集群
 – 信息尽可能的能自描述所做的事情
• 监控系统
 – snmp协议/web portal
 – 图形说话
• 主动诊断工具
 – 系统环境随着时间在变化
• 事后审计(超速例子)
                              17
提问时间




谢谢大家!


         18

More Related Content

PPT
低成本和高性能MySQL云架构探索
PPTX
了解应用服务器
PPTX
我为什么要选择RabbitMQ
PPTX
Erlang开发实践
PPT
淘宝商品库MySQL优化实践
PPTX
Erlang分布式系统的的领域语言
PPT
高级服务器设计和实现3
PPT
高级服务器设计和实现2
低成本和高性能MySQL云架构探索
了解应用服务器
我为什么要选择RabbitMQ
Erlang开发实践
淘宝商品库MySQL优化实践
Erlang分布式系统的的领域语言
高级服务器设计和实现3
高级服务器设计和实现2

What's hot (20)

PPTX
MySQL和IO(下)
PPTX
Flash存储设备在淘宝的应用实践
PPTX
利用新硬件提升数据库性能
PPTX
“云存储系统”赏析系列分享三:Sql与nosql
PPT
SSD在淘宝的应用实践
PPT
C1000K高性能服务器构建技术
PDF
美团点评技术沙龙010-点评RDS系统介绍
PDF
淘宝软件基础设施构建实践
PDF
豆瓣网技术架构变迁
PPTX
高性能队列Fqueue的设计和使用实践
PDF
美团点评技术沙龙14:美团云对象存储系统
PDF
网站存储经验谈pdf
PDF
新浪微博Feed服务架构
PDF
大型系统的缓存标准化之路—从主从多级重client到一体化
PDF
美团技术沙龙04 - Kv Tair best practise
PPTX
MySQL压力测试经验
PDF
众行业公司系统架构案例介绍
PPTX
了解内存
PPTX
Memcached vs redis
PPT
新浪微博分布式缓存与队列-2013版
MySQL和IO(下)
Flash存储设备在淘宝的应用实践
利用新硬件提升数据库性能
“云存储系统”赏析系列分享三:Sql与nosql
SSD在淘宝的应用实践
C1000K高性能服务器构建技术
美团点评技术沙龙010-点评RDS系统介绍
淘宝软件基础设施构建实践
豆瓣网技术架构变迁
高性能队列Fqueue的设计和使用实践
美团点评技术沙龙14:美团云对象存储系统
网站存储经验谈pdf
新浪微博Feed服务架构
大型系统的缓存标准化之路—从主从多级重client到一体化
美团技术沙龙04 - Kv Tair best practise
MySQL压力测试经验
众行业公司系统架构案例介绍
了解内存
Memcached vs redis
新浪微博分布式缓存与队列-2013版
Ad

Viewers also liked (7)

PPTX
高性能集群服务器(Erlang解决方案)
PPTX
了解网络
DOCX
mnesia脑裂问题综述
PPT
MySQL和IO(上)
PPTX
了解IO设备
PPTX
了解IO协议栈
PPTX
Rethink db&tokudb调研测试报告
高性能集群服务器(Erlang解决方案)
了解网络
mnesia脑裂问题综述
MySQL和IO(上)
了解IO设备
了解IO协议栈
Rethink db&tokudb调研测试报告
Ad

Similar to 了解集群 (20)

PDF
周敏奇:Cliaims—集群感知的内存计算系统
PDF
大规模高性能计算集群优化.pdf
PDF
Zh tw introduction_to_cloud_computing
PDF
新时代的分析型云数据库 Greenplum
PPT
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
PDF
Qcon2013 罗李 - hadoop在阿里
PPTX
Nosql三步曲
PDF
微博平台混合云实践 - Docker全架构
PDF
基于 MySQL 的B2C电商系统前端数据层架构
PDF
李战怀:大数据背景下分布式系统的数据一致性策略
PDF
Greenplum技术
PPTX
分布式缓存与队列
PDF
mercury
PDF
淘宝主备数据库自动切换
PPTX
大型电商的数据服务的要点和难点
PDF
Hadoop大数据实践经验
KEY
新浪微博平台与安全架构
PDF
阿里云技术实践
PPT
构建可扩展的微博系统
PPT
java title
周敏奇:Cliaims—集群感知的内存计算系统
大规模高性能计算集群优化.pdf
Zh tw introduction_to_cloud_computing
新时代的分析型云数据库 Greenplum
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
Qcon2013 罗李 - hadoop在阿里
Nosql三步曲
微博平台混合云实践 - Docker全架构
基于 MySQL 的B2C电商系统前端数据层架构
李战怀:大数据背景下分布式系统的数据一致性策略
Greenplum技术
分布式缓存与队列
mercury
淘宝主备数据库自动切换
大型电商的数据服务的要点和难点
Hadoop大数据实践经验
新浪微博平台与安全架构
阿里云技术实践
构建可扩展的微博系统
java title

More from Feng Yu (11)

PPTX
Cpu高效编程技术
PPTX
了解Cpu
PPT
开源混合存储方案(Flashcache)
PPT
Erlang low cost_clound_computing
PPT
Systemtap
PDF
Oprofile linux
PDF
PPT
Erlang全接触
PPT
Tsung 压力测试工具
PDF
Inside Erlang Vm II
DOC
Go Lang
Cpu高效编程技术
了解Cpu
开源混合存储方案(Flashcache)
Erlang low cost_clound_computing
Systemtap
Oprofile linux
Erlang全接触
Tsung 压力测试工具
Inside Erlang Vm II
Go Lang

了解集群