为什么要使用集群架构？_服务器知识

分布式和集群其实就好像权限或者表的水平切割和垂直切割，集群是一种水平切割来分担压力的形式，分布式就好像一个垂直切割来分担压力一样。分布式必定包含集群。

一、为什么要集群？

1.JavaEE项目，如果部署在一台Tomcat上，所有的请求，都由这一台服务器处理，存在很大风险：

A：并发处理能力有限

（一般单台服务器处理的并发量为250左右，超过250，可能会出现数据丢失，链接不稳定的情况）。因为单服务器的性能有限制。所以单台Tomcat的最大连接数有限制，

B：容错率低，一旦服务器故障，整个服务就无法访问了。

eBay于 1999年6月停机22小时的事故，中断了约230万的拍卖，使eBay的股票下降了9.2个百分点。

C：单台服务器计算能力低，无法完成复杂的海量数据计算。

提高CPU主频和总线带宽是最初提供计算机性能的主要手段。但是这一手段对系统性能的提供是有限的。接着人们通过增加CPU个数和内存容量来提高性能，于是出现了向量机，对称多处理机(SMP)等。但是当CPU的个数超过某一阈值，这些多处理机系统的可扩展性就变的极差。主要瓶颈在于CPU访问内存的带宽并不能随着CPU个数的增加而有效增长。与SMP相反，集群系统的性能随着CPU个数的增加几乎是线性变化的。

使用集群架构完成工作主要有以下几点决定：

1、高性能计算

一些国家重要的计算密集型应用（如天气预报，核试验模拟等），需要计算机有很强的运算处理能力⌄以全世界现有的技术，即使是大型机器，其计算能力也是有限的，很难单独完成此任务。因为计算时间可能会相当长，也许几天，甚至几年或更久。因此，对于这类复杂的计算业务，便使用了计算机集群技术，集中几十上百台，甚至成千上万台计算机进行计算。

2、价格有效性

早期的淘宝，支付宝的数据库等核心系统就是使用上百万元的小型机服务器。后因使用维护成本太高以及扩展设备费用成几何级数翻倍，甚至成为扩展瓶颈，人员维护也十分困难，最终使用PC服务器集群替换之，比如，把数据库系统从小机结合Oracle数据库迁移到MySQL开源数据库结合PC服务器上来。不但成本下降了，扩展和维护也更容易了。

3、可伸缩性

当服务负载，压力增长时，针对集群系统进行较简单的扩展即可满足需求，且不会降低服务质量。

通常情况下，硬件设备若想扩展性能，不得不增加新的CPU和存储器设备，如果加不上去了，就不得不购买更高性能的服务器，就拿我们现在的服务器来讲，可以增加的设备总是有限的。如果采用集群技术，则只需要将新的单个服务器加入现有集群架构中即可，从访问的客户角度来看，系统服务无论是连续性还是性能上都几乎没有变化，系统在不知不觉中完成了升级，加大了访问能力，轻松地实现了扩展。集群系统中的节点数目可以增长到几千乃至上万个，其伸缩性远超过单台超级计算机。

4、高可用性

单一的计算机系统总会面临设备损毁的问题，如CPU，内存，主板，电源，硬盘等，只要一个部件坏掉，这个计算机系统就可能会宕机，无法正常提供服务。在集群系统中，尽管部分硬件和软件还是会发生故障，但整个系统的服务可以是7*24小时可用的。

集群架构技术可以使得系统在若干硬件设备故障发生时仍可以继续工作，这样就将系统的停机时间减少到了最小。集群系统在提高系统可靠性的同时，也大大减小了系统故障带来的业务损失，目前几乎100%的互联网网站都要求7*24小时提供服务。

5、透明性

多个独立计算机组成的松耦合集群系统构成一个虚拟服务器。用户或客户端程序访问集群系统时，就像访问一台高性能，高可用的服务器一样，集群中一部分服务器的上线，下线不会中断整个系统服务，这对用户也是透明的。

6、可管理性

整个系统可能在物理上很大，但其实容易管理，就像管理一个单一映像系统一样。在理想状况下，软硬件模块的插入能做到即插即用。

7、可编程性

在集群系统上，容易开发及修改各类应用程序。

蓝海大脑水冷工作站超融合架构承担着计算资源池和分布式存储资源池的作用，极大地简化了数据中心的基础架构，通过软件定义的计算资源虚拟化和分布式存储架构实现无单点故障、无单点瓶颈、弹性扩展、性能线性增长等能力。通过简单方便的统一管理界面，实现对数据中心计算、存储、网络、虚拟化等资源的统一监控、管理和运维。

型号蓝海大脑水冷服务器

英特尔

处理器 Intel Xeon Gold 6240R 24C/48T,2.4GHz,35.75MB,DDR4 2933,Turbo,HT,165W.1TB

Intel Xeon Gold 6258R 28C/56T,2.7GHz,38.55MB,DDR4 2933,Turbo,HT,205W.1TB

Intel Xeon W-3265 24C/48T 2.7GHz 33MB 205W DDR4 2933 1TB

Intel Xeon Platinum 8280 28C/56T 2.7GHz 38.5MB,DDR4 2933,Turbo,HT 205W 1TB

Intel Xeon Platinum 9242 48C/96T 3.8GHz 71.5MB L2,DDR4 3200,HT 350W 1TB

Intel Xeon Platinum 9282 56C/112T 3.8GHz 71.5MB L2,DDR4 3200,HT 400W 1TB

AMD

处理器 AMD锐龙Threadripper Pro 3945WX 4.0GHz/12核/64M/3200/280W

AMD锐龙Threadripper Pro 3955WX 3.9GHz/16核/64M/3200/280W

AMD锐龙Threadripper Pro 3975WX 3.5GHz/32核/128M/3200/280W

AMD锐龙Threadripper Pro 3995WX 2.7GHz/64核/256M/3200/280W

AMD锐龙Threadripper Pro 5945WX 4.1G 12核/64M/3200/280W

AMD锐龙Threadripper Pro 5955WX 4.0G 16核/64M/3200/280W

AMD锐龙Threadripper Pro 5965WX 3.8G 24核/128M/3200/280W

AMD锐龙Threadripper Pro 5975WX 3.6G 32核/128M/3200/280W

AMD锐龙Threadripper Pro 5995WX 2.7G 64核/256M/3200/280W

显卡 NVIDIA A100×4, NVIDIA GV100×4

NVIDIA RTX 3090×4, NVIDIA RTX 3090TI×4,

NVIDIA RTX 8000×4, NVIDIA RTX A6000×4,

NVIDIA Quadro P2000×4,NVIDIA Quadro P2200×4

硬盘 NVMe.2 SSD: 512GB，1TB； M.2 PCIe - Solid State Drive (SSD),

SATA SSD: 1024TB, 2048TB, 5120TB

SAS:10000rpm&15000rpm,600GB,1.2TGB,1.8TB

HDD : 1TB，2TB,4TB,6TB,10TB

外形规格立式机箱

210尺寸mm（高*深*宽) : 726 x 616 x 266

210A尺寸mm（高*深*宽) : 666 x 626 x 290

210B尺寸mm（高*深*宽) : 697 x 692 x 306

声卡：7.1通道田声卡

机柜安装 : 前置机柜面板或倒轨（可选）

电源功率 : 1300W×22000W×1

软件环境可预装 CUDA、Driver、Cudnn、NCCL、TensorRT、Python、Opencv 等底层加速库、选装 Tensorflow、Caffe、Pytorch、MXnet 等深度学习框架。

前置接口 USB3.2 GEN2 Type-C×4

指承灯电和硬盘LED

灵动扩展区 : 29合1读卡器，eSATA，1394，PCIe接口（可选）

读卡器 : 9合1SD读卡器（可选）

模拟音频 : 立体声、麦克风

后置接口 PS2接口 : 可选

串行接口 : 可选

USB3.2 GEN2 Type-C×2

网络接口 : 双万兆 (RJ45)

IEEE 1394 : 扩展卡口

模拟音频 : 集成声卡 3口

连接线专用屏蔽电缆（信号电缆和电源电缆）

资料袋使用手册、光盘1张、机械键盘、鼠标、装箱单、产品合格证等

出现任何故障，如：硬盘、内存、CPU、主板、I/O板以及电源故障，运行在这台服务器上的应用就会切换到其它的服务器上。

二、集群系统可解决软件系统问题，我们知道，在计算机系统中，用户所使用的是应用程序和数据，而应用系统运行在操作系统之上，操作系统又运行在服务器上。这样，只要应用系统、操作系统、服务器三者中的任何一个出现故障，系统实际上就停止了向客户端提供服务，比如我们常见的软件死机，就是这种情况之一，尽管服务器硬件完好，但服务器仍旧不能向客户端提供服务。而集群的最大优势在于对故障服务器的监控是基于应用的，也就是说，只要服务器的应用停止运行，其它的相关服务器就会接管这个应用，而不必理会应用停止运行的原因是什么。

三、集群系统可以解决人为失误造成的应用系统停止工作的情况，例如，当管理员对某台服务器操作不当导致该服务器停机，因此运行在这台服务器上的应用系统也就停止了运行。由于集群是对应用进行监控，因此其它的相关服务器就会接管这个应用。

集群系统的不足之处在于：

我们知道集群中的应用只在一台服务器上运行，如果这个应用出现故障，其它的某台服务器会重新启动这个应用，接管位于共享磁盘柜上的数据区，进而使应用重新正常运转。我们知道整个应用的接管过程大体需要三个步骤：侦测并确认故障、后备服务器重新启动该应用、接管共享的数据区。因此在切换的过程中需要花费一定的时间，原则上根据应用的大小不同切换的时间也会不同，越大的应用切换的时间越长。

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/626061.html

为什么要使用集群架构？

发表评论

评论列表（0条）