一、冗余的电源供应
站长需要确保选用的香港机房拥有冗余的电源供应,包括企业级不间断电源、定期检测的备用发电机等。尽管停电可能只会偶尔发生,但是选择到香港机房如果不具备没有冗余电力,这可能导致租用的香港服务器因短时间电力难以恢复的问题而导致网站业务持续中断。因此选择香港机房很重要,精心设计的电力系统会解决本地电源故障、电压变化以及短期和长期停电问题。
二、服务器硬件冗余
硬件非常重要。香港服务器中的硬件设备和网络硬件都应该是以冗余的方式构建。如果您选择的服务商和数据中心足够负责,这些设施都应具备。其中,香港服务器租用,通常都接入多条国际线路,以BGP智能切换最佳路由,保障网络冗余,顺便一提,葵芳的香港服务器租用,已接入中国电信CN2专线直达香港,大陆访问更快更稳定。关于服务器硬件的冗余,一般需要客户付费部署RAID磁盘阵列,可提供更高的数据可靠性。
三、保持软件最新版本和补丁更新
香港服务器中软件需要保持更新,尤其是与安全相关的软件。毕竟,大量的服务中断是由应用程序故障引起的,例如弹性负载平衡软件故障等。而且,未及时更新版本和安全补丁,容易被黑客入侵进而导致更严重的损害。
四、服务器硬件故障监控
针对硬件设施提供密切的监控是不可缺少的。站长应当随时保持对服务器硬件和软件的密切关注,并确保有一个系统可以在突发故障时即时提醒您。当然,可靠的香港服务器租用服务商一定会部署这样的实时监控系统。因此站长在选择香港服务器租用时应当确认服务商是否具备这样的部署。
五、降低人为操作的失误率
在引发在线业务停滞的事件中,大多数情况不是由服务器或者数据中心引起的,而是应用程序故障、系统缺陷以及人为错误操作导致的。因此,站长就需要尽可能提升服务器管理水平或者请专业人士来管理服务器。
1、双重文件分配表和目录表技术。
硬盘上的文件分配表和目录表存放着文件在硬盘上的位置和文件大小等信息,如果它们出现故障,数据就会丢失或误存到其他文件中。通过提供两份同样的文件分配表和目录表,把它们存放在不同的位置,一旦某份出现故障,系统将做出提示,从而达到容错的目的。
2、快速磁盘检修技术。
这种方法是在把数据写入硬盘后,马上从硬盘中把刚写入的数据读出来与内存中的原始数据进行比较。如果出现错误,则利用在硬盘内开设的一个被称为“热定位重定区”的区,将硬盘坏区记录下来,并将已确定的在坏区中的数据用原始数据写入热定位重定区上。
3、磁盘镜像技术。
磁盘镜像是在同一存储通道上装有成对的两个磁盘驱动器,分别驱动原盘和副盘,两个盘串行交替工作,当原盘发生故障时,副盘仍旧正常工作,从而保证了数据的正确性。
4、双工磁盘技术。
它是在网络系统上建立起两套同样的且同步工作的文件服务器,如果其中一个出现故障,另一个将立即自动投入系统,接替发生故障的文件服务器的全部工作。
5、网络操作系统具有完备的事务跟踪系统。
这是针对数据库和多用户软件的需要而设计的,用以保证数据库和多用户应用软件在全部处理工作还没有结束时或工作站或服务器发生突然损坏的情况下,能够保持数据的一致。其工作方式是:对指定的事务(操作)要么一次完成,要么什么操作也不进行。
6、UPS监控系统。
UPS监控系统用于监控网络设备的供电系统,以防止供电系统电压波动或中断。在工作中,我们选取的容错技术应根据实际情况而定(如资金,规模等)。
扩展资料:
容错技术的应用已经开始从过去的证券、电信等领域进入基础行业,如制造、能源、物流、交通及有着"7×24"不间断运营需求的中小商业团体和政府。NEC为迎合互联网的高速增长,为容错服务器引入了最新的稳定、安全、可升级、功能强大的Linux版本。
容错的未来将会向更高的可用性、更卓越的可维护性发展。调查显示,越来越多的用户开始注重TCO(总拥有成本)而不是初期购买价格,更多的企业决定逐步放弃采用双机热备的方式来维护复杂的集群服务器,转而将目光瞄向具有容错技术的平台或容错服务器平台。
在中国市场,NEC 公司与神州数码的合作在一定程度上弥补了容错服务器在中国市场服务拓展领域的短板。这将引发国内各领域的容错技术与应用的井喷式发展。
容错是用冗余的资源使计算机具有容忍故障的能力,即在产生故障的情况下,仍有能力将指定的算法继续完成。容错的基本思想首先来自于硬件容错,1950-1970年,硬件容错在理论和应用上都有重大的发展,目前已成为一种成熟的技术并应用到实际系统中,如双CPU,双电源等,军事上出现了容错计算机;软件容错的基本思想是从硬件容错中引伸过来的,70年代中期开始认识到软件容错的潜在作用;数据容错的策略即数据备份;网络容错将硬件容错和软件容错两方面的技术融合在一起并有新的发展。
容错技术是指在一定程度上容忍故障的技术,也称为故障掩盖技术(fault masking)。采用容错技术的系统称容错系统。
容错主要依靠冗余设计来实现,它以增加资源的办法换取可靠性。由于资源的不同,冗余技术分为硬件冗余、软件冗余、时间冗余和信息冗余。
硬件冗余是通过硬件的重复使用来获得容错能力。
软件冗余的基本思想是用多个不同软件执行同一功能,利用软件设计差异来实现容错。
信息冗余是利用在数据中外加的一部分信息位来检测或纠正信息在运算或传输中的错误而达到容错。在通信和计算机系统中,常用的可靠性编码包括:奇偶校验码、循环冗余码CRC、汉明码等。
时间冗余是通过消耗时间资源来实现容错,其基本思想是重复运算以检测故障。按照重复运算是在指令级还是程序级分为指令复执程序复算。指令复执当指令执行的结果送到目的地址中,如果这时有错误恢复请求信号,则重新执行该指令。程序复算常用程序滚回技术。例如将机器运行的某一时刻称作检查点,此时检查系统运行的状态是否正确,不论正确与否,都将这一状态存储起来,一旦发现运行故障,就返回到最近一次正确的检查点重新运行。
冗余设计可以是元器件级的冗余设计,也可以是部件级的、分系统级的、或系统级的冗余设计。冗余要消耗资源,应当在可靠性与资源消耗之间进行权衡和折衷。
容错系统工作过程包括自动侦测、自动切换、自动恢复。
(1)自动侦测(Auto-Detect)
运行中自动地通过专用的冗余侦测线路和软件判断系统运行情况,检测冗余系统各冗余单元是否存在故障(包括硬件单元或软件单元),发现可能的错误和故障,进行判断与分析。确认主机出错后,启动后备系统。
侦测程序需要检查主机硬件(处理器与外设部件)、主机网络、操作系统、数据库、重要应用程序、外部存储子系统(如磁盘阵列)等。
为了保证侦测的正确性,防止错误判断,系统可以设置安全侦测时间、侦测时间间隔、侦测次数等安全系数,通过冗余通信连线,收集并记录这些数据,作出分析处理。
数据可信是切换的基础。
(2)自动切换(Auto-Switch)
当确认某一主机出错时,正常主机除了保证自身原来的任务继续运行外,将根据各种不同的容错后备模式,接管预先设定的后备作业程序,进行后续程序及服务。
系统的接管工作包括文件系统、数据库、系统环境(操作系统平台)、网络地址和应用程序等。
如果不能确定系统出错,容错监控中心通过与管理者交互,进行有效的处理,决定切换基础、条件、时延、断点。
(3)自动恢复(Auto-Recovery)
故障主机被替换后,进行故障隔离,离线进行故障修复。修复后通过冗余通信线与正常主机连线,继而将原来的工作程序和磁盘上的数据自动切换回修复完成的主机上。这个自动完成的恢复过程用户可以预先设置,也可以设置为半自动或不恢复。
例如网络容错。电话线作为数据专线的备份,服务器采用双机磁盘镜像、双网卡方式实现双网络备份。应用具有容错功能的网络设备,如3COM的交换机,CISCO的路由器,MOTORLA的调制解调器等都具有容错功能。
灾难备份,是指利用技术、管理手段以及相关资源,确保已有的关键数据和关键业务在灾难发生后在确定的时间内可以恢复和继续运营的过程。“灾难备份所防范的‘灾难’,包罗万象,包括地震、火灾、水灾等自然灾难,以及战争、恐怖袭击、网络攻击、设备系统故障和人为破坏等无法预料的突发事件,可谓‘天灾人祸无所不包’。”“诸如地震、火灾等天灾人祸,是永远无法彻底避免的。一系列已发生的突发事件表明,如果没有一定的应急响应能力,突发事件将给我们社会或生活带来灾难性的后果;加强灾难备份和应急响应建设,就可以有效减少灾难所带来的社会成本和压力。它是应对紧急事件、保护信息的相应的防范、化解与控制措施,是保障业务连续性的重要环节,灾难备份中心与数据中心不一样
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)