WatchStor.com — 领先的中文存储网络媒体 | 51CTO旗下网站

新闻资讯 > Unix > 正文
基于UNIX平台的双机高可用性解决方案
作者: 佚名 2006-10-12 23:17 【】

特点:

结合共享硬件设备和软件方式实现

安全可靠的系统及业务应用切换

多级完备的对等监控

直观的故障报警输出和切换过程状态显示

灵活简易工作模式改变

图中两台UNIX服务器互备服务器(active/active or active/standby)。IBM HACMP双机软件安装之后,内部RS232检测心跳线路检测两台服务器的软硬件资源。两台服务器均采用TCP/IP网络协议和用户连接,由监控软件HACMP提供一个逻辑的IP地址,任一用户可通过此网络地址与应用服务器连接,当有一服务器出现故障时,另外一台服务器会自动将其网卡的IP地址替换为该逻辑地址,这样用户一端的网络不会因另一台服务器出现故障而断掉。对于数据库服务,当一台服务器出现故障时,另一台服务器会自动接管数据库引擎,同时启动数据库和应用程序,使用户数据库可以继续操作。

随着UNIX系统被越来越多的企业关键业务处理系统所采用,由于这些应用系统本身的特点,以及UNIX不易被掌握,用户在实际使用过程当中,有时会遇到许多问题,其中最为关键的又集中在以下两个方面。

数据的可靠性:在这些行业性关键业务处理系统当中,服务器端保存有大量关键业务数据,如银行系统中的用户信息,交易信息;铁路客票系统中票额信息;保险及证券业的交易信息等,以上信息一旦发生丢失或损坏,将给以上业务应用带来灾难性后果。如何保证以上数据的可靠性,已成为以上各类用户必须要解决的问题。

业务处理的实时性或连续性:在许多行业性关键业务处理系统中,应用一旦开始正式投入运行,则在特定的一段时间内,系统应能连续处理各种业务。这就要求系统本身应具备对某些可预料或不可预料的软硬件故障的承受能力,其中最为关键的是系统应保证服务器端的实时性或连续性处理功能。具体要求是:通过某种解决方案,当服务器端发生诸如CUP损坏,主板或电源损坏,主控板卡损坏等硬件故障或某种原因造成的操作系统崩溃等软件故障而使服务器停止工作时,系统应有另外一套备用系统开始接管此服务器继续工作,且对前台应用的影响应控制在可以接受的范围之内,从而使由于服务器端故障所带来的系统风险降低最底。

工作原理

这种集群方式的实现,是通过两台服务器共享一个外部的磁盘存储设备,所有要求高可用的数据和应用程序代码存储在共享的设备中,两台服务器分别对磁盘存储设备具有访问权。当一个服务器发生失效的时候,另外一个服务器仍然可以对共享存储设备中的数据进行访问,客户端网络的访问,可以又这台服务器继续维持。

上图所示的是HACMP 群集方案的示意图,目前最大可以支持32个节点。节点A和节点B分别是两台配置相同的服务器,通过HACMP逻辑上生成一个虚拟的服务器,通过这个虚拟的逻辑服务器向外提供网络服务。

图中的两台服务器分别具有一个本地盘用于安装UNIX操作系统,服务器中分别安装三块网卡,其中第一块网卡用于服务器启动时IP的提供(即BOOT网卡,服务器启动时可以PING通IP),第二块网卡用于提供网络服务(即Service网卡),第三块网卡作为备用网卡(即Standby),RS232连线作为心跳线路构成了一个内部互连的检测网络,这个网络是用于两台服务器之间的信息传递。在服务器中分别安装一个或多个FC光纤通道控制卡(每台服务器配置双FC光纤通道可以避免单点故障),通过FC光纤通道可以实现服务器的内部和外部的磁盘阵列,同时通过该控制卡连接共享的存储设备(图中所示的共享FC总线)。所有要求维护高可用性的数据和应用程序代码都存储在共享的存储设备中,这也是该方案的关键部分。服务器中的FC控制卡相互连接到FC Switch 光纤交换机中在一起构成一个SAN的内部互连,这个连接是用于两台服务器之间阵列信息的同步。

基于HACMP 的群集方案,可以支持节点级和资源级的保护。

节点级保护:在任何时候,如果一个服务器失效,在这个服务器上运行的所有应用程序和网络服务都会在另一台服务器上重新启动,共享存储设备的控制权从失效的服务器上转移到运行的服务器。运行的服务器可以继续支持群集的虚拟服务器,通过群集的服务器,用户的网络访问可以继续进行。从而实现节点的保护

资源级保护:如果一个服务器所运行的某个进程发生失效,该失效的进程会通过群集监视器被检测到,之后通过群集服务在另一台服务器上重新启动,通过虚拟的服务器继续向外提供服务。对于原服务器上所运行的其他进程和服务不会受到失效进程的影响。

例如:假设在群集中,每台服务器中同时运行了两个网络服务,一台服务器运行Web Server和数据库服务器(DB Server),另一台是Mail Server和应用程序服务器(Apps Server)。如果在第一台服务器上,Web Server应用程序失效,这时候通过群集监视器和群集服务,该失效进程会自动的在群集中另外一个服务器上被启动,这样Web Server服务器通过群集可以继续向外提供信息,Web Server和DB Server通过群集会继续运行在另外一台服务器上,所有在群集中运行的服务都不会受到影响。

通过这种方式,群集保证服务器不仅可以避免由于单机的内部故障造成的意外停机,还可以避免由于服务器中某个进程的错误导致的服务中断。

IBM HACMP 技术概览:

可监测资源

主机硬件—系统本身掉电或硬件故障造成的停机

操作系统—由于负载过重或重要进程故障造成的死机

网络故障—网线或网卡故障

磁盘子系统—用户数据所存盘的故障

应用进程—用户所关心的应用进程的故障

可接管资源

文件系统—共享的用户数据或程序所在的文件系统

网络地址—对外的应用服务器地址

数据库/应用—用户的应用程序

切换模式

主从方式—一台服务器为主机,运行用户的应用,另一台服务器为备机,以备     主机失效时执行接管

互备方式—两台服务器同时运行各自的应用,当一台服务器失效时,另一台服  务器执行接管。

运行环境

操作系统—IBM AIX 5L

数据库/应用程序—Informix,Oracle,Sybase等数据库或用户自定义应用程序。

系统需求:

硬件要求

两台服务器

三块高速以太网卡—其中一块用于连接前端客户(即Service服务网卡),一块作为备用网卡(Standby网卡),另一快做为启动网卡(即BOOT网卡)

一套FC光纤通道磁盘阵列—此阵列用于存储用户重要的数据,即使两台服务器同时损坏此阵列中数据也不会丢失,保证了数据的高可用性。

软件要求

两套UNIX操作系统软件

两套IBM HA双机容错软件

注:以上是双机的方案,IBM P650小型机,每台机器上配3块网卡,2块FC光纤卡,这两台小型机的2块FC光纤卡分别与2台光纤交换机相连,IBM的FastT900也分别与2台交换机相连,IBM LTO的磁带库也分别与2台交换机相连,这样他们之间就构成了一个SAN的架构,关于磁带库的LAN-FREE备份的价格,你可以咨询Veritas 公司或其代理商,按客户的选件要求寻价就行了。


标签:Unix 

了不起的IT经理
LecVideo
论坛与活动