
华为交换机集群介绍(三)
华为交换机jiq 介绍(二):http://www.023wg.com/kkxpz/406.html
14、集群多主检测(MAD)
由于集群系统中所有成员交换机都使用同一个IP地址和MAC地址(集群系统MAC),一个集群分裂后,可能产生两个具有相同IP地址和MAC地址的集群系统。为防止集群分裂后,产生两个具有相同IP地址和MAC地址的集群系统,引起网络故障,必须进行IP地址和MAC地址的冲突检查。
多主检测MAD(Multi-Active Detection),是一种检测和处理集群分裂的协议。链路故障导致集群系统分裂后,MAD可以实现集群分裂的检测、冲突处理和故障恢复,降低集群分裂对业务的影响。
1、MAD(多主检测)检测方式
MAD检测方式有两种:直连检测方式和代理检测方式。在同一个集群系统中,两种检测方式互斥,不可以同时配置。
1.1、直连检测方式
直连检测方式是指集群成员交换机间通过普通线缆直连的专用链路进行多主检测。在直连检测方式中,集群系统正常运行时,不发送MAD报文;集群系统分裂后,分裂后的两台交换机以1s为周期通过检测链路发送MAD报文以进行多主冲突处理。直连检测的连接方式包括通过中间设备直连和集群成员交换机直接直连:
图2 通过中间设备的直连检测方式
1.1.1、通过中间设备直连:
如上图2所示,集群系统的成员交换机之间至少有一条检测链路与中间设备相连。此种方式适用于成员交换机相距较远的场景。
图3 通过集群成员交换机直接直连的检测方式
1.1.2、直接直连:
如上图3所示,集群成员交换机直接直连可以避免由中间设备故障导致MAD检测失败。
注意,接口配置直连多主检测功能后,不能再配置其他业务。为保证可靠性,成员交换机之间最多可以配置4条直连检测链路。由于MAD报文是BPDU报文,采用通过中间设备的直连检测方式时,在直连检测链路的中间设备上需要配置转发BPDU报文。
代理检测方式是在集群系统Eth-Trunk上启用代理检测,在代理设备上启用MAD检测功能。此种检测方式要求集群系统中的所有成员交换机都与代理设备连接,并将这些链路加入同一个Eth-Trunk内。与直连检测方式相比,代理检测方式无需占用额外的接口,Eth-Trunk接口可同时运行MAD代理检测和其他业务。
在代理检测方式中,集群系统正常运行时,集群成员交换机以30s为周期通过检测链路发送MAD报文。集群成员交换机对在正常工作状态下收到的MAD报文不做任何处理;集群分裂后,分裂后的两台交换机以1s为周期通过检测链路发送MAD报文以进行多主冲突处理。
图4 单机作代理设备的代理检测方式
图5 两套集群系统互为代理的代理检测方式
根据代理设备的不同,代理检测方式可分为单机作代理(如上图4)和两套集群系统互为代理(如上图5)。
说明,代理设备必须为支持MAD代理功能的交换机,华为S7700&S9700&S12700系列交换机都支持MAD代理功能。设备支持两套集群系统互为代理进行多主检测,此时必须通过配置保证两套集群系统的集群域的域编号(Domain ID)不同。组成一个集群系统的交换机构成一个集群域。一个网络中可以部署多个集群系统,因此会有多个集群域,不同的集群域的域编号不同。
集群分裂后,MAD冲突处理机制会使分裂后的单框集群系统处于Detect状态或Recovery状态。Detect状态表示集群正常工作状态,Recovery状态表示集群禁用状态。
MAD冲突处理机制如下:MAD分裂检测机制会检测到网络中存在两个处于Detect状态的集群系统即两台交换机,此时会进行集群优先级比较(优先级相同比较MAC地址,MAC地址相同则比较集群ID),优先级高的交换机将成为主交换机继续正常工作,另一台交换机会转入Recovery状态;并且在Recovery状态的交换机上,关闭除保留端口以外的其它所有物理端口,以保证该交换机不再转发业务报文。
3、MAD(多主检测)故障恢复
通过修复故障链路,分裂后的集群系统重新合并为一个集群系统。重新合并的方式有以下两种:
集群链路修复后,处于Recovery状态的集群系统重新启动,与Detect状态的集群系统合并,同时将被关闭的业务端口恢复Up,整个集群系统恢复。
如果故障链路修复前,承载业务的Detect状态的集群系统也出现了故障。此时,可以先将Detect状态的集群系统从网络中移除,再通过命令行启用Recovery状态的集群系统,接替原来的业务,然后再修复原Detect状态集群系统的故障。故障修复后,重新合并集群系统。
15、集群主备倒换
导致集群主备倒换的原因较多,在此主要介绍由于主控板故障引起的主备倒换以及通过命令行执行的主备倒换。
1、主控板故障引起的主备倒换
集群系统主控板的故障可能会引起集群系统内角色的变化。
1.1、集群系统主用主控板故障
图1 集群系统主用主控板故障后主备倒换
集群系统主用主控板故障后,集群系统角色的变化如上图1所示。
原备交换机升为主交换机,原系统备用主控板升为系统主用主控板。原主交换机降为备交换机。原主交换机内的备用主控板升为系统备用主控板,从系统主用主控板进行数据同步。
1.2、集群系统备用主控板故障
图2 集群系统备用主控板故障后主备倒换
集群系统备用主控板故障后,集群系统角色的变化如上图2所示。
主交换机和备交换机的角色不会发生变化。备交换机的备用主控板升为系统备用主控板,从系统主用主控板进行数据同步。
1.3、集群系统候选备用主控板故障
集群系统候选备用主控板故障不会引起任何角色的变化。
2、通过命令行执行的主备倒换
图3 通过命令行执行的主备倒换
原备交换机升为主交换机,原系统备用主控板升为系统主用主控板。原系统主用主控板重启降为系统候选备用主控板,主交换机降为备交换机。原主交换机内的备用主控板升为系统备用主控板,从系统主用主控板进行数据同步。
16、集群升级
集群升级可以通过传统的指定启动文件后整机重启的方式,也可以使用集群快速升级方式。
如果使用传统的升级方式,业务中断时间会比较长,不太适用于对业务中断影响要求较高的场景。此时可以选择集群快速升级方式。
集群快速升级时,备交换机将先以新版本重新启动,实现升级,此时数据流量由主交换机转发。备交换机升级成功后,升为主交换机,转发数据流量,原主交换机以新版本重新启动,完成升级后成为集群系统的备交换机。在升级过程中,如果备交换机升级失败,则备交换机将重新启动并回退为原版本,集群升级失败。
建议集群系统的组网方式是上下行链路对称备份组网,否则可能会产生较多数据流量的中断。
17、集群常用应用场景
1、扩展带宽和链路跨框冗余备份
图1 扩展带宽和链路跨框冗余备份示意图
如上图1所示,当网络规模扩大,交换机上行带宽需求增加时,可以增加新交换机,同时与原交换机组成集群系统,将成员交换机的多条物理链路配置成一个聚合组,提高交换机的上行带宽。
另外,集群系统下行交换机通过跨设备链路聚合连接至集群系统,形成设备间备份和链路的跨设备冗余备份,增加可靠性。
2、简化组网
图2 简化组网示意图
如上图2所示,网络中的两台设备组成集群,虚拟成单一的逻辑设备。简化后的组网不再需要使用MSTP、VRRP等协议,简化了网络配置,同时依靠跨设备的链路聚合,实现快速收敛,提高了可靠性。
图3 长距离集群示意图
长距离集群可以将相距较远的设备连接形成集群。如上图3所示,每个楼层的用户通过楼道交换机接入汇聚交换机,再通过汇聚交换机接入外部网络。现将两栋楼的汇聚交换机连接起来组成集群,这样相当于两栋楼只有一个汇聚设备,网络结构变得更加简单,从而降低了管理和维护设备的成本。同时每栋楼的用户有两条链路到达外部网络,大大增强了可靠性。



本文地址:http://www.023wg.com/kkxpz/407.html
版权声明:若无注明,本文皆为“Swiers思唯网络博客”原创,转载请保留文章出处。

