ESX的NFS存储Failover机制Q&A

爱情研讨班 · 发表于 2014-8-9 04:06

esx的nfs存储通常都会配置备份链路。当主链路出现故障时自动切换到备份链路上，这叫做failover。

　　问：什么时候发起failover？答：当发现存储链路失败时计算机基础知识。

　　问：如何判断一条存储链路中断了？答：找不到心跳了呗。

　　问：心跳是怎么回事？怎样才算找不到心跳？

　　答：通常esx host会每隔一定的间隔（heartbeatfrequency）发起一次到存储的心跳检测，每次心跳检测必须在一定的时间内（heartbeattimeout）收到回复，否则就算是一次心跳检测失败（heartbeatfailure），连续失败到一定的次数（heartbeatmaxfailure）就算链路失败。

　　这些参数应该修改为以下推荐的值（无论是netapp还是emc的nas设备）

　　nfs.heartbeatdelta （nfs.heartbeatfrequency in esx 3.x）12

　　nfs.heartbeattimeout5

　　nfs.heartbeatmaxfailures10

　　上面这些推荐参数值的含义是：nfs.heartbeatfrequency=12说明每12秒会发起一次心跳检测。5秒没有响应就算timeout，一直累计到10次没有响应才算nfs存储丢失，才发起failover的动作。这中间其实经过了12s*10+5s=125秒时间。也就是说，真正要发起一次failover事件，esx host要等上125秒。

　　问：那么，在这125秒内，从vm的角度看，发生了什么状况呢？

　　答：vm会发现其vscsi控制器上连接的磁盘停止响应，这取决于guest os会忍受多长时间的磁盘不响应才认为是一个error （delayed write error），当这个io error发生在guest os的系统盘时，就会导致os崩溃。windows操作系统默认的disk timeout是60秒。也就是说，当esx host还在125秒的等待时间内而不去执行failover动作时，guest os就已经崩溃了。在guest级别ha启用的情况下，guest os会在nfs storage恢复的时候重启。但是重新配置guest os的参数以使其也能够等待125秒不是更好吗？如何做到？用regedit，修改hklmsystemcurrentcontrolsetservicesdisk下的timeoutvalue值为125即可。（修改注册表有风险，请一定先备份后修改）

		自动登录	找回密码
密码			注册