2021-12-16

hadoop集群RM和ZK异常的解决

修改了Flume的配置，然后需要将有过期配置的服务重启了一下，然后集群上有些服务就异常了。

Yarn服务异常: 2个ResourceManager同时处于standby状态

首先yarn服务异常，2个ResourceManager (分别为hadoop101和hadoop102) 同时处于standby状态。然后根据stackoverflow上的解释，使用如下命令

1	yarn resourcemanager -format-state-store

在hadoop101上以hdfs用户执行，过了1分钟，问题仍旧没有解决，2个ResourceManager仍然同时处于standby状态。

然后在hadoop102上以hdfs用户执行上述命令，第一次又报错了，而后又执行了一次，这次成功执行了此命令。过了1分钟，yarn的状态改变了，变成了绿色，也就是正常状态，hadoop101处于standby状态，hadoop102处于active状态。

之所以知道上述命令可以起作用，是因为之前遇到过这样的问题，就是通过这种方式解决的。

zookeeper异常

这个时候zookeeper还是处于异常状态，异常描述为“Canary test failed to establish a connection or a client session to the ZooKeeper service”。

重启Hive和Hue

谷歌了一下，大概了解到是因为和zk的连接太多，所以会有此问题。

upload successful

不过按照文章最下给的解决方法，分别重启了Hue和Hive，问题并没有得到解决。

查看一下服务器上zk的日志

然后想查看一下服务器上zk的日志，通过Clouder Manager 上Zookeeper的配置找到zk日志路径为/var/log/zookeeper。

upload successful
查看服务器上zk的日志，如下：

[hdfs@hadoop102 zookeeper]$ tail -f zookeeper-cmf-zookeeper-SERVER-hadoop102.eqxiu.com.log
2021-12-16 15:43:21,206 WARN org.apache.zookeeper.server.NIOServerCnxnFactory: Too many connections from /10.101.56.11 - max is 60
2021-12-16 15:44:13,675 WARN org.apache.zookeeper.server.NIOServerCnxnFactory: Too many connections from /10.101.56.11 - max is 60
2021-12-16 15:44:16,474 WARN org.apache.zookeeper.server.NIOServerCnxnFactory: Too many connections from /10.101.56.11 - max is 60
2021-12-16 15:44:19,184 WARN org.apache.zookeeper.server.NIOServerCnxnFactory: Too many connections from /10.101.56.11 - max is 60
2021-12-16 15:44:21,784 WARN org.apache.zookeeper.server.NIOServerCnxnFactory: Too many connections from /10.101.56.11 - max is 60
2021-12-16 15:44:24,026 WARN org.apache.zookeeper.server.NIOServerCnxnFactory: Too many connections from /10.101.56.11 - max is 60
2021-12-16 15:45:13,675 WARN org.apache.zookeeper.server.NIOServerCnxnFactory: Too many connections from /10.101.56.11 - max is 60
2021-12-16 15:45:16,446 WARN org.apache.zookeeper.server.NIOServerCnxnFactory: Too many connections from /10.101.56.11 - max is 60
2021-12-16 15:45:19,456 WARN org.apache.zookeeper.server.NIOServerCnxnFactory: Too many connections from /10.101.56.11 - max is 60
2021-12-16 15:45:22,816 WARN org.apache.zookeeper.server.NIOServerCnxnFactory: Too many connections from /10.101.56.11 - max is 60

从日志可以看出，日志解决为WARN，说明问题还不是很严重，“Too many connections from /10.101.56.11 - max is 60”说明来自10.101.56.11的连接太多了，然后根据这篇文章的介绍，在zk的各个服务器上分别执行如下命令

1	sudo netstat -nap \|grep 2181 \| awk '{print $5}' \| awk -F[:] '{print $1}' \| sort \| uniq -c

再次确认是10.101.56.1连接太多了，其连接数量是其他服务器的2倍，甚至更多。

从中找了一个端口 50850，然后去10.101.56.11服务器上执行如下密令

1
2
3

[root@hadoop101 ~]# lsof -i:50850
COMMAND   PID USER   FD   TYPE     DEVICE SIZE/OFF NODE NAME
java    19727 yarn  384u  IPv4 3014404568      0t0  TCP hadoop101:50850->hadoop102:eforward (ESTABLISHED)

发现这个服务来自于yarn，说明很可能时候这台服务器上的Yarn（ResourceManager）服务引起的，这就好办了，因为这台服务上的ResourceManager正好处于Standby状态，所以可以放心的重启。
于是就把此服务器上的ResourceManager先stop了，1分钟后观察zk的状态，现在已经处于变成了绿色，也就是正常状态了，如下图。

upload successful

然后将ResourceManager再start就可以了。

整个集群处于正常状态了。