FMO洛凯集群服务器失效事故分析

2026年1月30日,我们进行了“洛凯集群”的测试点名。点名开始之前我重启了服务器,结果发现重启后FMO无法连接到服务器,管理面板也没法正常打开。此时已经到预定的点名时间,尝试各种服务器控制命令与集群命令,却得到节点无响应的回复。还好之前测试功能免费领的一个月服务器还没到期,赶快登录加入集群,同时切换地址,最终延期20分钟开始点名。

虽然是测试点名,但确实测试出了问题,接下来就要进行排查。

1.重启大法。事故在服务器重启后发生,再次重启服务器很显然没有什么作用。尝试通过面板重启与指令重启均无效。

2,重装大法,重启解决不了的问题就重装!按照官方教程指令卸载EMQX并重新安装,结果——还是无效。

到这我开始怀疑是不是系统出了问题,但因为服务器还有其它业务,重装工作量过于庞大,故继续排查问题。很奇怪的事情是,在互联网与开源社区似乎无论如何都找不到类似情况。

3.检查EMQX日志:发现EMQX运行状态一切正常,但有一行提示:WARNING: Default (insecure) Erlang cookie is in use.

这句提示极具误导性,接下来看博主是怎么被误导的。

4.检查Erlang运行情况。正常,看不出任何问题。

5.重装Erlang。既然不老实就直接拜拜,无效。

6.彻底重装EMQX。在按照官方手册的指令卸载EMQX后,再运行sudo rm -rf /etc/emqx /var/lib/emqx /opt/emqx /usr/lib/emqx /var/log/emqx 彻底删除EMQX残留的配置文件。随后重装——服务恢复正常。

到这一步,我彻底被误导,认为是突发重启导致EMQX配置文件出错。于是进行测试:先退出集群并关闭EMQX,重启后再连接集群,结果发现连不上。

7.终于想到测试一下连接可达性了,尝试访问面板,服务器检测到数据了,似乎连接没问题。

阿里云的安全策略已经放通了对应端口,很显然不像是防火墙的问题。但一重启就要大动干戈的彻底删除重装怎么也有点奇怪。正好之前的测试服务器还有两天才到期,那就让它再发挥一次光与热吧!

8.测试服务器先退出集群并关闭EMQX,重启后再连接集群,正常?测试服务器直接重启,正常??测试服务器在有数个连接的情况下强制重启,正常???

这时候我又把目光转移到系统上,难不成只能重装了?

9.准备重装系统,进入面板备份各业务数据和数据库并下载。

10.等待下载的过程中,我发现面板里有个“安全”栏目。点开一看,嗯?防火墙?

不会是这里被摆了一道吧?!

11.尝试在面板防火墙放通端口,连接恢复了!

到这其实说明了这是个很简单的问题,单纯系统防火墙没通。

那为什么一开始能通呢,推测了一下流程,很可能是这样的:

EMQX安装完后,让系统防火墙给自己放通了,同时在配置文件里标记了这个过程;重启后面板按照自己的规则刷新系统防火墙,因为不包含EMQX需要的端口,又给它堵上了。彻底删除后EMQX认为这是新的系统环境,又开始了这轮循环。

至此,问题解决。

当前页面URL: https://tylk.cc/archives/1132
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
颜文字
洛天依9周年
洛天依夜航星
洛天依8周年
上一篇