一次生产环境故障的排查历程
本帖最后由 Jack.Cheng 于 2024-10-11 11:19 编辑前几日,一个客户紧急联系到我们,说自己内网有一台物理机,ubuntu系统,安装了活字格服务器,变更了外网IP地址后,部署的应用和活字格管理控制台无法访问了,Chrome浏览器访问控制台提示这个
由于是生产环境的严重问题,我就直接远程到他电脑看了下,现象如下
1、不仅仅外网地址无法访问,服务器内网IP访问控制台也不行
2、终端通过systemctl ForguncyServerService status发现服务running
3、iptables查看linux系统防火墙 22345是放行的
4、宝塔面板查看22345端口,也是放行的
但是有如下异常现象
1、cURL访问localhost的管理控制台,无法访问
2、ps看ForguncyServerService的进程状态,是S+,处于休眠状态
后来经过和客户沟通,了解到这个物理机上面还部署了mysql数据库,客户把活字格内建用户的存储到了外联库
然后紧接着我通过排查服务器日志,发现提示连接用户信息数据库异常。大概知道了问题的原因
之前这里的连接串记录的是变更前的IP,换了后没有及时更改,导致服务器无法访问用户信息数据库,出现异常
定位到原因后,我进行了如下尝试:
一、从配置文件去除用户信息外联库
在/opt/ForguncySites/ForguncyServer中打开GlobalConfig.xml中去除外联信息
去除后重启活字格服务,即可进入工作台
二、更新用户数据库的外联串
这一步,我把新的数据库服务IP地址更新,使得活字格服务可以连接到mysql数据库,读取到用户信息。
经过这两步后,活字格管理控制台通过浏览器可以正常进入,各个应用的端口在宝塔放行后,用户也可以访问了。
总结
变更服务器IP前,如果用户是在外联库放着,记得先行更新用户数据库连接串。
如果活字格服务和数据库服务就在一个机器上,那么连接串IP直接用127.0.0.1,就不会出现类似情况了。
学习了
页:
[1]