对api.A.com部分地区访问故障的思考

总结:出现此故障及解决故障过程中暴露的问题,根本原因:信息共享机制缺失。

1、api.A.com 域名解析错误,除江苏电信之外,其他地区均出现故障。

a、个人猜测,应该是A.com所有子域名均cname到了lbe.B.net 。

b、dnspod上未配置api子域名或者配置错误。

2、运维对域名可用性跟踪问题

a、运维接收到配置需求之后,未做详细了解(何时用?用在哪里?怎么用?),直接配置。根据主管判断,api域名应该是php接口请求,故不放cdn加速。

b、配置好之后,未跟踪dns修改情况,主观认为域名需求发起方已经处理好。

3、项目问题

a、开发组未主动将项目情况,告知运维,导致发现该故障时,排查过程比较曲折。请开发也反思下,以后如何与运维更好的合作。

b、域名管理权限问题,能否将域名移交运维统一管理?

c、新版本上线之后,发现问题比较迟,为什么呢?请项目组与运维保持沟通,并积极关注和反馈应用情况,特别是新版本,新功能。 方便运维协助解决问题。

4、其他

a、工作中难免会出现问题,所以需要团队间互相协助。将出现问题的概率降低或者将故障周期最小化。

b、以上都是个人看法,不对的地方,请指正。谢谢!

此条目发表在技术生涯分类目录。将固定链接加入收藏夹。