【突发】Exchange邮件卡队列紧急故障处理方案——南洋运维保障安心过节

2022年1月1日元旦清晨,上海南洋运维服务团队接收到大量用户出现Exchange邮件队列拥堵,邮件系统无法正常使用的报障,经过与微软沟通后,采用了临时替代方案缓解故障,保证邮件系统恢复正常使用。

影响范围:

Exchange2016CU21及以上,包括Exchange2019

故障现象:

Exchange邮件服务器都卡队列,内部邮件无法正常收发。

临时处理方案:

在服务器Disable掉Malware Agent反恶意软件扫描相关组件,并重置相关服务的状态后,可暂时解决该问题。

在服务器依次运行以下命令:

Disable-TransportAgent “Malware Agent”  -Confirm:$false

#Restart Frontend & Backend Transport service

Restart-Service msexchangetransport

Restart-Service MSExchangeFrontEndTransport

随后观察邮件队列是否恢复正常

截止到1月1日下午,南洋运维服务团队总计已为数十家客户进行了紧急修复,故障暂时告一段落,在随后进行的内部沟通会议中,南洋运维技术经理肖鹏作为微软产品和运维服务的专家,提出了自己的后续观点:

  1. 这个BUG的ROOT CAUSE是怎样的,后续需要怎样修复。
  2. 如果后续微软有补丁的话,是会尽快发布在线补丁,只要在线更新即可修复,还是需要都人工去手动打补丁以解决该问题。
  3. 该BUG漏洞会否像前几天的log4j2漏洞那样,会有什么安全隐患,或者在关闭Malware Agent反恶意软件扫描相关组件后,是否会有安全风险

随后南洋运维服务部进行了一系列后续工作,其中:

一,在随后的内部技术复盘中,我们将在实际环境中和测试环境中出现的主要报错日志和微软的同事进行了同步,日志显示当值超过22年1月1日00点01分时,将无法加载扫描引擎,原因是无法将2201010001转换为长字节类型,导致扫描组件无法正常工作从而卡主邮件队列。

二,和微软的同事后续交流中得知,在当前状态下,微软PG团队在48小时内赶工出一个在线热修复补丁的可能性并不大,微软原厂建议尽快通知所有客户,并进行手动修复。

详情参考微软同事的邮件建议。

三,关于安全性问题,南洋团队和微软团队多次确认后,微软表示,该问题与新年变化时的日期检查BUG有关,而不是本身扫描引擎的故障,也不是与安全相关的问题。这是对签名文件执行的版本检查BUG导致扫描引擎崩溃,从而令消息卡在传输队列中。微软Exchange Team已在官方博客中发文:

微软官方说明如下:

https://techcommunity.microsoft.com/t5/exchange-team-blog/email-stuck-in-transport-queues/ba-p/3049447

目前南洋运维服务团队已安排专人值守紧急支持该问题,并紧急通知各类客户进行应急修复。我们会持续和微软原厂保持沟通,如有任何进展的消息,我们会第一时间通知用户。

如您有任何相关问题,均可拨打南洋7X24全年无休800电话寻求支持:8008205407/4008205407