(原标题:一次例行更新是如何导致全球计算机崩溃的?)
当英国国家健康服务体系的医生布伦丹·德莱尼周五抵达诊所时,迎接他的并不是预期中的繁忙诊疗日,而是一个突然无法使用的病人记录系统,带来了新的混乱。
一场毁灭性的全球IT中断源于网络安全巨头CrowdStrike推送的有缺陷更新,这个看似微小的文件竟瘫痪了全球范围内的机场、银行和企业,暴露出全球IT系统的脆弱性。
这次事件揭示了大量组织和个人依赖少数几家科技公司的危险性,如果其中一家发生故障或遭受黑客攻击,影响可能会波及全球经济的广泛领域,引发了对网络安全公司责任和可靠性的广泛讨论。
当布伦丹·德莱尼(Brendan Delaney),一名隶属于英国国家健康服务体系(National Health Service, NHS)的医生,周五来到伦敦的诊所时,原本期待的是一个忙碌的看诊日。
两个月前,一场毁灭性的网络攻击袭击了伦敦东南部的医院和诊所。包括德莱尼在内的医生们终于开始感受到恢复正常的迹象。他们可以重新发送紧急血液检测,网络安全专家们也在修复和更换之前被犯罪黑客团伙关闭的信息技术系统方面取得了进展。
然而,就在他抵达诊所时,他看到前台接待员匆忙地收集纸质记事本,并寻找业务连续性计划。英国医生用来查看病人记录的系统突然无法使用了。
令人难以置信的是,一个微小的文件——据专家称,仅足以容纳一个网页图像大小的文件——竟导致了全球最大规模的IT中断。
这个名为“C-00000291*.sys”的文件隐藏在CrowdStrike的Falcon传感器产品的更新中。这个恶意文件引发了微软公司(Microsoft Corp.)Windows操作系统的错误,使计算机无法操作,并触发了可怕的“蓝屏死机”。
这次事件以前所未有的规模暴露了全球IT系统的脆弱性,突显了大量组织和个人依赖少数几家科技公司的危险性。如果其中一家发生故障或遭受黑客攻击,影响可能会波及全球经济的广泛领域。
微软公司凭借其Windows操作系统主导了个人计算业务,而CrowdStrike已经成为数千家公司和组织寻求保护其最重要系统免受网络攻击的首选供应商。
根据研究公司IDC的数据,在微软之后,CrowdStrike是第二大“现代端点保护”软件制造商,控制着126亿美元市场的18%。
这家总部位于奥斯汀的公司向全球29,000个组织销售其产品,因此这次中断可能影响了数百万台计算机,这些计算机需要手动修复,可能需要数周甚至更长时间才能重新上线。
“这真是一团糟,”前NHS医生、网络安全和公共健康专家赛义夫·阿贝德(Saif Abed)说道,“CrowdStrike影响了微软,而整个NHS都依赖于微软。这是一种潜在故障的多米诺效应。”
随着周五中断从亚洲和澳大利亚蔓延到欧洲和美国,CrowdStrike的联合创始人兼首席执行官乔治·库尔茨(George Kurtz)为这一错误道歉。“这不是一起安全事件或网络攻击,”他说,“问题已经被识别、隔离并且已部署了修复措施。”
乔治·库尔茨
科尔茨没有具体说明漏洞是如何进入更新程序的。但一些长期以来批评这个行业的人已经有了一个理论。他们认为,CrowdStrike和其他网络安全公司在追求更高利润和试图取悦股东的过程中,牺牲了基本而枯燥的安全原则。
“是时候让这个行业成熟起来,或许放慢一点脚步了,”爱丁堡的安全服务公司Quorum Cyber的创始人兼首席执行官费德里科·查罗斯基(Federico “Fede” Charosky)说,“某个开发人员做了一个改动,却没有分析这个改动会带来什么影响。
显然,在质量保证和测试方面存在缺失,并且为了速度在走捷径。这表明我们对那些在运营中至关重要的技术的完全信任是一种妄想。”
周五发生的事情极为罕见,但CrowdStrike的科尔茨对此并不陌生。早在2010年,他还是杀毒软件先锋迈克菲(McAfee)的首席技术官。那年四月,迈克菲发布了一次更新,错误地将一个合法的Windows文件标记为感染文件,导致全球的医院、学校和政府机构的计算机瘫痪。
根据当时担任迈克菲首席执行官、现任一家专注于网络安全的风险投资公司负责人的戴夫·德沃特(Dave DeWalt)表示,该公司在16分钟后就撤回了有问题的更新,但到那时,已经有超过1600家客户的计算机安装了该更新。
“那天我们的市值减少了大约40%。”德沃特在一次采访中说,并补充道,公司派出了近4000名员工乘飞机前往帮助受影响的客户恢复系统。
迈克菲(McAfee)最终从危机中恢复过来,但当时的员工形容这是一次极其创伤和谦卑的经历。四个月后,英特尔公司(Intel Corp.)宣布收购迈克菲。
网络行业观察人士不禁想知道CrowdStrike是否会从自身的错误中吸取教训。已经有人说这家公司是在自找麻烦。多年来,CrowdStrike一直攻击微软(Microsoft),指责其系统被黑客入侵,并将这些失误作为其产品的卖点。
在美国政府发布一份报告批评微软“连串的安全失误”后不久,科尔茨(Kurtz)抓住机会,在一次财报电话会议上向投资者引用了这份报告的发现,并表示微软的问题引发了潜在客户的“大量请求”。“在微软安全客户群体中,安全和IT团队普遍存在信任危机,”他说。
“CrowdStrike一直尽可能地抨击微软,并试图从中获利,”查罗斯基(Charosky)说,“但是,当你的公司成为全球基础设施的重要组成部分时,没有人能逃过审判。这就是因果报应。当一家公司从初创企业成长为关键的国家基础设施时,它需要采取不同的行为,我不知道CrowdStrike是否经历了这种转变。”
一些在线评论者将CrowdStrike的有缺陷的更新描述为“年度恶意软件”,因为它造成的破坏程度极大。与黑客攻击代码的开玩笑式比较有一定的现实基础。网络安全专家表示,受影响组织的恢复时间可能需要数周甚至更长,类似于大组织在勒索软件攻击后重建网络所需的时间。
使计算机重新上线的最大挑战是CrowdStrike的修复需要由具有管理员权限的人逐台手动应用——这是一个极其耗时的过程,尤其在远程工作的时代更为困难。
7月19日,捷星航空(Jetstar Airways)在悉尼机场的自助值机区的自助值机亭
位于德克萨斯州普莱诺市的网络安全服务公司Accelerynt Inc.的联合创始人兼董事长迈克尔·亨利(Michael Henry)表示,一家大型美国零售商客户不得不召集其整个IT团队,全天候工作,手动更新约6000台受影响的计算机。
他说,公司预计需要整个周末来恢复关键系统,而所有系统完全恢复在线可能需要长达三周的时间。
“这太疯狂了。他们正在进行分诊,首先专注于关键系统,”亨利说。“这是一个零售运营,他们正在确保商店能够重新上线。”
亨利(Henry)提出了许多人在停机事件后都在问的一个问题:这是怎么发生的?
“CrowdStrike对全球商业的破坏超过了所有勒索软件运营商的总和,”他说。“这展示了我们在使用这些保护自己的软件时所承担的巨大风险:如果这些人出错,他们可能会摧毁你的业务。”
7月19日,德克萨斯州奥斯汀市一家星巴克的屏幕上显示错误信息
科尔茨在周五晚些时候发表的一份声明中表示:“在解决此事件的过程中,我承诺将全面透明地提供有关事件发生的原因以及我们为防止类似事件再次发生所采取的措施。我们正在进行技术更新和根本原因分析,并将与大家分享。”
网络安全和法律专家表示,CrowdStrike几乎肯定会面临诉讼、财务成本和其他处罚。这一事件还必将引发关于少数网络安全公司掌握越来越多权力和风险的新一轮讨论。
按照硅谷的标准,网络安全行业相对年轻,它在蠕虫病毒和软盘病毒的时代成熟起来,二十年前由两家公司主导——赛门铁克(Symantec)和迈克菲(McAfee)。它们的杀毒产品集中于一种现在看来已经过时的策略,即编写“签名”来阻止已知的恶意软件。
7月19日,旅客在德国柏林勃兰登堡机场(Berlin Brandenburg Airport)等待
如今,攻击者变得更加先进,传统的杀毒软件已经失宠,老牌安全厂商逐渐退出了舞台。取而代之的是能够检测PC上各种威胁并自动进行修复的产品。
问题在于这些技术主要由微软和CrowdStrike控制。包括纽约大学计算机科学教授贾斯汀·卡波斯(Justin Cappos)在内的一些专家表示,他一直在警告安全行业的整合及其带来的集中决策可能会导致大问题,这种辩论在技术领域的其他地方也曾发生。
“在科技领域,大公司会犯大错误,”他在一次采访中说。“我们见过的很多非常糟糕的安全设计都是由大公司的努力所导致的。”(Bloomberg)