上周,由于 CrowdStrike 发布的更新存在漏洞,数百万台 Windows 计算机陷入瘫痪。该事件影响了约 850 万台设备,归咎于测试软件中的一个漏洞。
错误更新未能通过验证流程,导致大面积崩溃。CrowdStrike 的这一问题促使该公司承诺在未来的更新中进行更严格的测试和改进错误处理。

CrowdStrike 问题已导致微软中断
CrowdStrike 的最新失败不仅仅是 CrowdStrike 的一个孤立问题,它与更广泛的科技行业挑战产生了共鸣。微软也因此遭遇了一次重大中断,这加剧了混乱局面,甚至影响到了多个国家。虽然微软中断的根源不同,但同时出现的问题凸显了云服务的脆弱性和软件故障的连锁反应。归根结底,CrowdStrike 问题是导火索。此类事件强调了在每个领域都需要强大的测试和验证流程。
什么是 CrowdStrike 中断?
CrowdStrike 的 Falcon 软件是企业的重要工具,可为数百万台 Windows 机器提供强大的保护,防止恶意软件和安全漏洞。CrowdStrike 问题是由于常规内容配置更新本应收集有关潜在威胁的遥测数据,但却导致了灾难性的崩溃。此更新是快速响应内容的一部分,这是一个 40KB 的小文件,无法正常工作并导致大面积系统故障。这看起来像是旧病毒。就像听到“Donk”的声音和无休止的警告消息流,但没有任何内容,您的计算机会不由自主地关闭。

断电原因剖析
CrowdStrike 的问题与 Rapid Response Content 更新 Falcon 传感器以提高恶意软件检测能力有关。此特定更新包含有问题的内容数据,由于存在错误,这些数据设法通过了内容验证程序。CrowdStrike 表示,它通常会对其更新进行自动和手动测试。然而,Quick Response Content 并未像其他更新一样接受同样彻底的测试,或者不知何故设法通过了测试,从而导致灾难性的崩溃。
一切是怎么出错的?
CrowdStrike 的问题可以追溯到对其内容验证器可靠性的错误假设。3 月,新部署的模板类型让 CrowdStrike 相信他们的验证过程是万无一失的。然而,事实证明这种信心是错误的。有问题的快速响应内容被加载到传感器的内容解释器中,触发了 Windows 无法处理的越界内存异常,导致了臭名昭著的蓝屏死机 (BSOD)。

CrowdStrike 中断是什么时候开始的?故障时间表
CrowdStrike 问题爆发于周五,而企业通常在这一天结束周末运营。这次事件发生的时间非常糟糕,因为它导致众多组织立即陷入混乱。此次错误更新原本旨在增强安全性,但却导致系统瘫痪,造成严重的宕机和挫败感。
初步反应和损害控制
CrowdStrike 很快发现有问题的快速响应内容文件是问题的根源。尽管很快就发现了问题,但损害已经造成。依赖 CrowdStrike Falcon 的企业不得不忙于减轻崩溃的影响。情况的紧迫性促使 CrowdStrike 发布了一份详细的事后审查 (PIR),概述了根本原因以及他们防止未来再次发生此类事件的计划。
预防未来问题的承诺
为了应对 CrowdStrike 问题,该公司承诺采取多项措施确保此类灾难不再重演。这些措施包括:
- 增强测试:实施本地开发人员测试、内容更新和回滚测试、压力测试、模糊测试和故障注入。
- 改进错误处理:增强 Falcon 传感器内内容解释器的错误处理能力。
- 交错部署:逐步向大部分安装基数推出更新,而不是立即推送。

什么是 CrowdStrike Falcon? 有问题的保护者
CrowdStrike Falcon 是解决此问题的核心软件。它是一个基于云的平台,提供端点保护,结合了防病毒、威胁情报以及端点检测和响应 (EDR)。该软件的主要功能是防范恶意软件和安全漏洞,使其成为全球企业的重要工具。
Falcon 的工作原理
Falcon 通过在 Windows 计算机的内核级别部署传感器来运行。这些传感器持续监控可疑活动,并使用 AI 和机器学习来增强检测能力。这些传感器的更新(如快速响应内容)对于保持针对新兴威胁的最新保护至关重要。
快速反应内容的作用
快速响应内容更新旨在调整 Falcon 传感器的行为,使其能够检测新形式的恶意软件。这些更新通常很小且部署迅速,使其成为 Falcon 功能的重要组成部分。然而,CrowdStrike 问题表明,如果这些更新没有经过彻底验证,则存在潜在风险。
该部门以及网络安全和基础设施安全局(@CISAgov) 正在与 CrowdStrike、微软以及我们的联邦、州、地方和关键基础设施合作伙伴合作,以全面评估和解决系统中断问题。
— 国土安全部(@DHSgov) 2024 年 7 月 19 日
CrowdStrike 事件的教训
CrowdStrike 问题再次提醒我们,强大的测试和验证流程非常重要。尽管该公司已经制定了多项措施来防止未来再次发生此类事件,但科技界无疑将密切关注。确保安全软件的可靠性至关重要,而 CrowdStrike 问题凸显了其中的利害关系。
CrowdStrike 问题凸显了快速更新和系统稳定性之间的微妙平衡。随着企业继续严重依赖此类软件来确保安全,从此次事件中吸取的教训对于塑造未来的实践和协议至关重要。
特色图片来源:Scoop News Group
Source: CrowdStrike 问题速成课程





