CrowdStrike 和 Meta 推出 CyberSOCEval 基准测试套件

CrowdStrike 和 Meta 推出了 CyberSOCEval，这是一个开源基准套件，旨在评估安全运营中心 (SOC) 中人工智能模型的性能。该计划旨在帮助企业驾驭不断扩大的人工智能驱动的网络安全工具，使他们能够选择最符合其特定要求的解决方案。

网络安全格局正在经历由人工智能驱动的变革，人工智能既是潜在的威胁，也是重要的防御机制。随着人工智能为网络犯罪分子提供先进的策略（例如自动密码暴力破解），组织越来越多地将人工智能集成到其安全框架中，以应对这些不断变化的危险。这种动态引发了一场数字军备竞赛，让人想起人类免疫系统内的生物竞争，防御者必须不断适应日益复杂的病原体。

CyberSOCEval 通过为大型语言模型 (LLM) 提供标准化测试来填补市场的关键空白。该套件评估基本网络安全任务的模型，包括事件响应、威胁分析理解和恶意软件测试。根据 CrowdStrike 的新闻稿，“如果没有明确的基准，就很难知道哪些系统、用例和性能标准能够针对现实世界的攻击提供真正的人工智能优势。”由于工具的功能和成本差异很大，这种不明确性长期以来使网络安全专业人员的决策变得复杂。

通过对现实应用程序进行正式评估，CyberSOCEval 为组织提供了每个模型的优点和缺点的透明视图。对于人工智能开发人员来说，该框架提供了对企业使用模式的更深入的见解，有可能促进创建更加定制和有效的模型。这可以加速创新，确保人工智能系统与新出现的威胁同步发展。

人工智能在网络安全方面的优势在实际部署中已经很明显。万事达卡和英国《金融时报》经度最近的一项调查显示，许多金融服务公司通过采用人工智能工具来打击人工智能欺诈，节省了数百万美元。这些节省突显了切实的投资回报，凸显了人工智能不仅可以降低风险，还可以提高高风险行业的运营效率。

Meta 的参与凸显了其对开源人工智能原则的承诺。与 OpenAI 的 GPT 系列等专有模型不同，开源替代方案允许开发人员免费访问模型权重，在某些情况下还可以访问源代码。这种可访问性促进了社区驱动的快速改进。与 CrowdStrike 的合作体现了 Meta 扩大网络安全开源资源、向所有人提供先进评估工具的战略。

Meta 超级智能实验室部门 GenAI 产品总监 Vincent Konguet 在一份声明中强调了更广泛的影响：“有了这些基准，并为安全和人工智能社区的进一步改进开放，我们整个行业就可以更快地发挥人工智能在防御高级攻击（包括基于人工智能的威胁）方面的潜力。”贡盖特的言论强调了此类举措的协作潜力，将 CyberSOCEval 定位为全行业进步的催化剂。

此次发布正值关键时刻，因为人工智能增强的网络威胁预计将在 2025 年加剧，企业面临着越来越大的压力。专家建议采取积极措施，例如强大的测试框架，以保持领先地位。 CyberSOCEval 的开源性质使访问民主化，使没有大量资源的小型组织能够评估和采用尖端工具。

实际实施很简单。该基准测试套件可在 GitHub 上立即下载，并可在该项目的专用网站上访问全面的详细信息和文档。早期采用者可以立即开始测试法学硕士，提供反馈以进一步完善框架。

OpenAI 在 Codex 中推出技能