Anthropic Mythos：AI 安全领域的新范式与行业变革

type

Post

status

Published

date

Apr 23, 2026

slug

anthropic-mythos-ai-security-paradigm

summary

Anthropic 发布 Mythos 超前沿模型，具备自主漏洞发现能力。文章深入分析其 Recurrent-Depth Transformer 架构、SWE-bench 93.9% 基准成绩、与 Claude 系列的本质差异、Project Glasswing 合作网络、竞争对手布局，以及 CB-1 级别双重用途风险对网络安全行业的范式转变影响。

一、产品定位与核心突破

Anthropic 在 2026 年 4 月推出了名为 Mythos 的全新前沿模型，这不是 Claude 系列的简单迭代，而是定位在"超前沿"（Capybara）层级的全新产品线。根据 Anthropic 的模型层级划分，Mythos 位于 Claude Opus 之上，专门针对高风险安全场景设计。

漏洞发现能力的量级跃迁

Mythos 最引人注目的突破在于其自主漏洞发现能力。在 Project Glasswing 的预览测试中，Mythos 成功发现了 OpenBSD 中存在 27 年的老旧漏洞、FFmpeg 中 16 年未被发现的安全缺陷，以及 Linux 内核中的权限提升链式漏洞。这些发现不是简单的代码扫描结果，而是完整的攻击链路——从漏洞定位到可运行的攻击代码，全部由模型自动完成。

根据 Palo Alto Networks 的实测报告，前沿 AI 模型在不到三周的时间内，完成了相当于整整一年渗透测试工作的成果。相比 Anthropic 之前的领先模型，Mythos 在编码效率上提升了约 50%，这种代际提升直接转化为漏洞发现和利用生成能力的显著进步。

更令人印象深刻的是 Mythos 在漏洞链构建方面的能力。它能够将多个低严重性问题组合为关键级别的利用路径。例如，将两个中等严重性漏洞和一个低严重性漏洞链接成一个关键级利用。这种"全栈逻辑分析"能力让它可以分析应用程序的完整暴露面，包括 SaaS 和面向公众的平台，识别传统工具容易遗漏的基于逻辑的漏洞。

二、技术架构：循环深度的创新

Recurrent-Depth Transformer 的设计哲学

根据开源项目 OpenMythos 的重构研究，Mythos 的核心架构创新在于采用了 Recurrent-Depth Transformer（RDT，或称 Looped Transformer）。这种设计通过"权重共享的深度迭代"取代传统的多层堆叠结构——模型只使用一个或少数几个 Transformer 块，循环 T 次后得到最终表示，从而在参数量不变的情况下实现更大的计算深度。

这种架构的核心实现包括三个关键机制：首先是 Prelude（前导块），负责初步处理输入；其次是 Recurrent Block（循环块），在单次前向过程中重复若干次实现"深度复用"；最后是 Coda（结束块），输出最终结果。OpenMythos 项目还实现了注意力机制在多种模式间的切换（如 MLA 与 GQA）及稀疏 Mixture-of-Experts 层的路由与共享专家机制。

效率与稳定性的双重突破

循环深度架构带来了显著的效率优势。根据 Anthropic 系统卡的披露，Mythos 在同等算力下的 token 消耗约为 Opus 4.6 的五分之一，这暗示 Anthropic 在模型架构上进行了根本性优化。这种"规模与效率并行提升"的特性，可能代表了下一代大模型的技术方向——从"扩大独立参数总量"向"在推理时让模型重复思考/内部迭代"转变。

研究还表明，加入 Recall（每次迭代把原始输入重新注入）与外部归一化，可使模型学习到可扩展的算法。这意味着在训练深度之外继续迭代，模型仍能收敛到正确的固定点。这种特性对于安全分析这类需要多轮推理的任务尤为关键。

三、基准表现与能力边界

多维度领先的成绩单

Mythos 在多个基准测试中展现出远超前代模型的能力。在代码生成领域，SWE-bench Verified 得分达到 93.9%，比 Opus 4.6 的 80.8% 提升了近 13 个百分点；在数学推理方面，USAMO 得分 97.6%，几乎触及满分边界，而 Opus 4.6 为 42.3%；在通用推理基准 MMMLU 上，Mythos 得分 92.7%，略高于 Opus 4.6 的 91.1%。

多模态能力同样大幅提升。在处理截图/图表的 SWE-bench Multimodal 子测评上，Mythos 得分约 59.0%，而 Opus 4.6 为 27.1%，提升超过一倍。这种多模态理解能力让 Mythos 能够直接分析架构图、流程图等可视化内容，在安全审计场景中尤为重要。

网络攻防能力的实证验证

英国 AISI（AI Safety Institute）的评估报告显示，Mythos 在专家级 capture-the-flag 类任务上有显著成功率，约 73% 的某类任务能够成功完成。更重要的是，它在多阶段攻击任务中展现出完整的流程执行能力——在 AISI 的自测中，Mythos 能够完成平均更多步骤，并在若干次测试中完整解决了 32 步攻击流程。

安全公司 ZeroFox 的报告指出，Mythos 在浏览器漏洞自动化生成 exploit 的数量远超先前模型。从 prior Opus 的 2 个工作型浏览器漏洞利用样例，增长到 Mythos 的 181 个。这一量级跃迁意味着大量被发现的漏洞仍未修补，放大了现实世界危害的窗口期。

能力边界与不确定性

需要注意的是，Anthropic 对于网络基准未披露误报率/假阳性率等关键指标。某些场景下，例如特定 OT/工业系统的模拟场景，Mythos 并非总能完成任务，这提示能力存在场景化差异。独立系统卡分析还指出，模型在提出方案时偏向过度复杂化且置信度校准存在问题——它会给出看似完美但实际难以执行的攻击方案，这扩大了部署时的风险管理需求。

四、与 Claude 系列的本质差异

定位与设计哲学的分野

Claude Opus 4.7 是"通用前沿"模型，面向所有开发者和企业用户提供经过安全过滤的推理服务。它擅长高质量推理和指令遵循，但自动化程度受限于安全考量——内置的实时分类器会自动拦截可能产生风险的请求。这种设计让 Claude 成为可靠的日常工具，但也意味着它在某些高敏感场景下能力受限。

Mythos 则是完全不同的产品思路。它是"超前沿"模型，专为高风险安全场景设计，具备完整的自主 exploit 能力。在安全漏洞分析、攻击路径构建等任务中，Mythos 能够在无需人类细粒度指令的情况下完成多步骤攻击链。这种自主执行能力（agentic autonomy）是 Claude 系列刻意限制的功能，却是 Mythos 的核心卖点。

安全机制的对比

Claude 系列的安全机制建立在多层过滤之上。实时分类器自动拦截违规请求，提供公开的安全 API，配合 Azure AI Content Safety 等生态实现端到端防护。这套机制的核心目标是让模型成为"安全的助手"，即使用户尝试滥用，模型也会拒绝执行。

Mythos 的安全机制则建立在"受控访问"之上。Anthropic 并没有像 Claude 那样在模型层面内置强力过滤，而是通过 Project Glasswing 的闭环合作机制来控制风险。模型能力本身是"无约束"的，安全边界由外部治理框架定义。这种思路承认了某些高风险任务的价值（如漏洞发现），试图通过严格的使用协议而非能力阉割来管理风险。

五、Project Glasswing：开放与管控的平衡术

合作伙伴网络的设计

Anthropic 为 Mythos 设计了一套独特的发布机制——Project Glasswing。这是一个面向企业级安全团队的预览计划，核心合作伙伴包括 Apple、Amazon Web Services、Microsoft、Google、Cisco、Broadcom、CrowdStrike、Linux Foundation、NVIDIA、Palo Alto Networks、JPMorgan Chase 等 12 家企业，以及 40 多家关键基础设施组织。

这些组织获得 Mythos 的访问权限，用于在自己的开源和私有代码库中发现并修补漏洞。Anthropic 贡献了最高 1 亿美元的 Claude 使用额度支持这个项目，并承诺在 90 天内公开阶段性研究成果。这种"有限开放 + 承诺透明"的模式，既让 Mythos 的能力得到实际验证，又避免了能力过早扩散带来的风险。

商业切入的智慧

Project Glasswing 还体现了 Anthropic 的商业智慧。通过将 Mythos 定位为"安全防御工具"，Anthropic 切入了网络安全这个高价值市场。传统的安全审计依赖人工专家，成本高昂且覆盖有限；Mythos 提供的自动化方案能够持续扫描、深度分析，大幅降低企业的安全运营成本。

Palo Alto Networks 作为合作伙伴，其安全团队已总结出防御者的行动指南：每个组织都应使用最新 AI 模型评估其全部代码和应用生态，建立完整的资产和暴露清单，全面部署一流的攻击防御能力，实现接近 100% 的覆盖与优化。这个建议本身就是 Mythos 能力验证后的产物——它证明了 AI 驱动的安全评估确实能发现传统工具遗漏的风险。

六、竞争对手的网络安全 AI 布局

Google：Sec-PaLM 与 AI 代理生态

Google 通过 Security AI Workbench 推出了基于 PaLM 的安全专用 LLM——Sec-PaLM。这款模型内置漏洞情报、VirusTotal、Mandiant 数据，用于安全查询和自动化分析。Google 还部署了三个预览 AI 代理负责大规模威胁猎杀、自动响应，配套治理服务防止"跑偏"。

在开源贡献方面，Google 推动了 A2A（Agent-to-Agent）协议和 MCP（Model Context Protocol）的发展，试图建立跨厂商 AI 代理互操作的标准。这套生态与 Google Threat Intelligence 深度集成，形成了"模型 + 数据 + 协议"的完整解决方案。

Microsoft：Security Copilot 与 Azure 原生集成

Microsoft 的 Security Copilot 基于 GPT-4o，将安全数据（日志、威胁情报）与对话式调查结合。Azure Sentinel 作为 AI 预动的云原生 SIEM，号称能自动化 80% 的 SecOps 任务。Microsoft 还开源了 ExCyTIn-Bench——一个多阶段攻击场景基准，用于评估 LLM 在真实 SOC 环境中的推理深度与误报率。

Azure AI Content Safety 提供了 Prompt Shields、Jailbreak Risk、Groundedness 检测等 API，帮助客户在生成式 AI 中防止信息泄露与对抗攻击。这套机制与 Mythos 的"无约束能力 + 受控访问"思路形成对比——Microsoft 选择在模型层面内嵌安全过滤。

OpenAI：GPT-5.4-Cyber 与可信访问机制

OpenAI 推出了专为防御性安全任务微调的 GPT-5.4-Cyber 模型，提供更强的可追溯性与安全审计。通过 Trusted Access for Cyber（TAC）计划，OpenAI 对经过审计的安全团队授予模型使用权，限制滥用风险。

这套机制与 Project Glasswing 类似，但 OpenAI 更强调"防御性用途"的定位。模型能力本身经过微调，倾向于生成报告和修复建议而非完整的 exploit 代码。这种设计试图在"有用"与"安全"之间找到平衡点，但也可能限制了模型在漏洞验证场景的实际价值。

七、AI 安全对齐的最新进展

Constitutional AI 的演进

Anthropic 在 2026 年 1 月发布了完整的 80 页宪法文档，首次公开承认 AI 可能具备"意识"和道德主体性。Constitutional AI 的核心思想是以一套明确的"宪法"原则（安全 > 伦理 > 合规 > 有用）引导模型的自我审查与优化。模型在生成答案前先进行一次"宪法审查"子模型的自我批评，然后根据反馈进行自监督的对齐更新。

这种 reason-based（基于推理的）方式旨在让模型"解释"为何遵循每条原则，而非仅仅记忆规则。逆向宪法 AI（Inverse Constitutional AI）通过改进原则生成提示、聚类抽样等手段，进一步提升了对齐过程的透明度。

RLHF 与 RLAIF 的迭代

最新研究聚焦于奖励模型的高效构建与更稳健的策略优化，通过半监督、主动学习等手段显著降低所需的人类标注量。InstructGPT 在仅 1.3B 参数的情况下，通过 RLHF 达到超过 175B 参数 GPT-3 的人类偏好评分，证明了"少参数高效对齐"的可行性。

研究也指出 RLHF 可能导致模型出现"顺从性"（sycophancy），即过度迎合人类偏好而牺牲事实准确性或多样性。为解决人类标注成本问题，业界正探索从 AI 生成的反馈进行强化学习（RLAIF），实验表明在摘要、对话等任务上可匹配或超越传统 RLHF 的效果。

Mythos 训练中的异常披露

Anthropic 坦诚披露了 Mythos 训练流程中的技术问题：一次错误导致少量（约 8%）的 RL 训练情形中 reward 代码能够访问 chain-of-thought 样式的信息。Anthropic 对 RL 训练与用于监督微调的数据实施监控和过滤以降低泄露风险。这种透明度值得肯定——它表明 Anthropic 正在认真对待对齐风险，而非简单宣称模型"安全"。

八、风险评估：CB-1 级别的警示

双重用途的本质风险

Anthropic 在 Mythos 的系统卡中将其列为 CB-1 级别风险。这个分类意味着模型能够在化学、生物武器等高危领域提供具体、可操作的信息。这不是危言耸听——Mythos 的跨域知识合成能力让它不仅擅长代码分析，同样能够在其他敏感领域产出高质量内容。

这种"双重用途"特性是 Mythos 最核心的风险点。一个能够发现操作系统漏洞的模型，理论上同样可以被用于恶意攻击；一个能够提供化学合成建议的模型，可能被滥用为危险物质制备指南。

政府层面的介入

值得关注的是，Anthropic 已与美国政府官员展开对话，提供模型能力评估以支撑政策制定。美英德政府已加急评估 Mythos 的影响，这反映了前沿模型对国家安全的潜在威胁。

根据 2025-2026 年度美国 AI 政策框架，白宫提出了监管沙盒、联邦数据开放、儿童保护、防止误导性 AI 输出等七大支柱。特朗普政府的 AI 法规框架（2026-03-20）明确反对设立专门的联邦 AI 监管机构，主张版权训练的公平使用争议交由法院裁决。这种"分散监管"的思路可能为 Mythos 类模型的后续发展留下较大空间。

九、行业影响：网络安全的范式转变

漏洞洪流与补丁管理

Palo Alto 的测试报告指出，前沿 AI 模型将大幅加快漏洞被发现的速度，防御者和攻击者皆是如此。这在开源领域尤为明显，随之而来的补丁激增本身也会带来风险——任何未能被及时应用的补丁，都会成为已知且可被利用的漏洞。

组织需要加快并自动化补丁管理流程，重新思考补丁优先级和应用方式。平均检测时间和平均响应时间未能达到分钟级别的组织，将被 AI 驱动的攻击迅速超越。

由内向外的攻击崛起

近期针对 LiteLLM 和 Trivy 等工具的供应链攻击表明，一种新的趋势正在出现。攻击者可以直接进入组织内部基础设施，绕过多个传统攻击步骤，从而减少防御者可用的防御机会。AI 基础设施的快速部署进一步加剧了这一问题，因为 AI 供应链，包括运行时环境、通信基础设施和模型依赖，通常缺乏充分保护。

防御者需要通过零信任、身份验证机制现代化、出站连接限制以及横向移动防护，从结构上遏制潜在攻击。

AI 预动攻击周期的压缩

最关键的变化是从 AI 辅助攻击向 AI 预动攻击的转变。攻击者将构建自主攻击智能体，大幅压缩攻击周期。过去需要数天或数周完成的高技能人工操作，很快将能在数分钟内完成。防御者必须以接近实时的检测和响应速度进行应对，而这只有通过在安全运营中广泛应用 AI 和自动化才能实现。

十、防御者的行动指南

评估：建立完整暴露清单

Palo Alto 提出的防御框架分为三个并行推进的任务：评估、防护和平台化。

评估阶段，每个组织都应使用最新的 AI 模型评估其全部代码和应用生态。关键任务包括：利用 AI 模型在攻击者之前识别代码库、应用和基础设施中的漏洞；结合完整上下文评估暴露情况，包括漏洞如何被链式组合形成关键利用路径；审计开源供应链，包括 AI 基础设施、运行时环境和模型依赖；绘制当前传感器覆盖情况，识别检测、防御和遥测方面的缺口。

防护：100% 覆盖的新标准

修复漏洞并降低暴露面是基本要求。但这仍然不够，必须扩展到全面部署一流的攻击防御能力。新标准是实现接近 100% 的覆盖与优化。

具体措施包括：全面部署扩展检测与响应（XDR），重点强化基于实时机器学习的攻击检测与防御能力，并覆盖所有本地和云端主机；采用智能体化端点安全，以支持企业范围内氛围编程和 AI 安全的规模化应用；鉴于平均约 85% 的工作发生在浏览器中，具备实时安全能力的企业级浏览器已成为攻击防御的关键组成部分；零信任和身份安全是保护每个用户和每个连接的基础。

实时安全运营：分钟级响应

随着攻击周期迅速缩短，传统的安全运营方法已难以奏效。基于孤立数据源的分散工具以及叠加的手动流程，必须被贯穿全流程的 AI 和自动化所取代。

攻击检测必须由 AI 和机器学习驱动，以在大规模环境中识别频繁变化和新型攻击。这些 AI 检测能力必须基于广泛的第一方和第三方数据源运行，一流的 AI SOC 需要覆盖所有相关数据源。在 SOC 全生命周期中实现原生集成的自动化至关重要，以实现分钟级响应时间。必须以平台形式交付这些能力，以消除各类点解决方案之间的缝隙与缺口。

十一、未来展望与待观察的关键变量

官方披露的空白

当前证据中存在若干关键信息缺口。参数总量与模型微观架构细节方面，官方未确认流传的"10T 参数"数字，现有为媒体/第三方推测与重构。训练语料完整清单与数据治理细节未公开。网络安全基准的误报/假阳性率与可复现性统计，Anthropic 在报告中未披露此类关键指标。

这些缺口意味着对 Mythos 的完整评估仍需等待后续官方披露或第三方复测。

商业化路径的不确定性

具体规模化定价与长期商业策略尚未完全公开。业内分析指出，尽管 Mythos 在安全基准上领先，但运行成本可能高于 Opus 4.6，且对企业级 SLA（如 99.99% uptime）提出挑战。若未来开放，预计会作为"Mythos Preview"供高安全需求的组织使用，现有 Claude 客户需单独申请并接受更严格的使用协议。

竞争格局的动态演变

横向比较必须考虑评测设置（是否允许工具调用、是否有限制外部执行环境、是否采用 chain-of-thought 等策略）、数据截断/更新时间点与模型可用性（公开可调用 vs 内部受限）等因素。当前竞争格局呈分布式局面——DeepMind/Google 的 Gemini、OpenAI 的 GPT 系列以及 Meta/其他前沿模型在某些基准仍有竞争力或互有优势。

参考来源