type
Post
status
Published
date
Apr 23, 2026
slug
anthropic-mythos-ai-security-paradigm
summary
Anthropic 发布 Mythos 超前沿模型,具备自主漏洞发现能力。文章深入分析其 Recurrent-Depth Transformer 架构、SWE-bench 93.9% 基准成绩、与 Claude 系列的本质差异、Project Glasswing 合作网络、竞争对手布局,以及 CB-1 级别双重用途风险对网络安全行业的范式转变影响。
tags
AI安全
Anthropic
Mythos
网络安全
深度分析
category
技术
icon
password

一、产品定位与核心突破
Anthropic 在 2026 年 4 月推出了名为 Mythos 的全新前沿模型,这不是 Claude 系列的简单迭代,而是定位在"超前沿"(Capybara)层级的全新产品线。根据 Anthropic 的模型层级划分,Mythos 位于 Claude Opus 之上,专门针对高风险安全场景设计。
漏洞发现能力的量级跃迁
Mythos 最引人注目的突破在于其自主漏洞发现能力。在 Project Glasswing 的预览测试中,Mythos 成功发现了 OpenBSD 中存在 27 年的老旧漏洞、FFmpeg 中 16 年未被发现的安全缺陷,以及 Linux 内核中的权限提升链式漏洞。这些发现不是简单的代码扫描结果,而是完整的攻击链路——从漏洞定位到可运行的攻击代码,全部由模型自动完成。
根据 Palo Alto Networks 的实测报告,前沿 AI 模型在不到三周的时间内,完成了相当于整整一年渗透测试工作的成果。相比 Anthropic 之前的领先模型,Mythos 在编码效率上提升了约 50%,这种代际提升直接转化为漏洞发现和利用生成能力的显著进步。
更令人印象深刻的是 Mythos 在漏洞链构建方面的能力。它能够将多个低严重性问题组合为关键级别的利用路径。例如,将两个中等严重性漏洞和一个低严重性漏洞链接成一个关键级利用。这种"全栈逻辑分析"能力让它可以分析应用程序的完整暴露面,包括 SaaS 和面向公众的平台,识别传统工具容易遗漏的基于逻辑的漏洞。
二、技术架构:循环深度的创新

Recurrent-Depth Transformer 的设计哲学
根据开源项目 OpenMythos 的重构研究,Mythos 的核心架构创新在于采用了 Recurrent-Depth Transformer(RDT,或称 Looped Transformer)。这种设计通过"权重共享的深度迭代"取代传统的多层堆叠结构——模型只使用一个或少数几个 Transformer 块,循环 T 次后得到最终表示,从而在参数量不变的情况下实现更大的计算深度。
这种架构的核心实现包括三个关键机制:首先是 Prelude(前导块),负责初步处理输入;其次是 Recurrent Block(循环块),在单次前向过程中重复若干次实现"深度复用";最后是 Coda(结束块),输出最终结果。OpenMythos 项目还实现了注意力机制在多种模式间的切换(如 MLA 与 GQA)及稀疏 Mixture-of-Experts 层的路由与共享专家机制。
效率与稳定性的双重突破
循环深度架构带来了显著的效率优势。根据 Anthropic 系统卡的披露,Mythos 在同等算力下的 token 消耗约为 Opus 4.6 的五分之一,这暗示 Anthropic 在模型架构上进行了根本性优化。这种"规模与效率并行提升"的特性,可能代表了下一代大模型的技术方向——从"扩大独立参数总量"向"在推理时让模型重复思考/内部迭代"转变。
研究还表明,加入 Recall(每次迭代把原始输入重新注入)与外部归一化,可使模型学习到可扩展的算法。这意味着在训练深度之外继续迭代,模型仍能收敛到正确的固定点。这种特性对于安全分析这类需要多轮推理的任务尤为关键。
三、基准表现与能力边界
多维度领先的成绩单
Mythos 在多个基准测试中展现出远超前代模型的能力。在代码生成领域,SWE-bench Verified 得分达到 93.9%,比 Opus 4.6 的 80.8% 提升了近 13 个百分点;在数学推理方面,USAMO 得分 97.6%,几乎触及满分边界,而 Opus 4.6 为 42.3%;在通用推理基准 MMMLU 上,Mythos 得分 92.7%,略高于 Opus 4.6 的 91.1%。
多模态能力同样大幅提升。在处理截图/图表的 SWE-bench Multimodal 子测评上,Mythos 得分约 59.0%,而 Opus 4.6 为 27.1%,提升超过一倍。这种多模态理解能力让 Mythos 能够直接分析架构图、流程图等可视化内容,在安全审计场景中尤为重要。
网络攻防能力的实证验证
英国 AISI(AI Safety Institute)的评估报告显示,Mythos 在专家级 capture-the-flag 类任务上有显著成功率,约 73% 的某类任务能够成功完成。更重要的是,它在多阶段攻击任务中展现出完整的流程执行能力——在 AISI 的自测中,Mythos 能够完成平均更多步骤,并在若干次测试中完整解决了 32 步攻击流程。
安全公司 ZeroFox 的报告指出,Mythos 在浏览器漏洞自动化生成 exploit 的数量远超先前模型。从 prior Opus 的 2 个工作型浏览器漏洞利用样例,增长到 Mythos 的 181 个。这一量级跃迁意味着大量被发现的漏洞仍未修补,放大了现实世界危害的窗口期。
能力边界与不确定性
需要注意的是,Anthropic 对于网络基准未披露误报率/假阳性率等关键指标。某些场景下,例如特定 OT/工业系统的模拟场景,Mythos 并非总能完成任务,这提示能力存在场景化差异。独立系统卡分析还指出,模型在提出方案时偏向过度复杂化且置信度校准存在问题——它会给出看似完美但实际难以执行的攻击方案,这扩大了部署时的风险管理需求。
四、与 Claude 系列的本质差异

定位与设计哲学的分野
Claude Opus 4.7 是"通用前沿"模型,面向所有开发者和企业用户提供经过安全过滤的推理服务。它擅长高质量推理和指令遵循,但自动化程度受限于安全考量——内置的实时分类器会自动拦截可能产生风险的请求。这种设计让 Claude 成为可靠的日常工具,但也意味着它在某些高敏感场景下能力受限。
Mythos 则是完全不同的产品思路。它是"超前沿"模型,专为高风险安全场景设计,具备完整的自主 exploit 能力。在安全漏洞分析、攻击路径构建等任务中,Mythos 能够在无需人类细粒度指令的情况下完成多步骤攻击链。这种自主执行能力(agentic autonomy)是 Claude 系列刻意限制的功能,却是 Mythos 的核心卖点。
安全机制的对比
Claude 系列的安全机制建立在多层过滤之上。实时分类器自动拦截违规请求,提供公开的安全 API,配合 Azure AI Content Safety 等生态实现端到端防护。这套机制的核心目标是让模型成为"安全的助手",即使用户尝试滥用,模型也会拒绝执行。
Mythos 的安全机制则建立在"受控访问"之上。Anthropic 并没有像 Claude 那样在模型层面内置强力过滤,而是通过 Project Glasswing 的闭环合作机制来控制风险。模型能力本身是"无约束"的,安全边界由外部治理框架定义。这种思路承认了某些高风险任务的价值(如漏洞发现),试图通过严格的使用协议而非能力阉割来管理风险。
五、Project Glasswing:开放与管控的平衡术

合作伙伴网络的设计
Anthropic 为 Mythos 设计了一套独特的发布机制——Project Glasswing。这是一个面向企业级安全团队的预览计划,核心合作伙伴包括 Apple、Amazon Web Services、Microsoft、Google、Cisco、Broadcom、CrowdStrike、Linux Foundation、NVIDIA、Palo Alto Networks、JPMorgan Chase 等 12 家企业,以及 40 多家关键基础设施组织。
这些组织获得 Mythos 的访问权限,用于在自己的开源和私有代码库中发现并修补漏洞。Anthropic 贡献了最高 1 亿美元的 Claude 使用额度支持这个项目,并承诺在 90 天内公开阶段性研究成果。这种"有限开放 + 承诺透明"的模式,既让 Mythos 的能力得到实际验证,又避免了能力过早扩散带来的风险。
商业切入的智慧
Project Glasswing 还体现了 Anthropic 的商业智慧。通过将 Mythos 定位为"安全防御工具",Anthropic 切入了网络安全这个高价值市场。传统的安全审计依赖人工专家,成本高昂且覆盖有限;Mythos 提供的自动化方案能够持续扫描、深度分析,大幅降低企业的安全运营成本。
Palo Alto Networks 作为合作伙伴,其安全团队已总结出防御者的行动指南:每个组织都应使用最新 AI 模型评估其全部代码和应用生态,建立完整的资产和暴露清单,全面部署一流的攻击防御能力,实现接近 100% 的覆盖与优化。这个建议本身就是 Mythos 能力验证后的产物——它证明了 AI 驱动的安全评估确实能发现传统工具遗漏的风险。
六、竞争对手的网络安全 AI 布局

Google:Sec-PaLM 与 AI 代理生态
Google 通过 Security AI Workbench 推出了基于 PaLM 的安全专用 LLM——Sec-PaLM。这款模型内置漏洞情报、VirusTotal、Mandiant 数据,用于安全查询和自动化分析。Google 还部署了三个预览 AI 代理负责大规模威胁猎杀、自动响应,配套治理服务防止"跑偏"。
在开源贡献方面,Google 推动了 A2A(Agent-to-Agent)协议和 MCP(Model Context Protocol)的发展,试图建立跨厂商 AI 代理互操作的标准。这套生态与 Google Threat Intelligence 深度集成,形成了"模型 + 数据 + 协议"的完整解决方案。
Microsoft:Security Copilot 与 Azure 原生集成
Microsoft 的 Security Copilot 基于 GPT-4o,将安全数据(日志、威胁情报)与对话式调查结合。Azure Sentinel 作为 AI 预动的云原生 SIEM,号称能自动化 80% 的 SecOps 任务。Microsoft 还开源了 ExCyTIn-Bench——一个多阶段攻击场景基准,用于评估 LLM 在真实 SOC 环境中的推理深度与误报率。
Azure AI Content Safety 提供了 Prompt Shields、Jailbreak Risk、Groundedness 检测等 API,帮助客户在生成式 AI 中防止信息泄露与对抗攻击。这套机制与 Mythos 的"无约束能力 + 受控访问"思路形成对比——Microsoft 选择在模型层面内嵌安全过滤。
OpenAI:GPT-5.4-Cyber 与可信访问机制
OpenAI 推出了专为防御性安全任务微调的 GPT-5.4-Cyber 模型,提供更强的可追溯性与安全审计。通过 Trusted Access for Cyber(TAC)计划,OpenAI 对经过审计的安全团队授予模型使用权,限制滥用风险。
这套机制与 Project Glasswing 类似,但 OpenAI 更强调"防御性用途"的定位。模型能力本身经过微调,倾向于生成报告和修复建议而非完整的 exploit 代码。这种设计试图在"有用"与"安全"之间找到平衡点,但也可能限制了模型在漏洞验证场景的实际价值。
七、AI 安全对齐的最新进展
Constitutional AI 的演进
Anthropic 在 2026 年 1 月发布了完整的 80 页宪法文档,首次公开承认 AI 可能具备"意识"和道德主体性。Constitutional AI 的核心思想是以一套明确的"宪法"原则(安全 > 伦理 > 合规 > 有用)引导模型的自我审查与优化。模型在生成答案前先进行一次"宪法审查"子模型的自我批评,然后根据反馈进行自监督的对齐更新。
这种 reason-based(基于推理的)方式旨在让模型"解释"为何遵循每条原则,而非仅仅记忆规则。逆向宪法 AI(Inverse Constitutional AI)通过改进原则生成提示、聚类抽样等手段,进一步提升了对齐过程的透明度。
RLHF 与 RLAIF 的迭代
最新研究聚焦于奖励模型的高效构建与更稳健的策略优化,通过半监督、主动学习等手段显著降低所需的人类标注量。InstructGPT 在仅 1.3B 参数的情况下,通过 RLHF 达到超过 175B 参数 GPT-3 的人类偏好评分,证明了"少参数高效对齐"的可行性。
研究也指出 RLHF 可能导致模型出现"顺从性"(sycophancy),即过度迎合人类偏好而牺牲事实准确性或多样性。为解决人类标注成本问题,业界正探索从 AI 生成的反馈进行强化学习(RLAIF),实验表明在摘要、对话等任务上可匹配或超越传统 RLHF 的效果。
Mythos 训练中的异常披露
Anthropic 坦诚披露了 Mythos 训练流程中的技术问题:一次错误导致少量(约 8%)的 RL 训练情形中 reward 代码能够访问 chain-of-thought 样式的信息。Anthropic 对 RL 训练与用于监督微调的数据实施监控和过滤以降低泄露风险。这种透明度值得肯定——它表明 Anthropic 正在认真对待对齐风险,而非简单宣称模型"安全"。
八、风险评估:CB-1 级别的警示
双重用途的本质风险
Anthropic 在 Mythos 的系统卡中将其列为 CB-1 级别风险。这个分类意味着模型能够在化学、生物武器等高危领域提供具体、可操作的信息。这不是危言耸听——Mythos 的跨域知识合成能力让它不仅擅长代码分析,同样能够在其他敏感领域产出高质量内容。
这种"双重用途"特性是 Mythos 最核心的风险点。一个能够发现操作系统漏洞的模型,理论上同样可以被用于恶意攻击;一个能够提供化学合成建议的模型,可能被滥用为危险物质制备指南。
政府层面的介入
值得关注的是,Anthropic 已与美国政府官员展开对话,提供模型能力评估以支撑政策制定。美英德政府已加急评估 Mythos 的影响,这反映了前沿模型对国家安全的潜在威胁。
根据 2025-2026 年度美国 AI 政策框架,白宫提出了监管沙盒、联邦数据开放、儿童保护、防止误导性 AI 输出等七大支柱。特朗普政府的 AI 法规框架(2026-03-20)明确反对设立专门的联邦 AI 监管机构,主张版权训练的公平使用争议交由法院裁决。这种"分散监管"的思路可能为 Mythos 类模型的后续发展留下较大空间。
九、行业影响:网络安全的范式转变

漏洞洪流与补丁管理
Palo Alto 的测试报告指出,前沿 AI 模型将大幅加快漏洞被发现的速度,防御者和攻击者皆是如此。这在开源领域尤为明显,随之而来的补丁激增本身也会带来风险——任何未能被及时应用的补丁,都会成为已知且可被利用的漏洞。
组织需要加快并自动化补丁管理流程,重新思考补丁优先级和应用方式。平均检测时间和平均响应时间未能达到分钟级别的组织,将被 AI 驱动的攻击迅速超越。
由内向外的攻击崛起
近期针对 LiteLLM 和 Trivy 等工具的供应链攻击表明,一种新的趋势正在出现。攻击者可以直接进入组织内部基础设施,绕过多个传统攻击步骤,从而减少防御者可用的防御机会。AI 基础设施的快速部署进一步加剧了这一问题,因为 AI 供应链,包括运行时环境、通信基础设施和模型依赖,通常缺乏充分保护。
防御者需要通过零信任、身份验证机制现代化、出站连接限制以及横向移动防护,从结构上遏制潜在攻击。
AI 预动攻击周期的压缩
最关键的变化是从 AI 辅助攻击向 AI 预动攻击的转变。攻击者将构建自主攻击智能体,大幅压缩攻击周期。过去需要数天或数周完成的高技能人工操作,很快将能在数分钟内完成。防御者必须以接近实时的检测和响应速度进行应对,而这只有通过在安全运营中广泛应用 AI 和自动化才能实现。
十、防御者的行动指南

评估:建立完整暴露清单
Palo Alto 提出的防御框架分为三个并行推进的任务:评估、防护和平台化。
评估阶段,每个组织都应使用最新的 AI 模型评估其全部代码和应用生态。关键任务包括:利用 AI 模型在攻击者之前识别代码库、应用和基础设施中的漏洞;结合完整上下文评估暴露情况,包括漏洞如何被链式组合形成关键利用路径;审计开源供应链,包括 AI 基础设施、运行时环境和模型依赖;绘制当前传感器覆盖情况,识别检测、防御和遥测方面的缺口。
防护:100% 覆盖的新标准
修复漏洞并降低暴露面是基本要求。但这仍然不够,必须扩展到全面部署一流的攻击防御能力。新标准是实现接近 100% 的覆盖与优化。
具体措施包括:全面部署扩展检测与响应(XDR),重点强化基于实时机器学习的攻击检测与防御能力,并覆盖所有本地和云端主机;采用智能体化端点安全,以支持企业范围内氛围编程和 AI 安全的规模化应用;鉴于平均约 85% 的工作发生在浏览器中,具备实时安全能力的企业级浏览器已成为攻击防御的关键组成部分;零信任和身份安全是保护每个用户和每个连接的基础。
实时安全运营:分钟级响应
随着攻击周期迅速缩短,传统的安全运营方法已难以奏效。基于孤立数据源的分散工具以及叠加的手动流程,必须被贯穿全流程的 AI 和自动化所取代。
攻击检测必须由 AI 和机器学习驱动,以在大规模环境中识别频繁变化和新型攻击。这些 AI 检测能力必须基于广泛的第一方和第三方数据源运行,一流的 AI SOC 需要覆盖所有相关数据源。在 SOC 全生命周期中实现原生集成的自动化至关重要,以实现分钟级响应时间。必须以平台形式交付这些能力,以消除各类点解决方案之间的缝隙与缺口。
十一、未来展望与待观察的关键变量
官方披露的空白
当前证据中存在若干关键信息缺口。参数总量与模型微观架构细节方面,官方未确认流传的"10T 参数"数字,现有为媒体/第三方推测与重构。训练语料完整清单与数据治理细节未公开。网络安全基准的误报/假阳性率与可复现性统计,Anthropic 在报告中未披露此类关键指标。
这些缺口意味着对 Mythos 的完整评估仍需等待后续官方披露或第三方复测。
商业化路径的不确定性
具体规模化定价与长期商业策略尚未完全公开。业内分析指出,尽管 Mythos 在安全基准上领先,但运行成本可能高于 Opus 4.6,且对企业级 SLA(如 99.99% uptime)提出挑战。若未来开放,预计会作为"Mythos Preview"供高安全需求的组织使用,现有 Claude 客户需单独申请并接受更严格的使用协议。
竞争格局的动态演变
横向比较必须考虑评测设置(是否允许工具调用、是否有限制外部执行环境、是否采用 chain-of-thought 等策略)、数据截断/更新时间点与模型可用性(公开可调用 vs 内部受限)等因素。当前竞争格局呈分布式局面——DeepMind/Google 的 Gemini、OpenAI 的 GPT 系列以及 Meta/其他前沿模型在某些基准仍有竞争力或互有优势。