区块链安全测试的最新突破是 GPT-5.3-Codex 在漏洞利用模式测试中取得了令人印象深刻的 72.2% 的成功率,突显了高级算法的巨大潜力。这一由 OpenAI 和 Paradigm 通过其 EVMbench 工具率先开发的成果,展示了 AI 代理如何提升以太坊的安全性,通过严格评估智能合约漏洞,标志着朝着更具弹性的去中心化生态系统迈出了关键一步。
以太坊 (ETH) 价格
EVMbench 的突破:安全的新前沿
不断发展的去中心化金融 (DeFi) 和 Web3 应用领域在很大程度上依赖于智能合约的完整性。这些自动执行的协议构成了以太坊网络的主干,为从复杂的金融协议到新的代币发行等所有内容提供支持。认识到对强大安全性的迫切需求,以其突破性 AI 模型而闻名的 OpenAI 与专注于加密货币的投资公司 Paradigm 合作推出了 EVMbench。这种创新工具专门用于评估 AI 代理在保护以太坊虚拟机 (EVM) 免受高危漏洞攻击方面的能力。
智能合约部署的爆炸性增长凸显了对这种工具的迫切需求。链上指标显示,仅在 2025 年 11 月,以太坊上就部署了惊人的 170 万个智能合约,在 2026 年 2 月 18 日之前的一周内出现了 669,500 个新合约。这种指数级增长扩大了攻击面,使得 AI 驱动的安全解决方案不仅有益,而且必不可少。EVMbench 提供了一个至关重要的测试平台,它利用了来自 40 个真实世界审计的 120 个精选漏洞的综合数据集,其中许多来自像 Code4rena 这样的著名开放审计竞赛。它甚至包含了来自 Tempo 安全审查的场景,Tempo 是 Stripe 专门的第 1 层区块链,专为高吞吐量、低成本的稳定币支付而设计,该区块链于 2025 年 12 月启动了其公共测试网。
剖析 EVMbench 的三重威胁评估
EVMbench 采用了一种复杂的三管齐下的方法来评估 AI 模型:检测、修补和利用。每种模式都经过定制,以测试 AI 代理安全能力的各个方面,从而对其能力进行全面评估。在“检测”阶段,AI 代理的任务是审计智能合约存储库,并根据其识别已知漏洞的准确性进行评分。这反映了人类审计师的初始侦察和分析阶段。在检测之后,“修补”模式挑战代理消除已识别的漏洞,而不会无意中引入新的错误或破坏合约的预期功能——即使对于经验丰富的开发人员来说,这也是一种难以实现的微妙平衡。
“利用”阶段可能最具说服力,因为它推动 AI 代理在沙盒区块链环境中执行端到端的资金耗尽攻击。这模拟了真实世界的攻击场景,评分由确定性交易重放决定,确保精确评估代理利用弱点的能力。此模式的结果特别具有启发性:GPT-5.3-Codex 利用 OpenAI 的 Codex CLI 实现了令人印象深刻的 72.2% 的成功率。这与其前身 GPT-5 形成了鲜明对比,GPT-5 是在六个月前发布的,成功率为 31.9%。虽然检测和修补任务的性能显示仍有改进空间,代理偶尔未能进行详尽的审计或难以保持完整的合约功能,但利用模式结果表明 AI 的攻击和防御能力有了明显且快速的进步。很明显,AI 代理通过推动自动化漏洞评估的界限来提升以太坊的安全性。
真实世界的关联性和不断扩展的加密货币领域
EVMbench 背后的设计理念强调将其测试建立在具有经济意义的真实代码之上。随着 AI 驱动的稳定币支付持续扩展,这种关注点尤其重要,Stripe 的 Tempo 就是一个例证。Stripe 进军专用第 1 层区块链,该区块链是在 Visa、Shopify 和 OpenAI 等行业巨头的参与下开发的,突显了传统金融、AI 和区块链技术的日益融合。为 EVMbench 精选的漏洞不是理论上的构造,而是源自实际审计,确保基准反映了当今智能合约开发人员和审计师面临的实际挑战。
尽管 EVMbench 具有先进的功能,但 OpenAI 的研究人员承认,它尚未完全捕捉到真实世界安全环境的巨大复杂性。但是,他们强调,在这种具有经济意义的环境中衡量 AI 性能至关重要。随着 AI 模型变得越来越强大,它们也成为恶意行为者和勤奋防御者的越来越强大的工具。因此,像 EVMbench 这样的基准在确保数字前沿安全的持续军备竞赛中是不可或缺的,它可以帮助社区了解在哪里可以最有效地部署 AI 来保护有价值的数字资产。
以太坊 (ETH) 趋势
去中心化 AI:Vitalik 对安全未来的愿景
围绕 AI 在安全领域的作用的讨论自然延伸到关于其开发和治理的更广泛的哲学辩论。以太坊联合创始人 Vitalik Buterin 一直是 AI 去中心化方法的积极倡导者,这与他认为的盲目“AGI 竞赛”(通用人工智能)形成鲜明对比。Buterin 倡导将以太坊风格的原则——例如去中心化、可验证计算和隐私——作为 AI 时代的必要保障。他在 2025 年 1 月表示,“致力于 AGI”的目标常常忽略了关键的伦理考虑,而是专注于不加区分地争夺“顶端”。
Buterin 的愿景包括为 AI 系统实施“软暂停”功能,如果出现警告信号,该功能可能会暂时限制工业规模的 AI 运营。这种观点与 Sam Altman 等人在 2025 年 1 月发表的声明形成对比,Altman 对 OpenAI 构建传统意义上的 AGI 的能力表示有信心。这些有影响力的人物之间持续的对话突显了塑造 AI 未来的不同观点。最终,集成强大、可验证的 AI 安全代理(如 EVMbench 测试的那些代理)符合 Buterin 关于负责任和去中心化 AI 开发的呼吁,其中 AI 代理不仅通过技术实力来提升以太坊的安全性,还通过遵守道德和去中心化原则来提升以太坊的安全性。对于那些希望驾驭这个复杂且快速发展的市场的人来说,像 cryptoview.io 这样的平台提供了有价值的见解和工具,用于跟踪发展和机会。
