Un reciente avance en las pruebas de seguridad de blockchain vio a GPT-5.3-Codex lograr una impresionante tasa de éxito del 72.2% en las pruebas de modo exploit, destacando el potencial significativo de los algoritmos avanzados. Este desarrollo, encabezado por OpenAI y Paradigm a través de su herramienta EVMbench, demuestra cómo los agentes de IA impulsan la seguridad de Ethereum al evaluar rigurosamente las vulnerabilidades de los contratos inteligentes, marcando un paso fundamental hacia un ecosistema descentralizado más resiliente.
Precio de Ethereum (ETH)
El avance de EVMbench: una nueva frontera para la seguridad
El panorama en constante evolución de las finanzas descentralizadas (DeFi) y las aplicaciones Web3 depende en gran medida de la integridad de los contratos inteligentes. Estos acuerdos de auto-ejecución forman la columna vertebral de la red Ethereum, impulsando todo, desde protocolos financieros complejos hasta nuevos lanzamientos de tokens. Reconociendo la necesidad crítica de una seguridad robusta, OpenAI, conocido por sus innovadores modelos de IA, se asoció con la firma de inversión centrada en criptomonedas Paradigm para presentar EVMbench. Esta innovadora herramienta está diseñada específicamente para evaluar las capacidades de los agentes de IA en la protección de la Máquina Virtual de Ethereum (EVM) contra vulnerabilidades de alta gravedad.
La urgencia de tal herramienta se ve subrayada por el crecimiento explosivo en la implementación de contratos inteligentes. Las métricas en cadena revelan que se implementaron la asombrosa cantidad de 1.7 millones de contratos inteligentes en Ethereum solo en noviembre de 2025, con 669,500 nuevos contratos que surgieron en la semana anterior al 18 de febrero de 2026. Este aumento exponencial amplifica la superficie de ataque, haciendo que las soluciones de seguridad impulsadas por IA no solo sean beneficiosas, sino esenciales. EVMbench proporciona un campo de pruebas crucial, basándose en un conjunto de datos completo de 120 vulnerabilidades seleccionadas provenientes de 40 auditorías del mundo real, muchas de las cuales provienen de importantes competiciones de auditoría abierta como Code4rena. Incluso incorpora escenarios de la revisión de seguridad de Tempo, la blockchain especializada de capa 1 de Stripe, diseñada para pagos de stablecoins de alto rendimiento y bajo costo, que lanzó su testnet pública en diciembre de 2025.
Desembalaje de la evaluación de triple amenaza de EVMbench
EVMbench emplea un sofisticado enfoque de tres vertientes para evaluar los modelos de IA: Detectar, Parchear y Explotar. Cada modo está adaptado para probar diferentes facetas de la destreza de seguridad de un agente de IA, proporcionando una evaluación holística de sus capacidades. En la fase de «detectar», los agentes de IA tienen la tarea de auditar los repositorios de contratos inteligentes y se les califica en función de su precisión en la identificación de vulnerabilidades conocidas. Esto refleja la fase inicial de reconocimiento y análisis de un auditor humano. Después de la detección, el modo «parchear» desafía a los agentes a eliminar las vulnerabilidades identificadas sin introducir inadvertidamente nuevos errores o interrumpir la funcionalidad prevista del contrato, un delicado equilibrio que a menudo resulta difícil incluso para los desarrolladores experimentados.
La fase de «explotar» es quizás la más reveladora, ya que impulsa a los agentes de IA a realizar ataques de drenaje de fondos de extremo a extremo dentro de un entorno blockchain aislado. Esto simula escenarios de ataque del mundo real, con una calificación determinada por la repetición determinista de transacciones, lo que garantiza una evaluación precisa de la capacidad de un agente para capitalizar las debilidades. Los resultados de este modo han sido particularmente esclarecedores: GPT-5.3-Codex, aprovechando Codex CLI de OpenAI, logró una impresionante tasa de éxito del 72.2%. Esto contrasta marcadamente con su predecesor, GPT-5, que se lanzó seis meses antes y logró una tasa de éxito del 31.9%. Si bien el rendimiento en las tareas de detección y parcheo mostró margen de mejora, con agentes que ocasionalmente no realizaban auditorías exhaustivas o tenían dificultades para preservar la funcionalidad completa del contrato, los resultados del modo de explotación demuestran un avance claro y rápido en las capacidades ofensivas y defensivas de la IA. Está claro que los agentes de IA impulsan la seguridad de Ethereum al superar los límites de la evaluación automatizada de vulnerabilidades.
Relevancia en el mundo real y el panorama criptográfico en expansión
La filosofía de diseño detrás de EVMbench enfatiza el anclaje de sus pruebas en código económicamente significativo del mundo real. Este enfoque es particularmente vital a medida que los pagos con stablecoins impulsados por IA continúan expandiéndose, una tendencia ejemplificada por Tempo de Stripe. La incursión de Stripe en una blockchain dedicada de capa 1, desarrollada con aportes de gigantes de la industria como Visa, Shopify y OpenAI, destaca la creciente intersección de las finanzas tradicionales, la IA y la tecnología blockchain. Las vulnerabilidades seleccionadas para EVMbench no son construcciones teóricas, sino que se derivan de auditorías reales, lo que garantiza que el punto de referencia refleje los desafíos prácticos que enfrentan los desarrolladores y auditores de contratos inteligentes en la actualidad.
A pesar de sus capacidades avanzadas, los investigadores de OpenAI reconocen que EVMbench aún no captura completamente la inmensa complejidad de los entornos de seguridad del mundo real. Sin embargo, enfatizan que medir el rendimiento de la IA en entornos tan económicamente relevantes es primordial. A medida que los modelos de IA se vuelven más poderosos, se convierten en herramientas cada vez más potentes tanto para los actores maliciosos como para los defensores diligentes. Por lo tanto, los puntos de referencia como EVMbench son indispensables en la carrera armamentista en curso para asegurar la frontera digital, ayudando a la comunidad a comprender dónde se puede implementar la IA de manera más efectiva para proteger los valiosos activos digitales.
Tendencia de Ethereum (ETH)
IA descentralizada: la visión de Vitalik para un futuro seguro
La discusión sobre el papel de la IA en la seguridad se extiende naturalmente a debates filosóficos más amplios sobre su desarrollo y gobernanza. El cofundador de Ethereum, Vitalik Buterin, ha sido un defensor vocal de un enfoque descentralizado de la IA, que contrasta marcadamente con lo que él percibe como una «carrera por la AGI» (Inteligencia General Artificial) a ciegas. Buterin aboga por la integración de los principios al estilo Ethereum, como la descentralización, la computación verificable y la privacidad, como salvaguardias esenciales para la era de la IA. Expresó en enero de 2025 que el objetivo de «trabajar en AGI» a menudo pasa por alto consideraciones éticas críticas, centrándose en cambio en una carrera indiferenciada para estar «en la cima».
La visión de Buterin incluye la implementación de una capacidad de «pausa suave» para los sistemas de IA, que podría restringir temporalmente las operaciones de IA a escala industrial si surgieran señales de advertencia. Esta perspectiva contrasta con declaraciones anteriores de figuras como Sam Altman, quien en enero de 2025, expresó su confianza en la capacidad de OpenAI para construir AGI como se entiende tradicionalmente. El diálogo continuo entre estas figuras influyentes subraya las diversas perspectivas que dan forma al futuro de la IA. En última instancia, la integración de agentes de seguridad de IA robustos y verificables, muy parecidos a los probados por EVMbench, se alinea con el llamado de Buterin a un desarrollo de IA responsable y descentralizado, donde los agentes de IA impulsan la seguridad de Ethereum no solo a través de la destreza técnica, sino también a través del cumplimiento de principios éticos y descentralizados. Para aquellos que buscan navegar por este mercado complejo y en rápida evolución, plataformas como cryptoview.io ofrecen valiosos conocimientos y herramientas para rastrear desarrollos y oportunidades.
