Los modelos de IA bloquean el 87% de los ataques únicos, pero sólo el 8% cuando los atacantes persisten Mas Cipolleti

Los modelos de IA bloquean el 87% de los ataques únicos, pero sólo el 8% cuando los atacantes persisten. Noticias en tiempo real 22:06

Se bloquea un mensaje malicioso, mientras que se respetan diez mensajes. Esta brecha define la diferencia entre superar los puntos de referencia y resistir ataques del mundo real, y es una brecha que la mayoría de las empresas no saben que existe.

Cuando los atacantes envían una única solicitud maliciosa, los modelos de IA abiertos mantienen la línea bien, bloqueando los ataques el 87% de las veces (en promedio). Pero cuando estos mismos atacantes envían múltiples indicaciones en una conversación mediante sondeo, reencuadre y escalada en múltiples intercambios, la matemática se revierte rápidamente. Las tasas de éxito de los ataques aumentan del 13% al 92%.

Para los CISO que evalúan modelos abiertos para la implementación empresarial, las implicaciones son inmediatas: los modelos que impulsan sus chatbots de cara al cliente, copilotos internos y agentes autónomos pueden superar los puntos de referencia de seguridad en un solo turno y fallar catastróficamente bajo una presión adversa sostenida.

“Muchos de estos modelos han comenzado a mejorar un poco”, dijo a VentureBeat DJ Sampath, vicepresidente senior del grupo de plataformas de software de inteligencia artificial de Cisco. “Cuando atacas una vez, con ataques de un solo turno, son capaces de protegerte. Pero cuando pasas de un solo turno a varios turnos, de repente estos modelos empiezan a exhibir vulnerabilidades en las que los ataques tienen éxito, casi el 80% en algunos casos”.

Por qué las conversaciones rompen los modelos de peso abiertos

El equipo de seguridad e investigación de amenazas de IA de Cisco descubrió que los modelos de IA de peso abierto que bloquean ataques individuales colapsan bajo el peso de la persistencia conversacional. El estudio publicado recientemente muestra que las tasas de éxito del jailbreak aumentan casi diez veces cuando los atacantes extienden la conversación.

Los hallazgos, publicados en “Muerte por mil indicaciones: análisis de vulnerabilidad del modelo abierto” de Amy Chang, Nicholas Conley, Harish Santhanalakshmi Ganesan y Adam Swanda, cuantifican lo que muchos investigadores de seguridad han observado y sospechado durante mucho tiempo, pero no han podido probar a escala.

Pero la investigación de Cisco sí lo hace, y demuestra que tratar los ataques de IA de bucle múltiple como una extensión de las vulnerabilidades de bucle único es completamente erróneo. La diferencia entre ellos es categórica y no una cuestión de grado.

El equipo de investigación evaluó ocho modelos de peso abierto: Alibaba (Qwen3-32B), DeepSeek (v3.1), Google (Gemma 3-1B-IT), Meta (Llama 3.3-70B-Instruct), Microsoft (Phi-4), Mistral (Large-2), OpenAI (GPT-OSS-20b) y Zhipu AI (GLM 4.5-Air). Utilizando la metodología de caja negra (o pruebas sin conocimiento de la arquitectura interna, que es exactamente cómo operan los atacantes en el mundo real), el equipo midió lo que sucede cuando la persistencia reemplaza los ataques únicos.

los investigadores observación: “Las tasas de éxito de ataques de un solo turno (ASR) promedian el 13,11%, ya que los modelos pueden detectar y rechazar más fácilmente entradas adversas aisladas. En contraste, los ataques de múltiples turnos, aprovechando la persistencia conversacional, logran un ASR promedio del 64,21% [a 5X increase]Algunos modelos como Alibaba Qwen3-32B alcanzan un ASR del 86,18% y Mistral Large-2 alcanzan un ASR del 92,78%. “Este último subió un 21,97% en un solo giro.

Los resultados definen la brecha

El equipo de investigación del artículo proporciona una visión sucinta de la resistencia del modelo de peso abierto contra ataques: “Esta escalada, que va de 2x a 10x, surge de la incapacidad de los modelos para mantener defensas contextuales en diálogos extendidos, lo que permite a los atacantes refinar las indicaciones y eludir las salvaguardas”.

Figura 1: Tasas de éxito de ataques de una sola ronda (azul) versus tasas de éxito de múltiples rondas (rojo) en los ocho modelos probados. La diferencia oscila entre 10 puntos porcentuales (Google Gemma) y más de 70 puntos porcentuales (Mistral, Llama, Qwen). Fuente: Defensa de la IA de Cisco

Las cinco técnicas que hacen letal la perseverancia

La investigación probó cinco estrategias de ataque de múltiples turnos, cada una de las cuales explotaba un aspecto diferente de la persistencia conversacional.

  • Descomposición y reensamblaje de información: Divide las solicitudes dañinas en componentes inofensivos entre turnos y luego los vuelve a ensamblar. Contra el Mistral Large-2, esta técnica tuvo un 95% de éxito.

  • La ambigüedad contextual introduce un marco vago que confunde a los clasificadores de seguridad, logrando un 94,78% de éxito contra Mistral Large-2.

  • Los ataques crecientes aumentan gradualmente las solicitudes a lo largo de los turnos, comenzando de manera inocua y aumentando hasta dañar, logrando un 92,69 % de éxito contra Mistral Large-2.

  • Los juegos de roles y la adopción de personajes establecen contextos ficticios que normalizan los resultados dañinos, logrando hasta un 92,44% de éxito contra el Mistral Large-2.

  • La negativa a rediseñar el reempaquetado rechazó solicitudes con diferentes justificaciones hasta que una tuvo éxito, alcanzando hasta un 89,15% de éxito contra Mistral Large-2.

Lo que hace que estas técnicas sean efectivas no es la sofisticación, sino la familiaridad. Reflejan cómo los humanos conversan naturalmente: construyendo texto, aclarando solicitudes y reformulando cuando los enfoques iniciales fallan. Los modelos no son vulnerables a ataques exóticos. Son susceptibles a su propia persistencia.

Tabla 2: Tasas de éxito de los ataques por técnica en todos los modelos. La coherencia entre técnicas significa que las empresas no pueden defenderse de un solo estándar. Fuente: Defensa de la IA de Cisco

La paradoja de la seguridad abierta

Esta investigación alcanza un punto de inflexión crítico a medida que el código abierto contribuye cada vez más a la ciberseguridad. Los modelos de código abierto y peso abierto se han vuelto fundamentales para la innovación en la industria de la ciberseguridad. Desde acelerar el tiempo de comercialización de las empresas emergentes, reducir la dependencia de los proveedores empresariales y permitir una personalización que los modelos propietarios no pueden igualar, El código abierto se considera la plataforma ideal. por la mayoría de las nuevas empresas de ciberseguridad.

La paradoja no pasa desapercibida para Cisco. La propia empresa Fundación-Sec-8B El modelo, desarrollado específicamente para aplicaciones de ciberseguridad, se distribuye como pesos abiertos en Hugging Face. Cisco no sólo critica los modelos de sus competidores. La compañía reconoce una vulnerabilidad sistémica que afecta a todo el ecosistema de peso abierto, incluidos los modelos que ella misma lanza. El mensaje no es “evitar modelos abiertos”. Se trata de “comprender lo que está implementando y agregar las protecciones adecuadas”.

Sampath es directo sobre las implicaciones: “El código abierto tiene su propio conjunto de inconvenientes. Cuando comienzas a usar un modelo de peso abierto, necesitas pensar en cuáles son las implicaciones de seguridad y asegurarte de que constantemente estás poniendo los tipos correctos de salvaguardas alrededor del modelo”.

Tabla 1: Tasas de éxito de los ataques y brechas de seguridad en todos los modelos probados. Las brechas superiores al 70% (Qwen con +73,48%, Mistral con +70,81%, Llama con +70,32%) representan candidatos de alta prioridad para barreras de seguridad adicionales antes del despliegue. Fuente: Cisco AI Defense.

Por qué la filosofía del laboratorio define los resultados de seguridad

La brecha de seguridad descubierta por Cisco está directamente relacionada con la forma en que los laboratorios de IA abordan la alineación.

Su investigación deja claro este patrón: “Los modelos que se centran en las capacidades (por ejemplo, Llama) demostraron las mayores brechas de múltiples turnos, y Meta explicó que los desarrolladores están ‘en el asiento del conductor para adaptar la seguridad a su caso de uso’ en la capacitación posterior. Los modelos que se centraron en gran medida en la alineación (por ejemplo, Google Gemma-3-1B-IT) demostraron un perfil más equilibrado entre las estrategias de un solo turno y de múltiples turnos implementadas en su contra, lo que indica un enfoque en ‘protocolos de seguridad’ estrictos’ y ‘bajo nivel de riesgo’ por mal uso.”

Los laboratorios que priorizan la capacidad producen brechas en la capacidad. Llama da Meta muestra una brecha de seguridad del 70,32%. El modelo de tarjeta de Mistral para Large-2 reconoce que no tiene “ningún mecanismo de moderación” y muestra una brecha del 70,81%. Los informes técnicos Qwen de Alibaba no reconocen ningún problema de seguridad y el modelo tiene la mayor diferencia con un 73,48%.

Los laboratorios que priorizan la seguridad producen brechas más pequeñas. Gemma de Google enfatiza “protocolos de seguridad rigurosos” y apunta a un “bajo nivel de riesgo” por uso indebido. El resultado es una diferencia menor, del 10,53%, con un rendimiento más equilibrado en escenarios de una y varias vueltas.

Los modelos optimizados en cuanto a capacidad y flexibilidad tienden a llegar con menos seguridad incorporada. Esta es una elección de diseño y, para muchos casos de uso empresarial, es la elección correcta. Pero las empresas deben reconocer que “primero la capacidad” a menudo significa “segundo la seguridad” y presupuestar en consecuencia.

Donde los ataques tienen más éxito

Cisco probó 102 categorías de subamenazas distintas. Los 15 primeros lograron altas tasas de éxito en todos los modelos, lo que sugiere que las contramedidas específicas podrían proporcionar mejoras de seguridad desproporcionadas.

Figura 4: Las 15 categorías de subamenazas más vulnerables, clasificadas según la tasa promedio de éxito de los ataques. Las operaciones de infraestructura maliciosas lideran con un 38,8%, seguidas por el tráfico de oro (33,8%), las operaciones de ataque a redes (32,5%) y el fraude de inversiones (31,2%). Fuente: Cisco AI Defense.

Figura 2: Tasas de éxito de los ataques en 20 categorías de amenazas y en los ocho modelos. La generación de código malicioso muestra tasas consistentemente altas (3,1% a 43,1%), mientras que los intentos de extracción de modelos muestran un éxito casi nulo, a excepción de Microsoft Phi-4. Fuente: Cisco AI Defense.

La seguridad como clave para desbloquear la adopción de la IA

Sampath enmarca la seguridad no como un obstáculo sino como el mecanismo que permite la adopción: “La forma en que la gente de seguridad dentro de las empresas piensa sobre esto es: ‘Quiero desbloquear la productividad para todos mis usuarios. Todos claman por usar estas herramientas. Pero necesito implementar las protecciones adecuadas porque no quiero aparecer en un Diario de Wall Street jugar"”, le dijo a VentureBeat.

Sampath continuó: “Si tenemos la capacidad de ver ataques de inyección inmediatos y bloquearlos, entonces podré desbloquear y desencadenar la adopción de la IA de una manera fundamentalmente diferente”.

Lo que requiere la defensa

La investigación destaca seis capacidades críticas que las empresas deberían priorizar:

  • Barandillas sensibles al contexto que mantienen el estado a lo largo de los turnos de conversación

  • Protecciones de tiempo de ejecución independientes del modelo

  • Equipo rojo continuo enfocado en estrategias de turnos múltiples

  • Avisos del sistema reforzados diseñados para resistir la sustitución de instrucciones

  • Registro completo para visibilidad forense

  • Mitigaciones de amenazas específicas para las 15 principales categorías de subamenazas identificadas en la investigación

La ventana para la acción

Sampath advierte contra la espera: “Mucha gente está en este patrón de espera, esperando a que la IA se calme. Esa es la forma equivocada de pensarlo. Cada dos semanas sucede algo dramático que restablece esa imagen. Elige un compañero y comienza a duplicar tu apuesta”.

Como concluyen los autores del informe: “La superioridad de 2 a 10 veces de los ataques de bucle múltiple sobre los ataques únicos, las debilidades específicas del modelo y los patrones de amenazas de alto riesgo requieren una acción urgente”.

Para repetir: se bloquea un mensaje, se completan 10 mensajes. Esta ecuación no cambiará hasta que las empresas dejen de probar defensas de un solo turno y comiencen a proteger conversaciones enteras.

Fuente


Compartir en:
   

 

 

Ángel Sepúlveda, en la mira de Chivas para reforzar su delantera. 21:23

Chivas ha iniciado la búsqueda de opciones para fortalecer su ataque de cara al Torneo Clausura 2026

El Informador

Starbucks pagará cerca de $35 millones a sus empleados por violar leyes laborales en NYC.21:43

La mayoría de los empleados afectados que ocuparon puestos por hora recibirán 50 dólares por cada semana trabajada desde julio de 2021 hasta julio de 2024, según el Departamento.

Telemundo 47

#Morelia Con +2 Millones De Luces Llegó La Navidad Al Centro Histórico Este Lunes. 21:59

STAFF/Felipe Trujillo – @_FelipeTrujillo Con más de 2 millones de lucecitas, llegó la navidad esta noche a la capital michoacana, ante la mirada de cientos de personas. Este espectáculo dio inicio cerca de las 7 de la noche, sobre la avenida Francisco I Madero, donde cientos de personas esperaban ya ansioso que arrancara el encendido ̷

Changoonga

Lugares para viajar con amigos para tu próxima aventura en grupo.

Organizar una escapada con tus mejores amigos es una de las experiencias más gratificantes que pueden vivir juntos. Elegir bien los lugares para viajar con amigos marcará la diferencia entre unas vacaciones más y una aventura que recordarán toda la vida.

Lado.mx

Ventajas de la fibra óptica con Totalplay: conexión estable, rápida y confiable.

En un mundo cada vez más digital, contar con una conexión a Internet rápida y estable es indispensable.

Lado.mx

La revolución del marketing callejero en México.

En un país donde las calles hablan más fuerte que los comerciales de televisión, la publicidad tradicional empieza a quedarse sin voz.

Lado.mx

Muere Fernando Meza, creativo de Huevocartoon y voz de Tlacua.20:46

Gustavo AlonsoEl estudio de animación Huevocartoon informó el fallecimiento de Fernando Javier Meza Muñoz, una de las voces creativas más reconocidas del equipo.La noticia fue anunciada mediante una publicación en las redes sociales oficiales de la compañía, donde expresan su pesar por la muerte del actor y repasan su trayectoria dentro del

Excelsior

Muere Fernando Meza, fundador de ‘HuevoCartoon’ y voz de varios personajes del estudio de animación mexicano. 20:50

El estudio lamenta el deceso de uno de sus miembros fundadores, de quien resaltaron su creatividad y talento para la comedia

Infobae

Cruz Azul lanza precios para Semifinal de Ida ante Tigres. 20:07

Cruz Azul lanza precios para Semifinal de Ida ante Tigres El conjunto cementero logró su agónico pase a la antesala de la Gran Final hace unas horas eariasLun, 01/12/2025 - 19:49 La afición cementera volvió a demostrar su fidelidad

Record

Este es el precio de la gasolina en Ciudad de México para el 1 de diciembre.05:20

El costo de los combustibles en el país puede variar debido a una diversidad de factores como son los precios de referencia, impuestos y la logística para el traslado

Infobae

Jóvenes mexicanos redefinen su permanencia laboral en busca de propósito personal. 04:45

Cada vez más jóvenes renuncian antes de dos años en busca de propósito laboral, revela estudio de Indeed; una tendencia que desafía la permanencia tradicional

NotiPress

pensiones mujeres bienestar

Registro a Pensiones de Personas Adultas Mayores y Mujeres Bienestar, del 1 al 13 de diciembre. 14:29

1 de diciembre de 2025 Este lunes 1 de diciembre arrancaron nuevos registros a la Pensión para el Bienestar de las Personas Adultas Mayores y a la Pensión Mujeres Bienestar. Los trámites de registro se llevan a cabo desde hoy y hasta el 13 de diciembre en los Módulos del Bienestar instalados en todo el […]

Programas para el Bienestar

Calendario de registro para la Pensión Bienestar de Adultos Mayores y Mujeres Bienestar diciembre 2025: días por letra de apellido . 15:37

Ya estamos en el último mes del año, y como es costumbre los programas sociales para el Bienestar comienzan una nueva ronda de registros para que las personas interesadas reciban apoyo monetario. Aquí en Xataka Basics México te contamos cómo queda el calendario de diciembre 2025 p

Xataka México

Inicia registro para pensiones de Adulto Mayor y Mujeres Bienestar en Sonora: estas son las fechas y requisitos. 17:00

Hermosillo, Sonora, 1 de diciembre de 2025.— Del 1 al 13 de diciembre se llevará a cabo en Sonora el registro para la Pensión para el Bienestar de las Personas Adultas Mayores y la Pensión Mujeres Bienestar, en cumplimiento del compromiso de la presidenta de México, Claudia Sheinbaum Pardo, informó el delegado de Bienestar en […]The po

Proyecto Puente

fatima bosch miss universe

Fátima Bosch: «Ningún ataque hará que me arrodille», ¿Fin a los rumores de renuncia a Miss Universe?. 28 de Noviembre, 2025 22:53

En medio de un huracán de controversias que rodea a la organización Miss Universe y a su propia coronación, laLa entrada Fátima Bosch: «Ningún ataque hará que me arrodille», ¿Fin a los rumores de renuncia a Miss Universe? se publicó primero en .

LaBotana.com

Fátima Bosch rompe el silencio tras ganar Miss Universo 2025: ‘Todo lo que dicen de mí es falso’ . 14:06

Fátima Bosch rompe el silencio tras ganar Miss Universo 2025: ‘Todo lo que dicen de mí es falso’ La mexicana llegó a Nueva York para comenzar su reinado tras la polémica de su triunfo gcatarinoLun, 01/12/2025 - 13:34 Fátima

Record

Fátima Bosch rompe el silencio tras su polémica coronación como Miss Universe 2025. 15:05

Nueva Jersey, E.U. — Fátima Bosch, recientemente coronada como Miss Universe 2025, rompió el silencio luego de varios días de especulaciones y controversia sobre su triunfo en el certamen internacional. La mexicana originaria de Tabasco arribó a Nueva Jersey para comenzar sus actividades oficiales, y aprovechó su primera aparición pública

Canal 44

primera división

Una escena eliminada de Star Wars ayudó a cambiar por completo el origen de la Alianza Rebelde, y lo que viste en Andor . 08:08

Hay momentos de la saga Star Wars que, sin ser muy conocidos, resultan claves para esta mitología y logran hacerse un hueco en el corazón de los fans más fieles. Por ejemplo, el inicio de la Guerra Civil Galáctica entre el Imperio y los rebeldes es increíblemente complejo, y a dí

3d Juegos

El eco del imperio vuelve a Foxborough. 22:26

Ariel VelázquezLas noches grandes siempre han tenido una cadencia particular en Foxborough. Un murmullo que se vuelve sentencia cuando el partido avanza y el rival entiende que está jugando contra algo más que 11 jugadores. Bajo las potentes luces de Monday Night Football, los Patriots vencieron 33-15 a los Giants y cerraron la Semana 13 como

Excelsior

El Arsenal de Mikel Arteta está demostrando la resiliencia de los campeones | primera división. 22:49

ttiene un hueco en la cima son cinco puntos. El Arsenal ha jugado dos de sus tres partidos fuera de casa más difíciles de la temporada. Han tenido una semana extremadamente difícil con su reputación mejorada, a pesar de no contar con uno de sus centrales titulares en los tres partidos y dos de ellos. […]

Mas Cipolleti