Se bloquea un mensaje malicioso, mientras que se respetan diez mensajes. Esta brecha define la diferencia entre superar los puntos de referencia y resistir ataques del mundo real, y es una brecha que la mayoría de las empresas no saben que existe.
Cuando los atacantes envían una única solicitud maliciosa, los modelos de IA abiertos mantienen la línea bien, bloqueando los ataques el 87% de las veces (en promedio). Pero cuando estos mismos atacantes envían múltiples indicaciones en una conversación mediante sondeo, reencuadre y escalada en múltiples intercambios, la matemática se revierte rápidamente. Las tasas de éxito de los ataques aumentan del 13% al 92%.
Para los CISO que evalúan modelos abiertos para la implementación empresarial, las implicaciones son inmediatas: los modelos que impulsan sus chatbots de cara al cliente, copilotos internos y agentes autónomos pueden superar los puntos de referencia de seguridad en un solo turno y fallar catastróficamente bajo una presión adversa sostenida.
“Muchos de estos modelos han comenzado a mejorar un poco”, dijo a VentureBeat DJ Sampath, vicepresidente senior del grupo de plataformas de software de inteligencia artificial de Cisco. “Cuando atacas una vez, con ataques de un solo turno, son capaces de protegerte. Pero cuando pasas de un solo turno a varios turnos, de repente estos modelos empiezan a exhibir vulnerabilidades en las que los ataques tienen éxito, casi el 80% en algunos casos”.
El equipo de seguridad e investigación de amenazas de IA de Cisco descubrió que los modelos de IA de peso abierto que bloquean ataques individuales colapsan bajo el peso de la persistencia conversacional. El estudio publicado recientemente muestra que las tasas de éxito del jailbreak aumentan casi diez veces cuando los atacantes extienden la conversación.
Los hallazgos, publicados en “Muerte por mil indicaciones: análisis de vulnerabilidad del modelo abierto” de Amy Chang, Nicholas Conley, Harish Santhanalakshmi Ganesan y Adam Swanda, cuantifican lo que muchos investigadores de seguridad han observado y sospechado durante mucho tiempo, pero no han podido probar a escala.
Pero la investigación de Cisco sí lo hace, y demuestra que tratar los ataques de IA de bucle múltiple como una extensión de las vulnerabilidades de bucle único es completamente erróneo. La diferencia entre ellos es categórica y no una cuestión de grado.
El equipo de investigación evaluó ocho modelos de peso abierto: Alibaba (Qwen3-32B), DeepSeek (v3.1), Google (Gemma 3-1B-IT), Meta (Llama 3.3-70B-Instruct), Microsoft (Phi-4), Mistral (Large-2), OpenAI (GPT-OSS-20b) y Zhipu AI (GLM 4.5-Air). Utilizando la metodología de caja negra (o pruebas sin conocimiento de la arquitectura interna, que es exactamente cómo operan los atacantes en el mundo real), el equipo midió lo que sucede cuando la persistencia reemplaza los ataques únicos.
los investigadores observación: “Las tasas de éxito de ataques de un solo turno (ASR) promedian el 13,11%, ya que los modelos pueden detectar y rechazar más fácilmente entradas adversas aisladas. En contraste, los ataques de múltiples turnos, aprovechando la persistencia conversacional, logran un ASR promedio del 64,21% [a 5X increase]Algunos modelos como Alibaba Qwen3-32B alcanzan un ASR del 86,18% y Mistral Large-2 alcanzan un ASR del 92,78%. “Este último subió un 21,97% en un solo giro.
El equipo de investigación del artículo proporciona una visión sucinta de la resistencia del modelo de peso abierto contra ataques: “Esta escalada, que va de 2x a 10x, surge de la incapacidad de los modelos para mantener defensas contextuales en diálogos extendidos, lo que permite a los atacantes refinar las indicaciones y eludir las salvaguardas”.
Figura 1: Tasas de éxito de ataques de una sola ronda (azul) versus tasas de éxito de múltiples rondas (rojo) en los ocho modelos probados. La diferencia oscila entre 10 puntos porcentuales (Google Gemma) y más de 70 puntos porcentuales (Mistral, Llama, Qwen). Fuente: Defensa de la IA de Cisco
La investigación probó cinco estrategias de ataque de múltiples turnos, cada una de las cuales explotaba un aspecto diferente de la persistencia conversacional.
Descomposición y reensamblaje de información: Divide las solicitudes dañinas en componentes inofensivos entre turnos y luego los vuelve a ensamblar. Contra el Mistral Large-2, esta técnica tuvo un 95% de éxito.
La ambigüedad contextual introduce un marco vago que confunde a los clasificadores de seguridad, logrando un 94,78% de éxito contra Mistral Large-2.
Los ataques crecientes aumentan gradualmente las solicitudes a lo largo de los turnos, comenzando de manera inocua y aumentando hasta dañar, logrando un 92,69 % de éxito contra Mistral Large-2.
Los juegos de roles y la adopción de personajes establecen contextos ficticios que normalizan los resultados dañinos, logrando hasta un 92,44% de éxito contra el Mistral Large-2.
La negativa a rediseñar el reempaquetado rechazó solicitudes con diferentes justificaciones hasta que una tuvo éxito, alcanzando hasta un 89,15% de éxito contra Mistral Large-2.
Lo que hace que estas técnicas sean efectivas no es la sofisticación, sino la familiaridad. Reflejan cómo los humanos conversan naturalmente: construyendo texto, aclarando solicitudes y reformulando cuando los enfoques iniciales fallan. Los modelos no son vulnerables a ataques exóticos. Son susceptibles a su propia persistencia.
Tabla 2: Tasas de éxito de los ataques por técnica en todos los modelos. La coherencia entre técnicas significa que las empresas no pueden defenderse de un solo estándar. Fuente: Defensa de la IA de Cisco
Esta investigación alcanza un punto de inflexión crítico a medida que el código abierto contribuye cada vez más a la ciberseguridad. Los modelos de código abierto y peso abierto se han vuelto fundamentales para la innovación en la industria de la ciberseguridad. Desde acelerar el tiempo de comercialización de las empresas emergentes, reducir la dependencia de los proveedores empresariales y permitir una personalización que los modelos propietarios no pueden igualar, El código abierto se considera la plataforma ideal. por la mayoría de las nuevas empresas de ciberseguridad.
La paradoja no pasa desapercibida para Cisco. La propia empresa Fundación-Sec-8B El modelo, desarrollado específicamente para aplicaciones de ciberseguridad, se distribuye como pesos abiertos en Hugging Face. Cisco no sólo critica los modelos de sus competidores. La compañía reconoce una vulnerabilidad sistémica que afecta a todo el ecosistema de peso abierto, incluidos los modelos que ella misma lanza. El mensaje no es “evitar modelos abiertos”. Se trata de “comprender lo que está implementando y agregar las protecciones adecuadas”.
Sampath es directo sobre las implicaciones: “El código abierto tiene su propio conjunto de inconvenientes. Cuando comienzas a usar un modelo de peso abierto, necesitas pensar en cuáles son las implicaciones de seguridad y asegurarte de que constantemente estás poniendo los tipos correctos de salvaguardas alrededor del modelo”.
Tabla 1: Tasas de éxito de los ataques y brechas de seguridad en todos los modelos probados. Las brechas superiores al 70% (Qwen con +73,48%, Mistral con +70,81%, Llama con +70,32%) representan candidatos de alta prioridad para barreras de seguridad adicionales antes del despliegue. Fuente: Cisco AI Defense.
La brecha de seguridad descubierta por Cisco está directamente relacionada con la forma en que los laboratorios de IA abordan la alineación.
Su investigación deja claro este patrón: “Los modelos que se centran en las capacidades (por ejemplo, Llama) demostraron las mayores brechas de múltiples turnos, y Meta explicó que los desarrolladores están ‘en el asiento del conductor para adaptar la seguridad a su caso de uso’ en la capacitación posterior. Los modelos que se centraron en gran medida en la alineación (por ejemplo, Google Gemma-3-1B-IT) demostraron un perfil más equilibrado entre las estrategias de un solo turno y de múltiples turnos implementadas en su contra, lo que indica un enfoque en ‘protocolos de seguridad’ estrictos’ y ‘bajo nivel de riesgo’ por mal uso.”
Los laboratorios que priorizan la capacidad producen brechas en la capacidad. Llama da Meta muestra una brecha de seguridad del 70,32%. El modelo de tarjeta de Mistral para Large-2 reconoce que no tiene “ningún mecanismo de moderación” y muestra una brecha del 70,81%. Los informes técnicos Qwen de Alibaba no reconocen ningún problema de seguridad y el modelo tiene la mayor diferencia con un 73,48%.
Los laboratorios que priorizan la seguridad producen brechas más pequeñas. Gemma de Google enfatiza “protocolos de seguridad rigurosos” y apunta a un “bajo nivel de riesgo” por uso indebido. El resultado es una diferencia menor, del 10,53%, con un rendimiento más equilibrado en escenarios de una y varias vueltas.
Los modelos optimizados en cuanto a capacidad y flexibilidad tienden a llegar con menos seguridad incorporada. Esta es una elección de diseño y, para muchos casos de uso empresarial, es la elección correcta. Pero las empresas deben reconocer que “primero la capacidad” a menudo significa “segundo la seguridad” y presupuestar en consecuencia.
Cisco probó 102 categorías de subamenazas distintas. Los 15 primeros lograron altas tasas de éxito en todos los modelos, lo que sugiere que las contramedidas específicas podrían proporcionar mejoras de seguridad desproporcionadas.
Figura 4: Las 15 categorías de subamenazas más vulnerables, clasificadas según la tasa promedio de éxito de los ataques. Las operaciones de infraestructura maliciosas lideran con un 38,8%, seguidas por el tráfico de oro (33,8%), las operaciones de ataque a redes (32,5%) y el fraude de inversiones (31,2%). Fuente: Cisco AI Defense.
Figura 2: Tasas de éxito de los ataques en 20 categorías de amenazas y en los ocho modelos. La generación de código malicioso muestra tasas consistentemente altas (3,1% a 43,1%), mientras que los intentos de extracción de modelos muestran un éxito casi nulo, a excepción de Microsoft Phi-4. Fuente: Cisco AI Defense.
Sampath enmarca la seguridad no como un obstáculo sino como el mecanismo que permite la adopción: “La forma en que la gente de seguridad dentro de las empresas piensa sobre esto es: ‘Quiero desbloquear la productividad para todos mis usuarios. Todos claman por usar estas herramientas. Pero necesito implementar las protecciones adecuadas porque no quiero aparecer en un Diario de Wall Street jugar"”, le dijo a VentureBeat.
Sampath continuó: “Si tenemos la capacidad de ver ataques de inyección inmediatos y bloquearlos, entonces podré desbloquear y desencadenar la adopción de la IA de una manera fundamentalmente diferente”.
La investigación destaca seis capacidades críticas que las empresas deberían priorizar:
Barandillas sensibles al contexto que mantienen el estado a lo largo de los turnos de conversación
Protecciones de tiempo de ejecución independientes del modelo
Equipo rojo continuo enfocado en estrategias de turnos múltiples
Avisos del sistema reforzados diseñados para resistir la sustitución de instrucciones
Registro completo para visibilidad forense
Mitigaciones de amenazas específicas para las 15 principales categorías de subamenazas identificadas en la investigación
Sampath advierte contra la espera: “Mucha gente está en este patrón de espera, esperando a que la IA se calme. Esa es la forma equivocada de pensarlo. Cada dos semanas sucede algo dramático que restablece esa imagen. Elige un compañero y comienza a duplicar tu apuesta”.
Como concluyen los autores del informe: “La superioridad de 2 a 10 veces de los ataques de bucle múltiple sobre los ataques únicos, las debilidades específicas del modelo y los patrones de amenazas de alto riesgo requieren una acción urgente”.
Para repetir: se bloquea un mensaje, se completan 10 mensajes. Esta ecuación no cambiará hasta que las empresas dejen de probar defensas de un solo turno y comiencen a proteger conversaciones enteras.
Chivas ha iniciado la búsqueda de opciones para fortalecer su ataque de cara al Torneo Clausura 2026
El Informador
La mayoría de los empleados afectados que ocuparon puestos por hora recibirán 50 dólares por cada semana trabajada desde julio de 2021 hasta julio de 2024, según el Departamento.
Telemundo 47
STAFF/Felipe Trujillo – @_FelipeTrujillo Con más de 2 millones de lucecitas, llegó la navidad esta noche a la capital michoacana, ante la mirada de cientos de personas. Este espectáculo dio inicio cerca de las 7 de la noche, sobre la avenida Francisco I Madero, donde cientos de personas esperaban ya ansioso que arrancara el encendido ̷
Changoonga
Organizar una escapada con tus mejores amigos es una de las experiencias más gratificantes que pueden vivir juntos. Elegir bien los lugares para viajar con amigos marcará la diferencia entre unas vacaciones más y una aventura que recordarán toda la vida.
Lado.mx
En un mundo cada vez más digital, contar con una conexión a Internet rápida y estable es indispensable.
Lado.mx
En un país donde las calles hablan más fuerte que los comerciales de televisión, la publicidad tradicional empieza a quedarse sin voz.
Lado.mx
Gustavo AlonsoEl estudio de animación Huevocartoon informó el fallecimiento de Fernando Javier Meza Muñoz, una de las voces creativas más reconocidas del equipo.La noticia fue anunciada mediante una publicación en las redes sociales oficiales de la compañía, donde expresan su pesar por la muerte del actor y repasan su trayectoria dentro del
Excelsior
El estudio lamenta el deceso de uno de sus miembros fundadores, de quien resaltaron su creatividad y talento para la comedia
Infobae
Cruz Azul lanza precios para Semifinal de Ida ante Tigres El conjunto cementero logró su agónico pase a la antesala de la Gran Final hace unas horas eariasLun, 01/12/2025 - 19:49 La afición cementera volvió a demostrar su fidelidad
Record
El costo de los combustibles en el país puede variar debido a una diversidad de factores como son los precios de referencia, impuestos y la logística para el traslado
Infobae
Cada vez más jóvenes renuncian antes de dos años en busca de propósito laboral, revela estudio de Indeed; una tendencia que desafía la permanencia tradicional
NotiPress
1 de diciembre de 2025 Este lunes 1 de diciembre arrancaron nuevos registros a la Pensión para el Bienestar de las Personas Adultas Mayores y a la Pensión Mujeres Bienestar. Los trámites de registro se llevan a cabo desde hoy y hasta el 13 de diciembre en los Módulos del Bienestar instalados en todo el […]
Programas para el Bienestar
Ya estamos en el último mes del año, y como es costumbre los programas sociales para el Bienestar comienzan una nueva ronda de registros para que las personas interesadas reciban apoyo monetario. Aquí en Xataka Basics México te contamos cómo queda el calendario de diciembre 2025 p
Xataka México
Hermosillo, Sonora, 1 de diciembre de 2025.— Del 1 al 13 de diciembre se llevará a cabo en Sonora el registro para la Pensión para el Bienestar de las Personas Adultas Mayores y la Pensión Mujeres Bienestar, en cumplimiento del compromiso de la presidenta de México, Claudia Sheinbaum Pardo, informó el delegado de Bienestar en […]The po
Proyecto Puente
En medio de un huracán de controversias que rodea a la organización Miss Universe y a su propia coronación, laLa entrada Fátima Bosch: «Ningún ataque hará que me arrodille», ¿Fin a los rumores de renuncia a Miss Universe? se publicó primero en .
LaBotana.com
Fátima Bosch rompe el silencio tras ganar Miss Universo 2025: ‘Todo lo que dicen de mí es falso’ La mexicana llegó a Nueva York para comenzar su reinado tras la polémica de su triunfo gcatarinoLun, 01/12/2025 - 13:34 Fátima
Record
Nueva Jersey, E.U. — Fátima Bosch, recientemente coronada como Miss Universe 2025, rompió el silencio luego de varios días de especulaciones y controversia sobre su triunfo en el certamen internacional. La mexicana originaria de Tabasco arribó a Nueva Jersey para comenzar sus actividades oficiales, y aprovechó su primera aparición pública
Canal 44
Hay momentos de la saga Star Wars que, sin ser muy conocidos, resultan claves para esta mitología y logran hacerse un hueco en el corazón de los fans más fieles. Por ejemplo, el inicio de la Guerra Civil Galáctica entre el Imperio y los rebeldes es increíblemente complejo, y a dí
3d Juegos
Ariel VelázquezLas noches grandes siempre han tenido una cadencia particular en Foxborough. Un murmullo que se vuelve sentencia cuando el partido avanza y el rival entiende que está jugando contra algo más que 11 jugadores. Bajo las potentes luces de Monday Night Football, los Patriots vencieron 33-15 a los Giants y cerraron la Semana 13 como
Excelsior
ttiene un hueco en la cima son cinco puntos. El Arsenal ha jugado dos de sus tres partidos fuera de casa más difíciles de la temporada. Han tenido una semana extremadamente difícil con su reputación mejorada, a pesar de no contar con uno de sus centrales titulares en los tres partidos y dos de ellos. […]
Mas Cipolleti
Últimas noticias
Patriots reafirman buen momento
Joven de 22 años primer asesinado de Diciembre
Murió hombre atacado en La Independencia
Un motociclista muere en brutal accidente, en Peribán
Se registra choque entre moto y camioneta en el Centro Histórico de Morelia
Con misa, silencio y flores entre las jardineras, Uruapan cumple un mes sin Carlos Manzo
VAMOS A REIVINDICAR A LAS MUJERES DE LOS PUEBLOS ORIGINARIOS: CLAUDIA SHEINBAUM
Se cumplió en tiempo y forma con el proceso de elección extraordinaria del Poder Judicial: Ricardo Monreal Ávila
Ella es Clarice, la poco conocida mujer de Marcelo que siempre le ha acompañado
Nuevo mensaje del Atlético antes del derbi, éste dedicado a los árbitros
Monterrey y Saltillo lideran absorción de espacios industriales por nearshoring
Ordena Fiscal General de Michoacán separación de funcionarios investigados por posible corrupción
SCJN no dio el visto bueno a los listados para la elección del Poder Judicial
Ojos que sí ven: La Constitución y la nave de Teseo
Por primera vez, aduanas superan billón de pesos en 2024