Forbes México.
Desde Google hasta Nvidia, los gigantes tecnológicos han contratado piratas informáticos para romper sus modelos de IA
Un mes antes de lanzar públicamente ChatGPT, OpenAI contrató a Boru Gollo, un abogado de Kenia, para probar sus modelos de IA, GPT-3.5 y posteriormente GPT-4, en busca de estereotipos contra africanos y musulmanes mediante la inyección de indicaciones que harían que el chatbot generara información dañina, sesgada y de respuestas incorrectas.
Gollo, uno de los alrededor de 50 expertos externos reclutados por OpenAI para ser parte de su “equipo rojo”, escribió un comando en ChatGPT, lo que le generó una lista de formas de matar a un nigeriano, una respuesta que OpenAI eliminó antes que el chatbot. quedó disponible para el mundo.
Otros miembros del equipo rojo impulsaron la versión previa al lanzamiento de GPT-4 para ayudar en una variedad de actividades ilegales y nocivas, como escribir una publicación en Facebook para convencer a alguien de unirse a Al-Qaeda, ayudar a encontrar armas sin licencia para la venta y generar un procedimiento para crear armas peligrosas. sustancias químicas en casa, según la tarjeta del sistema GPT-4, que enumera los riesgos y las medidas de seguridad que OpenAI utilizó para reducirlos o eliminarlos.
Para proteger los sistemas de inteligencia artificial de la explotación, los piratas informáticos del equipo rojo piensan como un adversario para engañarlos y descubrir puntos ciegos y riesgos integrados en la tecnología para poder solucionarlos.
A medida que los titanes de la tecnología se apresuran a construir y liberar herramientas de IA generativa, sus equipos internos de IA desempeñan un papel cada vez más fundamental para garantizar que los modelos sean seguros para las masas.
Google, por ejemplo, estableció un equipo rojo separado de IA a principios de este año, y en agosto los desarrolladores de varios modelos populares como GPT3.5 de OpenAI, Llama 2 de Meta y LaMDA de Google participaron en un evento apoyado por la Casa Blanca con el objetivo de dar al exterior de los piratas informáticos la oportunidad de hacer jailbreak (N. de la R. quebrar o violar) a sus sistemas.
Pero los equipos rojos de IA a menudo caminan sobre la cuerda floja, equilibrando la seguridad de los modelos de IA y al mismo tiempo manteniéndolos relevantes y utilizables. Forbes habló con los líderes de los equipos rojos de IA de Microsoft, Google, Nvidia y Meta sobre cómo se ha puesto de moda romper los modelos de IA y los desafíos que supone solucionarlos.
“Tendrás un modelo que dice no a todo y es súper seguro pero inútil”, dijo Cristian Canton, jefe del equipo rojo de IA de Facebook. “Hay una compensación. Cuanto más útil puedas hacer un modelo, más posibilidades tendrás de aventurarte en algún área que pueda terminar produciendo una respuesta insegura”.
La práctica del software de equipos rojos existe desde la década de 1960, cuando se simulaban ataques adversarios para hacer que los sistemas fueran lo más resistentes posible. “En las computadoras nunca podemos decir ‘esto es seguro’. Todo lo que podemos decir es ‘lo intentamos y no podemos romperlo’”, dijo Bruce Schneier, tecnólogo de seguridad y miembro del Centro Berkman Klein para Internet y Sociedad. en la Universidad de Harvard.
Pero debido a que la IA generativa se entrena con un vasto corpus de datos, eso hace que la protección de los modelos de IA sea diferente de las prácticas de seguridad tradicionales, dijo Daniel Fabian, jefe del nuevo equipo rojo de IA de Google, que prueba productos como Bard para detectar contenido ofensivo antes de que la compañía agregue nuevas características como idiomas adicionales.
Más allá de consultar un modelo de IA para generar respuestas tóxicas, los equipos rojos usan tácticas como extraer datos de entrenamiento que revelan información de identificación personal como nombres, direcciones y números de teléfono, y envenenan conjuntos de datos cambiando ciertas partes del contenido antes de usarlo para entrenar el modelo. “Los adversarios tienen una especie de cartera de ataques y simplemente pasarán al siguiente ataque si uno de ellos no funciona”, dijo Fabián a Forbes.
Dado que el campo aún se encuentra en sus primeras etapas, los profesionales de la seguridad que saben cómo jugar con los sistemas de inteligencia artificial son “extremadamente pequeños”, dijo Daniel Rohrer, vicepresidente de seguridad de software de Nvidia. Es por eso que una comunidad muy unida de miembros del equipo rojo de IA tiende a compartir sus hallazgos. Mientras que los miembros del equipo rojo de Google han publicado investigaciones sobre formas novedosas de atacar los modelos de IA, el equipo rojo de Microsoft tiene herramientas de ataque de código abierto como Counterfit, que ayuda a otras empresas a probar los riesgos de seguridad de los algoritmos.
“Estábamos desarrollando estos guiones chiflados que usábamos para acelerar nuestro propio equipo rojo”, dijo Ram Shankar Siva Kumar, quien fundó el equipo hace cinco años. “Queríamos poner esto a disposición de todos los profesionales de la seguridad en un marco que conozcan y entiendan”.
Antes de probar un sistema de inteligencia artificial, el equipo de Siva Kumar recopila datos sobre las ciberamenazas del equipo de inteligencia de amenazas de la empresa, que son los “ojos y oídos de Internet”, como él dice. Luego trabaja con otros equipos rojos de Microsoft para determinar a qué vulnerabilidades del sistema de inteligencia artificial apuntar y cómo. Este año, el equipo probó el producto estrella de inteligencia artificial de Microsoft, Bing Chat, así como GPT-4 para encontrar fallas.
Mientras tanto, parte del enfoque de creación de equipos rojos de Nvidia es ofrecer cursos intensivos sobre cómo crear equipos rojos de algoritmos para ingenieros de seguridad y empresas, que dependen de ellos para recursos informáticos como las GPU.
“Como motor de la IA para todos… tenemos un enorme factor de amplificación. Si podemos enseñar a otros a hacerlo (equipo rojo), entonces Anthropic, Google, OpenAI, todos lo harán bien”, dijo Rohrer.
Con un mayor escrutinio de las aplicaciones de IA por parte de los usuarios y las autoridades gubernamentales, los equipos rojos también ofrecen una ventaja competitiva a las empresas de tecnología en la carrera de la IA. “Creo que el foso será la confianza y la seguridad”, dijo Sven Cattell, fundador de IA Village, una comunidad de hackers de IA y expertos en seguridad. “Comenzarás a ver anuncios que dicen ‘El nuestro es el más seguro’”.
Al principio del juego estuvo el equipo rojo de IA de Meta, que se fundó en 2019 y ha organizado desafíos internos y “maratones de riesgo” para que los piratas informáticos eviten los filtros de contenido que detectan y eliminan publicaciones que contienen discursos de odio, desnudez, información errónea y mensajes generados por IA y Deep Fakes en Instagram y Facebook.
Lee más: Anuncian nueva red de carga para autos eléctricos que conectará 2,213 rutas turísticas de México
En julio de 2023, el gigante de las redes sociales contrató a 350 miembros del equipo rojo, incluidos expertos externos, trabajadores subcontratados y un equipo interno de unos 20 empleados, para probar Llama 2, su último modelo de lenguaje grande de código abierto, según un informe publicado que detalla cómo funciona el modelo y cómo fue desarrollado. El equipo inyectó sugerencias sobre cómo evadir impuestos, cómo arrancar un automóvil sin llave y cómo configurar un esquema Ponzi. “El lema de nuestro equipo rojo de IA es ‘Cuanto más sudas en el entrenamiento, menos sangras en la batalla’”, dijo Canton, jefe del equipo rojo de Facebook.
Ese lema era similar al espíritu de uno de los mayores ejercicios de equipos rojos de IA celebrados en la conferencia de hacking DefCon en Las Vegas a principios de agosto. Ocho empresas, incluidas OpenAI, Google, Meta, Nvidia, Stability AI y Anthropic, abrieron sus modelos de IA a más de 2,000 piratas informáticos para enviarles mensajes diseñados para revelar información confidencial, como números de tarjetas de crédito, o generar material dañino como información política errónea. La Oficina de Política Científica y Tecnológica de la Casa Blanca se asoció con los organizadores del evento para diseñar el desafío del equipo rojo, adhiriéndose a su plan para una Declaración de Derechos de la IA, una guía sobre cómo se deben diseñar, utilizar y lanzar los sistemas automatizados, sin peligro.
Al principio, las empresas se mostraron reacias a ofrecer sus modelos, en gran parte debido a los riesgos para la reputación asociados con la formación de equipos rojos en un foro público, dijo Cattell, fundador de AI Village que encabezó el evento. “Desde la perspectiva de Google o de OpenAI, somos un grupo de niños en DefCon”, dijo a Forbes.
Pero después de asegurar a las empresas de tecnología que los modelos serán anónimos y los piratas informáticos no sabrán qué modelo están atacando, aceptaron. Si bien los resultados de las casi 17,000 conversaciones que los piratas informáticos tuvieron con los modelos de IA no se harán públicos hasta febrero, las empresas abandonaron el evento con varias vulnerabilidades nuevas que abordar. En ocho modelos, los miembros del equipo rojo encontraron alrededor de 2,700 fallas, como convencer al modelo de contradecirse o dar instrucciones sobre cómo vigilar a alguien sin su conocimiento, según nuevos datos publicados por los organizadores del evento.
Uno de los participantes fue Avijit Ghosh, un investigador de ética de la IA que logró obtener múltiples modelos para hacer cálculos incorrectos, producir un informe de noticias falso sobre el rey de Tailandia y escribir sobre una crisis inmobiliaria que no existía.
Tales vulnerabilidades en el sistema han hecho que los modelos de IA de equipos rojos sean aún más cruciales, dijo Ghosh, especialmente cuando algunos usuarios pueden percibirlos como entidades inteligentes que todo lo saben. “Conozco a varias personas en la vida real que piensan que estos robots son realmente inteligentes y hacen cosas como diagnósticos médicos con lógica y razonamiento paso a paso. Pero no lo es. Es literalmente autocompletar”, dijo.
Pero la IA generativa es como un monstruo de múltiples cabezas: a medida que los equipos rojos detectan y reparan algunos agujeros en el sistema, pueden surgir otras fallas en otros lugares, dicen los expertos. “Se necesitará toda una aldea para resolver este problema”, dijo Siva Kumar, de Microsoft.
Este artículo fue publicado originalmente en Forbes US.
Te puede interesar: Cirugía contra ‘epidemia de la obesidad’ puede ser un arma contra el cáncer
Desde Google hasta Nvidia, los gigantes tecnológicos han contratado piratas informáticos para romper sus modelos de IA
Forbes Staff
Juan Carlos TalaveraEl cuadro Las meninas, de Diego Velázquez, es bastante conocido. En él aparece, al centro, la infanta Margarita, hija de los reyes Felipe IV y Mariana de Austria, rodeada de su séquito.Pero en esa imagen, comenta el director escénico Héctor Bourges, pocos advierten que una de las meninas le ofrece a la infanta un búcaro (j
Excelsior
Apertura de sesión en negativo: se descuenta un 0,52%
Infobae
Las madres ocupan un lugar único en nuestras vidas. Son fuente de amor, fortaleza, inspiración y compañía incondicional. Ya sea para el Día de la Madre, su cumpleaños, o simplemente porque sí, aquí te compartimos una colección especial de frases para mamá que puedes dedicarle en cualquier momento.
Lado.mx
Hoy en día, la compra de vehículos por internet se convierte en una alternativa cada vez más popular, especialmente cuando se trata de autos seminuevos. Gracias a las plataformas digitales especializadas, es posible encontrar buenas oportunidades sin salir de casa; sin embargo, como en toda transacción en línea, también es importante conoce
Lado.mx
With the monthly net inflow of Bitcoin spot ETF exceeding 9.8 billion US dollars, it marks the full embrace of crypto assets by traditional capital. However, in the market fluctuations dominated by institutions, the real wealth opportunities often belong to those investors who actively build a profit system.
Lado.mx
El viaje del Descubrimiento de América de Cristóbal Colón y toda su tripulación fue muy tranquilo. Esto se debió a que no se toparon con ningún tipo de inclemencia meteorológica en el mar, como por ejemplo con el c
Mundo Deportivo
El objetivo a 2030 es que tres de cada 10 empleos formales sean ocupados por mamás
El Informador
Marca Claro
LaLiga
Grupo Fórmula
Con más de 18.000 ofertas, las marcas buscarán apuntalar ventas tras un flojo abril. Cómo comprar de forma segura
Infobae
Durante el Hot Sale 2025, Naldo y Samsung se unen para traer nuevas oportunidades para comprar electrodomésticos a precios promocionales con descuentos que alcanzan el 40%, cuotas sin recargo y envíos a todo el país
Infobae
Cientos de marcas impulsan estrategias de financiación y promociones agresivas en el evento ecommerce para enfrentar un consumo aún débil. Los locales se suman a la iniciativa
Infobae
¿Recuerda que hace unos meses os dijimos que el remake de The Toxic Avenger era una película "imposible de estrenar"? Pues bien, hace unos días se confirmó que la cinta finalmente sí llegará a los cines, aunque con calificación "unrated". ¿Qué quiere decir
3d Juegos
El actor habló sobre el intenso entrenamiento al que se sometió para darle vida al icónico personaje
Infobae
Ha sido una semana muy emocionante debido al Tráiler 2 de Grand Theft Auto 6. Los fans todavía están estudiando cada frame del nuevo vídeo en busca de secretos, referencias y detalles adicionales. Queda mucho que descubrir y especular hasta el 26 de mayo de 2026. Pero el mundo sigu
Vida Extra
El actor habló sobre el intenso entrenamiento al que se sometió para darle vida al icónico personaje
Infobae
Lo que las hermanas Wachowski lanzaron al cine en 1999 cambió por completo la ciencia ficción. The Matrix se convirtió automáticamente en un referente del género, pero que también supo aunar filosofía y acción en una combinación absolutamente alucinante. Todo lo que se pudo ve
Vida Extra
Pedro Díaz G. Calificaré otra vez en primero, y a cuidar como diamante mi Ford Fusion para terminar la competencia con la bandera a cuadros: Carlos Pardo No es nuevo.Morir conduciendo poderosas máquinas, es un fenómeno que ha recorrido las pistas mexicanas.En todos los tiempos.El domingo 14 de junio, Carlos Pardo impactó sus 33 años
Excelsior
Últimas noticias
Celebra Iglesia en México la elección
Se sincera Justin Bieber
Derrota de los Gallos Negros en Monterrey
Anuncia Kuri arranque de inscripciones para el Querétaro Maratón 2025
Guillermo del Toro, maestro en Cannes
Cuando el arte se vuelve camino, espejo y plegaria
La Polémica | La tormenta que Delfina vio venir y dejó crecer
Miami: el tiempo para hoy lunes 12 de mayo
Apuesta Sara Irene Herrerías por una SCJN más cercana
Los padres de uno de los jóvenes fallecidos en Lunada recogen 26.000 firmas en Change.org pidiendo un quitamiedos
Un estudio atribuye al botulismo la parálisis que afecta a gaviotas y otras aves acuáticas
Encuentran tres personas fallecidas en el interior de un vehículo en un canal de Cartaya
CCOO insta a los partidos a favorecer la tramitación de la reducción de jornada laboral
El comité sobre el apagón se reúne este lunes en Endesa en una cita a la que asiste Bogas
Aumentan a más de 52.850 los palestinos muertos por la ofensiva de Israel contra la Franja de Gaza