Desde Google hasta Nvidia, los gigantes tecnológicos han contratado piratas informáticos para romper sus modelos de IA

01 de Septiembre, 2023 12:10

Forbes México.
Desde Google hasta Nvidia, los gigantes tecnológicos han contratado piratas informáticos para romper sus modelos de IA

Un mes antes de lanzar públicamente ChatGPT, OpenAI contrató a Boru Gollo, un abogado de Kenia, para probar sus modelos de IA, GPT-3.5 y posteriormente GPT-4, en busca de estereotipos contra africanos y musulmanes mediante la inyección de indicaciones que harían que el chatbot generara información dañina, sesgada y de respuestas incorrectas.

Gollo, uno de los alrededor de 50 expertos externos reclutados por OpenAI para ser parte de su “equipo rojo”, escribió un comando en ChatGPT, lo que le generó una lista de formas de matar a un nigeriano, una respuesta que OpenAI eliminó antes que el chatbot. quedó disponible para el mundo.

Otros miembros del equipo rojo impulsaron la versión previa al lanzamiento de GPT-4 para ayudar en una variedad de actividades ilegales y nocivas, como escribir una publicación en Facebook para convencer a alguien de unirse a Al-Qaeda, ayudar a encontrar armas sin licencia para la venta y generar un procedimiento para crear armas peligrosas. sustancias químicas en casa, según la tarjeta del sistema GPT-4, que enumera los riesgos y las medidas de seguridad que OpenAI utilizó para reducirlos o eliminarlos.

Para proteger los sistemas de inteligencia artificial de la explotación, los piratas informáticos del equipo rojo piensan como un adversario para engañarlos y descubrir puntos ciegos y riesgos integrados en la tecnología para poder solucionarlos.

A medida que los titanes de la tecnología se apresuran a construir y liberar herramientas de IA generativa, sus equipos internos de IA desempeñan un papel cada vez más fundamental para garantizar que los modelos sean seguros para las masas.

Google, por ejemplo, estableció un equipo rojo separado de IA a principios de este año, y en agosto los desarrolladores de varios modelos populares como GPT3.5 de OpenAI, Llama 2 de Meta y LaMDA de Google participaron en un evento apoyado por la Casa Blanca con el objetivo de dar al exterior de los piratas informáticos la oportunidad de hacer jailbreak (N. de la R. quebrar o violar) a sus sistemas.

Pero los equipos rojos de IA a menudo caminan sobre la cuerda floja, equilibrando la seguridad de los modelos de IA y al mismo tiempo manteniéndolos relevantes y utilizables. Forbes habló con los líderes de los equipos rojos de IA de Microsoft, Google, Nvidia y Meta sobre cómo se ha puesto de moda romper los modelos de IA y los desafíos que supone solucionarlos.

“Tendrás un modelo que dice no a todo y es súper seguro pero inútil”, dijo Cristian Canton, jefe del equipo rojo de IA de Facebook. “Hay una compensación. Cuanto más útil puedas hacer un modelo, más posibilidades tendrás de aventurarte en algún área que pueda terminar produciendo una respuesta insegura”.

La práctica del software de equipos rojos existe desde la década de 1960, cuando se simulaban ataques adversarios para hacer que los sistemas fueran lo más resistentes posible. “En las computadoras nunca podemos decir ‘esto es seguro’. Todo lo que podemos decir es ‘lo intentamos y no podemos romperlo’”, dijo Bruce Schneier, tecnólogo de seguridad y miembro del Centro Berkman Klein para Internet y Sociedad. en la Universidad de Harvard.

Pero debido a que la IA generativa se entrena con un vasto corpus de datos, eso hace que la protección de los modelos de IA sea diferente de las prácticas de seguridad tradicionales, dijo Daniel Fabian, jefe del nuevo equipo rojo de IA de Google, que prueba productos como Bard para detectar contenido ofensivo antes de que la compañía agregue nuevas características como idiomas adicionales.

“EL LEMA DE NUESTRO EQUIPO ROJO DE IA ES ‘CUANTO MÁS SUDAS EN EL ENTRENAMIENTO, MENOS SANGRAS EN LA BATALLA’”.

Cristian Canton, líder de ingeniería de IA Responsable en Meta

Más allá de consultar un modelo de IA para generar respuestas tóxicas, los equipos rojos usan tácticas como extraer datos de entrenamiento que revelan información de identificación personal como nombres, direcciones y números de teléfono, y envenenan conjuntos de datos cambiando ciertas partes del contenido antes de usarlo para entrenar el modelo. “Los adversarios tienen una especie de cartera de ataques y simplemente pasarán al siguiente ataque si uno de ellos no funciona”, dijo Fabián a Forbes.

Dado que el campo aún se encuentra en sus primeras etapas, los profesionales de la seguridad que saben cómo jugar con los sistemas de inteligencia artificial son “extremadamente pequeños”, dijo Daniel Rohrer, vicepresidente de seguridad de software de Nvidia. Es por eso que una comunidad muy unida de miembros del equipo rojo de IA tiende a compartir sus hallazgos. Mientras que los miembros del equipo rojo de Google han publicado investigaciones sobre formas novedosas de atacar los modelos de IA, el equipo rojo de Microsoft tiene herramientas de ataque de código abierto como Counterfit, que ayuda a otras empresas a probar los riesgos de seguridad de los algoritmos.

“Estábamos desarrollando estos guiones chiflados que usábamos para acelerar nuestro propio equipo rojo”, dijo Ram Shankar Siva Kumar, quien fundó el equipo hace cinco años. “Queríamos poner esto a disposición de todos los profesionales de la seguridad en un marco que conozcan y entiendan”.

Antes de probar un sistema de inteligencia artificial, el equipo de Siva Kumar recopila datos sobre las ciberamenazas del equipo de inteligencia de amenazas de la empresa, que son los “ojos y oídos de Internet”, como él dice. Luego trabaja con otros equipos rojos de Microsoft para determinar a qué vulnerabilidades del sistema de inteligencia artificial apuntar y cómo. Este año, el equipo probó el producto estrella de inteligencia artificial de Microsoft, Bing Chat, así como GPT-4 para encontrar fallas.

Mientras tanto, parte del enfoque de creación de equipos rojos de Nvidia es ofrecer cursos intensivos sobre cómo crear equipos rojos de algoritmos para ingenieros de seguridad y empresas, que dependen de ellos para recursos informáticos como las GPU.

“Como motor de la IA para todos… tenemos un enorme factor de amplificación. Si podemos enseñar a otros a hacerlo (equipo rojo), entonces Anthropic, Google, OpenAI, todos lo harán bien”, dijo Rohrer.

Con un mayor escrutinio de las aplicaciones de IA por parte de los usuarios y las autoridades gubernamentales, los equipos rojos también ofrecen una ventaja competitiva a las empresas de tecnología en la carrera de la IA. “Creo que el foso será la confianza y la seguridad”, dijo Sven Cattell, fundador de IA Village, una comunidad de hackers de IA y expertos en seguridad. “Comenzarás a ver anuncios que dicen ‘El nuestro es el más seguro’”.

Al principio del juego estuvo el equipo rojo de IA de Meta, que se fundó en 2019 y ha organizado desafíos internos y “maratones de riesgo” para que los piratas informáticos eviten los filtros de contenido que detectan y eliminan publicaciones que contienen discursos de odio, desnudez, información errónea y mensajes generados por IA y Deep Fakes en Instagram y Facebook.

Lee más: Anuncian nueva red de carga para autos eléctricos que conectará 2,213 rutas turísticas de México

DESDE GOOGLE HASTA NVIDIA, LOS GIGANTES TECNOLÓGICOS HAN CONTRATADO PIRATAS INFORMÁTICOS PARA ROMPER SUS MODELOS DE IA

En julio de 2023, el gigante de las redes sociales contrató a 350 miembros del equipo rojo, incluidos expertos externos, trabajadores subcontratados y un equipo interno de unos 20 empleados, para probar Llama 2, su último modelo de lenguaje grande de código abierto, según un informe publicado que detalla cómo funciona el modelo y cómo fue desarrollado. El equipo inyectó sugerencias sobre cómo evadir impuestos, cómo arrancar un automóvil sin llave y cómo configurar un esquema Ponzi. “El lema de nuestro equipo rojo de IA es ‘Cuanto más sudas en el entrenamiento, menos sangras en la batalla’”, dijo Canton, jefe del equipo rojo de Facebook.

Ese lema era similar al espíritu de uno de los mayores ejercicios de equipos rojos de IA celebrados en la conferencia de hacking DefCon en Las Vegas a principios de agosto. Ocho empresas, incluidas OpenAI, Google, Meta, Nvidia, Stability AI y Anthropic, abrieron sus modelos de IA a más de 2,000 piratas informáticos para enviarles mensajes diseñados para revelar información confidencial, como números de tarjetas de crédito, o generar material dañino como información política errónea. La Oficina de Política Científica y Tecnológica de la Casa Blanca se asoció con los organizadores del evento para diseñar el desafío del equipo rojo, adhiriéndose a su plan para una Declaración de Derechos de la IA, una guía sobre cómo se deben diseñar, utilizar y lanzar los sistemas automatizados, sin peligro.

“SI PODEMOS ENSEÑAR A OTROS A HACERLO (EQUIPO ROJO), ENTONCES ANTHROPIC, GOOGLE, OPENAI, TODOS LO HARÁN BIEN”.

Daniel Rohrer, vicepresidente de seguridad de software de Nvidia

Al principio, las empresas se mostraron reacias a ofrecer sus modelos, en gran parte debido a los riesgos para la reputación asociados con la formación de equipos rojos en un foro público, dijo Cattell, fundador de AI Village que encabezó el evento. “Desde la perspectiva de Google o de OpenAI, somos un grupo de niños en DefCon”, dijo a Forbes.

Pero después de asegurar a las empresas de tecnología que los modelos serán anónimos y los piratas informáticos no sabrán qué modelo están atacando, aceptaron. Si bien los resultados de las casi 17,000 conversaciones que los piratas informáticos tuvieron con los modelos de IA no se harán públicos hasta febrero, las empresas abandonaron el evento con varias vulnerabilidades nuevas que abordar. En ocho modelos, los miembros del equipo rojo encontraron alrededor de 2,700 fallas, como convencer al modelo de contradecirse o dar instrucciones sobre cómo vigilar a alguien sin su conocimiento, según nuevos datos publicados por los organizadores del evento.

Uno de los participantes fue Avijit Ghosh, un investigador de ética de la IA que logró obtener múltiples modelos para hacer cálculos incorrectos, producir un informe de noticias falso sobre el rey de Tailandia y escribir sobre una crisis inmobiliaria que no existía.

Tales vulnerabilidades en el sistema han hecho que los modelos de IA de equipos rojos sean aún más cruciales, dijo Ghosh, especialmente cuando algunos usuarios pueden percibirlos como entidades inteligentes que todo lo saben. “Conozco a varias personas en la vida real que piensan que estos robots son realmente inteligentes y hacen cosas como diagnósticos médicos con lógica y razonamiento paso a paso. Pero no lo es. Es literalmente autocompletar”, dijo.

Pero la IA generativa es como un monstruo de múltiples cabezas: a medida que los equipos rojos detectan y reparan algunos agujeros en el sistema, pueden surgir otras fallas en otros lugares, dicen los expertos. “Se necesitará toda una aldea para resolver este problema”, dijo Siva Kumar, de Microsoft.

Este artículo fue publicado originalmente en Forbes US.

Te puede interesar: Cirugía contra ‘epidemia de la obesidad’ puede ser un arma contra el cáncer

Desde Google hasta Nvidia, los gigantes tecnológicos han contratado piratas informáticos para romper sus modelos de IA
Forbes Staff

Compartir en:

El Centro de Artes Circenses Zapopan celebra dos años de magia. 06:40

Juan Méndez, coordinador de este espacio, comparte las actividades con las cuales festejarán; además, describe las bondades de contar con este laboratorio creativo

El Informador

AMÉRICA 2-0 PACHUCA | Cuartos de Final Vuelta | Zendejas guía a las Águilas | Clausura 2025.06:59

Liga MX

Clima | Pronóstico para hoy 11 de mayo. 06:23

El Servicio Meteorológico Nacional (SMN) ha pronosticado un panorama meteorológico variado para el domingo 11 de mayo de 2025, con lluvias intensas en el sureste y temperaturas extremadamente calurosas en el noroeste y occidente del país. Se pronostican lluvias puntuales torrenciales en Chiapas y Tabasco, además de evento de ‘Norte’

Formato7.com

Frases para mamá: Expresa tu amor con palabras inolvidables.

Las madres ocupan un lugar único en nuestras vidas. Son fuente de amor, fortaleza, inspiración y compañía incondicional. Ya sea para el Día de la Madre, su cumpleaños, o simplemente porque sí, aquí te compartimos una colección especial de frases para mamá que puedes dedicarle en cualquier momento.

Lado.mx

Comprar un auto seminuevo en línea: ventajas y precauciones a tomar en cuenta.

Hoy en día, la compra de vehículos por internet se convierte en una alternativa cada vez más popular, especialmente cuando se trata de autos seminuevos. Gracias a las plataformas digitales especializadas, es posible encontrar buenas oportunidades sin salir de casa; sin embargo, como en toda transacción en línea, también es importante conoce

Lado.mx

Wall Street’s ETF wave is here — but the real money is in AI-powered cloud mining.

With the monthly net inflow of Bitcoin spot ETF exceeding 9.8 billion US dollars, it marks the full embrace of crypto assets by traditional capital. However, in the market fluctuations dominated by institutions, the real wealth opportunities often belong to those investors who actively build a profit system.

Lado.mx

Houston: el tiempo para hoy domingo 11 de mayo.04:43

Encuentra el pronóstico meteorológico de hoy para Houston, Texas, cómo estará el tiempo y las condiciones climáticas este domingo 11 de mayo.

La Opinión de Los Ángeles

FC BARCELONA vs REAL MADRID | ELCLÁSICO en DIRECTO desde MONTJUIC powered by Beyond Stats. 04:59

LaLiga

Antofagasta: calidad del aire este 11 de mayo de 2025. 05:30

Estos son algunos consejos a considerar para el estado actual de la calidad del aire

Infobae

Esquites, lágrimas y esperanza: el Día de las Madres de doña Brisia. 09:21

Por la víspera del Día de las Madres, entre el tráfico y los pasos veloces de Paseo de la Reforma, el aroma de maíz hervido nos llevó directo al corazón de una historia que no esperábamos encontrar. Doña Brisia Martínez Martínez no estaba en nuestros planes. Salimos con la intención de hacer un

Siete24.mx

NBA Playoffs en vivo: Dónde ver Minnesota Timberwolves vs. Golden State Warriors en TV y streaming. 18:44

Los Minnesota Timberwolves y los Golden State Warriors buscarán sacar ventaja en el Juego 3 de las Semifinales del Oeste en estos Playoffs de NBA

12up.com

Pide Leticia Mejía fortalecer autodeterminación de pueblos indígenas. 10:35

A efecto de fortalecer el derecho a la libre determinación de los pueblos originarios, la diputada Leticia Mejía García (PRI) llamó a sus compañeras y compañeros legisladores a armonizar el marco jurídico estatal con la carta magna, para promover la participación efectiva de comunidades indígenas y afromexicanas en decisiones que afectan s

Así Sucede

EN VIVO | JUAN BECERRA | 10/05/25. 07:59

Grupo Fórmula

La Liga de la Afición | Sorpresa por el Día de las Madres. 18:59

Liga MX

#Pronostico aextendido del 10 al 16 de mayo de 2025. 10:59

Servicio Meteorológico Nacional

Pronóstico

Pronóstico del tiempo en Los Ángeles para este 11 de mayo. 05:30

Para evitar cualquier imprevisto es importante conocer el pronóstico del tiempo

Infobae

Los Ángeles: pronóstico del tiempo para este domingo 11 de mayo. 05:30

Conoce el pronóstico del tiempo en Los Ángeles, para hoy domingo 11 de mayo para evitar sufrir los cambios en el clima

La Opinión de Los Ángeles

Clima | Pronóstico para hoy 11 de mayo. 06:23

Formato7.com

Clima

Clima de hoy en Austin para este domingo 11 de mayo. 05:33

Encuentra el pronóstico meteorológico de hoy para Austin, Texas, cómo estará el tiempo y las condiciones climáticas este domingo 11 de mayo.

La Opinión

Clima | Pronóstico para hoy 11 de mayo. 06:23

Formato7.com

Coahuila: El impacto en la educación ante la falta de una obligatoriedad clara. 07:25

La educación preescolar en México aún enfrenta un reto de fondo: la baja inscripción de niñas y niños en los primeros dos años del kínder. Y aunque la asistencia a tercero de preescolar ha ganado terreno por ser el requisito previo a la primaria, muchas familias optan por no cursar primero ni segundo, en parte por desconocimiento, en parte

Vanguardia.com.mx

Eredivisie

4-1: Perisic mantiene la emoción en la Eredivisie con un "hat trick" . 03 de Mayo, 2025 15:59

Un triplete del croata Ivan Perisic fue el gran artífice de la goleada al Fortuna Sittard (4-1) y el PSV mantiene sus opciones de revalidar la Eredivisie. El Ajax no juega este fin de semana tras avanzar al pasado 20 de abril su partido ante el Utrech

Mundo Deportivo

Richard Ledezma le hace un guiño a Chivas. 04 de Mayo, 2025 13:24

Carlos BarrónCada vez juega mejor, por ello el PSV Eindhoven aún pretende mantener a Richard Ledezma en sus filas, aunque ahora haya una propuesta formal del futbol mexicano.Las Chivas han puesto de frente tres millones de dólares para reclutar en sus filas al defensa lateral derecho de 24 años y con ello fortalecerse ante la baja de juego de A

Excelsior

Goles de Santiago Gimenez en Europa; el historial de anotaciones del ‘Bebote’ con Milan y Feyenoord . 09 de Mayo, 2025 16:00

Goles de Santiago Gimenez en Europa; el historial de anotaciones del ‘Bebote’ con Milan y Feyenoord El mexicano registró 65 goles con el cuadro neerlandés y contabiliza cuatro como Rossonero rperezVie, 09/05/2025 - 15:54

Record

Últimas noticias

El respeto al formato físico ya es una broma: el disco de DOOM: The Dark Ages en PS5 y Xbox Series es un pisapapeles inútil

NFL: Travis hunter trabajará jugadas defensivas con los Jacksonville Jaguars

Liverpool vs Arsenal EN VIVO Premier League Jornada 36

Chiclayo celebra a su papa en una emotiva y festiva misa

LaLiga: Barcelona vs Real Madrid - EN VIVO (Jornada 35)

Cuestionan reducción de la jornada laboral

25 preguntas para acercarte a tu mamá

Tumban de "Estafa" primera condena

¿Domesticar al corrido?

Incautan armas y droga a Edil de la 4T

“Spiderman de Juárez” regala esperanza a madres en asilo

¡Cuidado! Evita contestar llamadas que inicien con estos números

5 razones por las que "explota" la bateria de tu celular, y cómo evitarlo

Lista de frutas y verduras de temporada en mayo

¡Prepárate! Prevén LLUVIAS fuertes en estos estados este domingo

Desde Google hasta Nvidia, los gigantes tecnológicos han contratado piratas informáticos para romper sus modelos de IA Forbes

“EL LEMA DE NUESTRO EQUIPO ROJO DE IA ES ‘CUANTO MÁS SUDAS EN EL ENTRENAMIENTO, MENOS SANGRAS EN LA BATALLA’”.

Cristian Canton, líder de ingeniería de IA Responsable en Meta

DESDE GOOGLE HASTA NVIDIA, LOS GIGANTES TECNOLÓGICOS HAN CONTRATADO PIRATAS INFORMÁTICOS PARA ROMPER SUS MODELOS DE IA

“SI PODEMOS ENSEÑAR A OTROS A HACERLO (EQUIPO ROJO), ENTONCES ANTHROPIC, GOOGLE, OPENAI, TODOS LO HARÁN BIEN”.

Daniel Rohrer, vicepresidente de seguridad de software de Nvidia

El Centro de Artes Circenses Zapopan celebra dos años de magia. 06:40

AMÉRICA 2-0 PACHUCA | Cuartos de Final Vuelta | Zendejas guía a las Águilas | Clausura 2025.06:59

Clima | Pronóstico para hoy 11 de mayo. 06:23

Frases para mamá: Expresa tu amor con palabras inolvidables.

Comprar un auto seminuevo en línea: ventajas y precauciones a tomar en cuenta.

Wall Street’s ETF wave is here — but the real money is in AI-powered cloud mining.

Houston: el tiempo para hoy domingo 11 de mayo.04:43

FC BARCELONA vs REAL MADRID | ELCLÁSICO en DIRECTO desde MONTJUIC powered by Beyond Stats. 04:59

Antofagasta: calidad del aire este 11 de mayo de 2025. 05:30

Esquites, lágrimas y esperanza: el Día de las Madres de doña Brisia. 09:21

NBA Playoffs en vivo: Dónde ver Minnesota Timberwolves vs. Golden State Warriors en TV y streaming. 18:44

Pide Leticia Mejía fortalecer autodeterminación de pueblos indígenas. 10:35

EN VIVO | JUAN BECERRA | 10/05/25. 07:59

La Liga de la Afición | Sorpresa por el Día de las Madres. 18:59

#Pronostico aextendido del 10 al 16 de mayo de 2025. 10:59

Pronóstico

Pronóstico del tiempo en Los Ángeles para este 11 de mayo. 05:30

Los Ángeles: pronóstico del tiempo para este domingo 11 de mayo. 05:30

Clima | Pronóstico para hoy 11 de mayo. 06:23

Clima

Clima de hoy en Austin para este domingo 11 de mayo. 05:33

Clima | Pronóstico para hoy 11 de mayo. 06:23

Coahuila: El impacto en la educación ante la falta de una obligatoriedad clara. 07:25

Eredivisie

4-1: Perisic mantiene la emoción en la Eredivisie con un "hat trick" . 03 de Mayo, 2025 15:59

Richard Ledezma le hace un guiño a Chivas. 04 de Mayo, 2025 13:24

Goles de Santiago Gimenez en Europa; el historial de anotaciones del ‘Bebote’ con Milan y Feyenoord . 09 de Mayo, 2025 16:00