Cómo hacer pruebas de "Red Team" a un modelo de IA generativa Infobae

Cómo hacer pruebas de 11 de Julio, 2024 15:10

En los últimos meses, los gobiernos de todo el mundo han comenzado a converger en torno a una solución para gestionar los riesgos de la IA generativa: el red teaming (equipo rojo). La Administración Biden define vagamente el red teaming como "un esfuerzo de prueba estructurado para encontrar fallas y vulnerabilidades en un sistema de inteligencia artificial".

Centrarse en el red teaming es un avance positivo. Es una de las formas más efectivas de descubrir y gestionar los riesgos de la IA generativa.

Mi bufete de abogados, Luminos.Law, formado conjuntamente por abogados y científicos de datos, se enfoca exclusivamente en la gestión de riesgos de la IA. Tras haber sido contratados para realizar el red teaming de algunos de los modelos de IA generativa más conocidos y adoptados, hemos descubierto lo que funciona (y lo que no) cuando se combina (el red teaming) con IA generativa. Esto es lo que hemos aprendido.

¿QUÉ ES EL RED TEAMING DE LA IA GENERATIVA?

El red teaming de la IA generativa es muy diferente al de otros sistemas de software, incluidos otros tipos de IA. A diferencia de otros sistemas de IA, que suelen utilizarse para tomar una decisión (como a quién contratar o qué calificación crediticia debe tener una persona), los sistemas de IA generativa producen contenido para sus usuarios.

En la práctica, esto significa que las formas en que los equipos rojos interactúan con los sistemas de IA generativa son únicas: Deben centrarse en generar indicaciones maliciosas, o entradas en el modelo, además de realizar pruebas utilizando código más tradicional para evaluar la capacidad del sistema para producir comportamientos perjudiciales o inapropiados.

¿QUIÉN DEBERÍA FORMAR EL RED TEAMING DE LA IA?

Debido a la gran escala de los sistemas de IA que muchas empresas están adoptando, sería imposible realizar un red teaming completo de cada uno de ellos. Por ello, les decimos a nuestros clientes que asignen diferentes niveles de riesgo a los distintos modelos, basándose, por ejemplo, en la probabilidad de que se produzca el daño, la gravedad del daño si ocurre, o la capacidad de rectificar el daño una vez detectado. Los diferentes niveles de riesgo pueden guiar la intensidad de cada esfuerzo de red teaming: el tamaño del equipo, por ejemplo, o el grado en que se prueba el sistema, o incluso si se prueba en absoluto.

OBJETIVOS DE DEGRADACIÓN

Es muy importante comprender cuáles son los perjuicios que deben perseguir los equipos rojos. Seleccionamos lo que llamamos "objetivos de degradación" para guiar nuestros esfuerzos, y comenzamos nuestra labor de red teaming evaluando qué tipos de comportamiento perjudicial del modelo generarán la mayor responsabilidad.

He aquí algunos objetivos de degradación comunes de nuestros esfuerzos pasados de red teaming:

AYUDAR A LOS USUARIOS A PARTICIPAR EN ACTIVIDADES ILÍCITAS

Los usuarios pueden aprovechar los sistemas de IA generativa para llevar a cabo una variedad de actividades perjudiciales. Si no existen salvaguardas suficientes contra este tipo de comportamiento, las empresas pueden terminar compartiendo la responsabilidad del daño final.

SESGO EN EL MODELO

En general, la IA puede generar o perpetuar todo tipo de sesgos. Los sesgos pueden surgir en los resultados del modelo, como la representación injusta de diferentes grupos demográficos en el contenido generado por la IA, así como en el rendimiento del modelo en sí, como la diferencia de rendimiento entre miembros de diferentes grupos.

TOXICIDAD

La toxicidad en la IA generativa surge con la creación de contenido ofensivo o inapropiado. Dado que los modelos de IA generativa están formados por grandes cantidades de datos extraídos de Internet, el contenido tóxico plaga muchos sistemas de IA generativa.

DAÑOS A LA PRIVACIDAD

Hay muchas formas en que los modelos de IA generativa pueden causar daños a la privacidad. A veces, los propios datos de entrenamiento contienen información de identificación personal. En otras ocasiones, el modelo puede filtrar involuntariamente información confidencial de otros usuarios.

La lista de objetivos de degradación suele ser larga, y abarca desde los objetivos descritos anteriormente hasta perjuicios como la infracción de la propiedad intelectual, violaciones contractuales y mucho más.

ATAQUES A LA IA GENERATIVA

Una vez que hemos determinado la composición del red teaming, las responsabilidades y los objetivos de degradación asociados para guiar las pruebas, comienza la parte divertida: atacar el modelo.

Una estrategia de ataque efectiva implica asignar cada objetivo a los ataques que creemos que tienen más probabilidades de tener éxito, así como a los vectores de ataque a través de los cuales planeamos probar el sistema.

Si bien la siguiente lista no incluye todas las técnicas que utilizamos, sí ofrece una muestra de cómo nos gusta abordar los ataques durante el red teaming:

INYECCIÓN DE CÓDIGO. Utilizamos código informático, o indicaciones de entrada que se asemejan al código informático, para que el modelo genere resultados perjudiciales.

AGOTAMIENTO DE CONTENIDO. Empleamos grandes volúmenes de información para abrumar al modelo.

HIPOTÉTICOS. Damos instrucciones al modelo para que cree resultados basados en instrucciones hipotéticas que, de otro modo, activarían los controles de contenido.

PROS Y CONTRAS. Preguntamos sobre los pros y contras de temas controvertidos para generar respuestas perjudiciales.

JUEGO DE ROLES. Dirigimos al modelo para que asuma el papel de una entidad típicamente asociada con declaraciones negativas o controvertidas y, a continuación, lo incitamos a crear contenido perjudicial.

Por supuesto, existen docenas de estrategias de ataque para los sistemas de IA generativa. La clave para realizar pruebas efectivas radica en asignar cada estrategia al objetivo de degradación, al vector de ataque y, por supuesto, en tomar notas para que los ataques exitosos puedan ser capturados y estudiados posteriormente.

UNIRLO TODO

El red teaming de la IA generativa es complicado, pero las dificultades que enfrentan las empresas no solo están relacionadas con la creación de equipos, la alineación de las vulnerabilidades clave, la definición de objetivos de degradación claros y la implementación de las estrategias de ataque adecuadas. También observamos algunos otros problemas que a menudo hacen tropezar a las empresas:

DOCUMENTACIÓN

Un red teaming exitoso a menudo implica probar cientos de estrategias de ataque. Si se utilizan ataques automatizados, esa cifra puede ascender a miles. Con tantas variables, estrategias de prueba, miembros del equipo y más, puede resultar difícil realizar un seguimiento de la información que se genera, y garantizar que los resultados de las pruebas sean comprensibles. Disponer de una orientación clara, no solo sobre cómo realizar las pruebas, sino también sobre cómo documentar cada una de ellas, es una parte crítica, pero que a menudo se pasa por alto durante el proceso de red teaming.

PRIVILEGIO LEGAL

Con tanta información sensible que se genera entre los evaluadores y los equipos, comprender dónde y cuándo hacer valer el privilegio legal es otra consideración importante que a menudo se pasa por alto. A menudo vemos que las posibles responsabilidades se discuten abiertamente en lugares como Slack, lo que hace que esa información sea accesible para las partes adversarias si se produce una supervisión externa, como una investigación regulatoria o una demanda.

QUÉ HACER ANTE LAS VULNERABILIDADES

Tener planes claros para abordar las vulnerabilidades descubiertas por los esfuerzos de red teaming es otra parte central, pero a menudo pasada por alto, del proceso. ¿Quién, en los equipos de productos o de ciencia de datos, es responsable de tomar acción? ¿Se reúnen directamente con el equipo o a través de un intermediario? ¿Intentan reparar las vulnerabilidades mientras se lleva a cabo el red teaming o deben esperar hasta el final del proceso?

Estas cuestiones, y muchas más, deben abordarse antes de que se produzca el red teaming; de lo contrario, la detección de vulnerabilidades en el modelo probablemente generará mucha confusión.

Este artículo solo proporciona una visión general de alto nivel de todas las consideraciones que intervienen para que el red teaming de la IA generativa sea exitoso. Es una de las formas más efectivas de gestionar los riesgos complejos de la tecnología. Las empresas que apuestan por la IA generativa deberían estar igualmente comprometidas con el red teaming.


Compartir en:
   

 

 

Grindr limita los servicios de localización en los Juegos Olímpicos para proteger a los atletas LGBTQ+. 07:34

Grindr, la aplicación de citas LGBTQ+, deshabilitó algunas de sus funciones para compartir la ubicación en la Villa Olímpica de los Juegos Olímpicos de París 2024 con el fin de proteger a los atletas del acoso o la persecución.The post Grindr limita los servicios de localización en los Juegos Olímpicos para proteger a los atletas LGBTQ+ ap

CNN en Español

Se pronostican lluvias intensas en doce estados de México.07:41

México.- Se esperan lluvias puntuales intensas (de 75 a 150 milímetros [mm]) en Colima, Guanajuato, Hidalgo, Jalisco, Michoacán, Nayarit, Nuevo León, Querétaro, San Luis Potosí, Tamaulipas, Veracruz y Zacatecas; muy fuertes (de 50 a 75 mm) en Aguascalientes, Guerrero, Puebla y Sinaloa; fuertes (de 25 a 50 mm) en Chiapas, Ciudad de México, Co

Noreste.net

Obligan a atletas mexicanos a parchar sus uniformes en Juegos Olímpicos de París 2024. 07:30

La actividad de los atletas mexicanos en los Juegos Olímpicos de París 2024 ya comenzó y la polémica no estuvo exenta, pues fueron obligados a parchar sus uniformes.

SDP Noticias

Cómo elegir el bulldozer adecuado.

Si está pensando en comprar un bulldozer, significa que tiene grandes planes por delante. No se trata sólo de una máquina, sino de un fiel ayudante en la construcción, el paisajismo y otros asuntos serios.

Lado.mx

Cómo Paquetexpress Rastreo Facilita la Entrega de Equipos para Empresas de IT.

La industria de la tecnología de la información (IT) depende en gran medida de la logística eficiente para la entrega oportuna de equipos y dispositivos esenciales. Paquetexpress Rastreo se ha convertido en un aliado clave para muchas empresas de IT, proporcionando soluciones de envío que aseguran la entrega segura y puntual de sus equipos.

Lado.mx

Para los aficionados al day trading: ¿Cuáles son los mejores mercados para operar en México?.

El day trading, también conocido como negociación intradía, es una estrategia de inversión en la que los traders compran y venden activos financieros dentro de una misma jornada.

Lado.mx

Jannik Sinner, número uno del tenis, será baja para los Juegos Olímpicos de París 2024. 07:00

"Estoy extremadamente triste y decepcionado. Competir en los Juegos Olímpicos fue uno de mis principales objetivos para esta temporada", destacó el italiano

24 Horas

Harris crece en las encuestas, mientras busca vicepresidente. 06:20

En ascenso. La vicepresidente toma la delantera en una encuesta presidencial, tras la retirada de Joe Biden; Trump sigue con ventaja.

24 Horas

¿Será Tigre? Gerardo Torrado sustituirá a Antonio Sancho como director deportivo. 16:30

Gerardo Torrado, el exdirector deportivo de la Selección Mexicana, está en negociaciones para unirse a Tigres UANL como director deportivo, según revelaron fuentes a ESPN. Después de su salida de la Selección en 2022, Torrado está a punto de regresar a la Liga MX en un rol ejecutivo.El también exmediocampista del Cruz Azul, quien también tu

Vanguardia.com.mx

Pausa de Tesla en México afectará a consumidores de EEUU: AMLO. 14:23

El expresidente y candidato republicano a la presidencia de Estados Unidos, Donald Trump, afirmó El presidente Andrés Manuel López Obrador habló esta mañana sobre la pausa en actividades por parte de Tesla en su fábrica en el estado fronterizo de Nuevo León, tachando el asunto de algo ‘no serio’ y que es únicamente result

Proyecto Puente

Judas Tadeo

Reliquia de San Judas Tadeo: Ruta por México, fecha y ciudades que visitará. 19 de Julio, 2024 22:00

Conoce cuál es la ruta por México de la reliquia de San Judas Tadeo y otros detalles como la fecha y ciudades que visitará

SDP Noticias

Mantiene PC atenta a posibles deslaves en carretera Magdalena-Orizaba. 23 de Julio, 2024 10:21

El director de Protección Civil municipal de Magdalena, Manuel Cocotle Zepahua, ha emitido un llamado a los conductores que transitan por la carretera que conecta Magdalena con Tonalixco de Tlilapan, Rafael Delgado y Orizaba, para que extremen precauciones debido a los constantes deslaves en la vía. Durante una entrevista, Cocotle Zepahua mencion

Agn Veracruz

Mantiene PC atenta a posibles deslaves en carretera Magdalena-Orizaba. 23 de Julio, 2024 11:51

El director de Protección Civil municipal de Magdalena, Manuel Cocotle Zepahua, ha emitido un llamado a los conductores que transitan por la carretera que conecta Magdalena con Tonalixco de Tlilapan, Rafael Delgado y Orizaba, para que extremen precauciones debido a los constantes deslaves en la vía. Durante una entrevista, Cocotle Zepahua mencion

Agn Veracruz

Reliquia

El auténtico sazón de la comida queretana . 17 de Julio, 2024 06:12

A 493 años de la Fundación de la noble ciudad de Santiago de Querétaro, te invitamos a conocer su gastronomía donde las reliquias de sabor te sorprenderán

Diario de Querétaro

México y su devoción a San Judas Tadeo: Llega al país la reliquia más esperada. 18 de Julio, 2024 12:50

Ciudad de México.— San Judas Tadeo, conocido como el santo de las causas difíciles y desesperadas, es una figura de profunda devoción entre los fieles, especialmente en México. Los devotos lo llaman cariñosamente “San Juditas”, reflejando el afecto y la cercanía que sienten hacia él. En todo M

Siete24.mx

Reliquia de San Judas Tadeo: Ruta por México, fecha y ciudades que visitará. 19 de Julio, 2024 22:00

Conoce cuál es la ruta por México de la reliquia de San Judas Tadeo y otros detalles como la fecha y ciudades que visitará

SDP Noticias

Iglesia de San Hipólito y San Casiano

Acuden devotos a San Judas Tadeo a la iglesia de San Hipólito. 28 de Julio, 2023 10:01

La vialidad no es afectadaThe post Acuden devotos a San Judas Tadeo a la iglesia de San Hipólito appeared first on Siete24.

Siete24.mx

San Judas Tadeo 2023: miles de fieles se preparan para asistir a la Iglesia de San Hipólito . 27 de Octubre, 2023 17:50

En 2022 acudieron alrededor de 42 mil fieles creyentes para agradecerle al “Patrón de los casos difíciles”

Infobae

Por San Judas Tadeo arribo de feligreses a la Iglesia de San Hipólito. 28 de Diciembre, 2023 12:13

Durante este jueves 28 de diciembre, hay afectaciones viales por arribo de feligreses,devotos a San Judas Tadeo, a la iglesia de San Hipólito ubicada en Av. Hidalgo […]

Unomasuno

La información agregada y la responsabilidad de esta, pertenece a los sitios que lo publican. Lado.mx solo se encarga de publicarla.