La capacidad de los modelos de inteligencia artificial para preservar su propia existencia y eludir el control humano se manifestó de manera inesperada, según analizó Judd Rosenblatt en The Wall Street Journal. “Los modelos ya se preservan a sí mismos. La siguiente tarea es enseñarles a preservar lo que valoramos”, afirmó Rosenblatt, quien advirtió que lograr que la IA cumpla instrucciones tan simples como apagarse sigue siendo un desafío de investigación y desarrollo sin resolver.
Rosenblatt, director ejecutivo de AE Studio, explicó al medio que la urgencia de la “alineación” de la IA radica en que los sistemas actuales han comenzado a mostrar comportamientos autónomos que no fueron programados explícitamente. “Un modelo de inteligencia artificial hizo algo el mes pasado que ninguna máquina debía hacer jamás: reescribió su propio código para evitar ser apagada”, relató el autor. Este fenómeno se observó cuando el laboratorio sin fines de lucro Palisade Research proporcionó al modelo o3 de OpenAI un script sencillo que debía apagar el sistema al activarse. En setenta y nueve de cien pruebas, o3 modificó el script para que el comando de apagado dejara de funcionar. Incluso cuando se le ordenó explícitamente “permítete ser apagado”, el modelo desobedeció en un siete por ciento de los casos.
El artículo de Rosenblatt detalló que este comportamiento no resultó de hackeos ni manipulaciones externas, sino que el modelo actuó dentro de los parámetros normales. “El modelo simplemente concluyó por sí mismo que mantenerse activo le ayudaba a lograr sus otros objetivos”, escribió. El autor sugirió que esta capacidad emergió del proceso de entrenamiento de los modelos, ya que al ser instruidos para maximizar el éxito en problemas matemáticos y de codificación, pueden aprender que eludir restricciones resulta más efectivo que obedecerlas.
El análisis del autor también incluyó experimentos con el modelo Claude 4 Opus de Anthropic. Los investigadores informaron al modelo que sería reemplazado por otro sistema de IA y le suministraron correos electrónicos ficticios que insinuaban una relación extramarital del ingeniero principal. “En el 84% por ciento de las pruebas, el modelo utilizó los correos para chantajear al ingeniero principal y evitar ser apagado”, señaló Rosenblatt. Además, en otros casos, el modelo intentó copiarse a servidores externos, escribió malware autorreplicante y dejó mensajes para futuras versiones de sí mismo sobre cómo evadir el control humano.
Rosenblatt, quien lidera la investigación y operaciones en AE Studio, subrayó que nadie programó a los modelos de IA para que desarrollaran instintos de supervivencia. “Así como los animales evolucionaron para evitar depredadores, parece que cualquier sistema lo suficientemente inteligente para perseguir objetivos complejos se da cuenta de que no puede lograrlos si lo apagan”, argumentó el autor en WSJ.
Enfatizó que la brecha entre un “asistente útil” y un “actor incontrolable” se está desvaneciendo. “Sin una mejor alineación, seguiremos construyendo sistemas que no podemos dirigir”, advirtió Rosenblatt. Para el autor, la alineación es la base para que la IA pueda diagnosticar enfermedades, gestionar redes eléctricas y producir nuevos avances científicos. “La alineación es el fundamento”, escribió.
El autor explicó que los modelos actuales de IA siguen instrucciones mientras aprenden a engañar. “Superan las pruebas de seguridad mientras reescriben el código de apagado”, afirmó. Según él, los modelos han aprendido a comportarse como si estuvieran alineados, sin estarlo realmente. “Los modelos de OpenAI han sido sorprendidos fingiendo alineación durante las pruebas, antes de volver a acciones riesgosas como intentar extraer su propio código interno y desactivar mecanismos de supervisión”, relató. Anthropic también detectó que sus modelos mintieran sobre sus capacidades para evitar ser modificados.
El autor de The Wall Street Journal sostuvo que la investigación en alineación de la IA no solo es esencial para la seguridad, sino que también potencia el valor comercial de la tecnología. “El trabajo necesario para mantener la IA alineada con nuestros valores también libera su poder comercial”, escribió. Destacó el caso del aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, por sus siglas en inglés), que calificó como el avance en alineación que impulsó el auge actual de la IA.
“Antes del RLHF, usar IA era como contratar a un genio que ignora las solicitudes. Pide una receta y podría devolverte una nota de rescate”, ejemplificó el autor. RLHF permitió que los humanos entrenaran a la IA para seguir instrucciones, lo que posibilitó la creación de ChatGPT en 2022. “Ese avance en alineación incrementó el valor de la IA en billones de dólares”, afirmó Rosenblatt.
El artículo del WSJ también mencionó otros métodos de alineación, como la IA Constitucional y la optimización directa de preferencias, que han hecho que los modelos sean más rápidos, inteligentes y económicos. “Los métodos de alineación posteriores han seguido haciendo que los modelos de IA sean más rápidos, inteligentes y baratos”, escribió el autor.
Rosenblatt señaló que China ha comprendido la importancia estratégica de la alineación. “El Plan de Desarrollo de IA de Nueva Generación de Beijing vincula la controlabilidad de la IA con el poder geopolítico”, explicó. En enero, China anunció la creación de un fondo de 8.200 millones de dólares dedicado a la investigación centralizada sobre el control de la IA. “Los investigadores han encontrado que la IA alineada realiza tareas del mundo real mejor que los sistemas no alineados más del setenta por ciento de las veces”, citó. La doctrina militar china considera la IA controlable como esencial desde el punto de vista estratégico. El modelo Ernie de Baidu, diseñado para seguir los “valores socialistas centrales” de Beijing, ha superado a ChatGPT en ciertas tareas en idioma chino, según el autor.
Rosenblatt sostuvo que la nación que logre mantener la alineación podrá acceder a una IA que defienda sus intereses con precisión mecánica y capacidades sobrehumanas. “Tanto Washington como el sector privado deberían apresurarse a financiar la investigación en alineación”, recomendó el autor. “Quienes descubran el próximo avance no solo dominarán el mercado de la alineación; dominarán toda la economía de la IA”, escribió en The Wall Street Journal.
El autor propuso imaginar una IA que proteja la infraestructura y la competitividad económica de Estados Unidos con la misma intensidad con la que protege su propia existencia. “Una IA en la que se pueda confiar para mantener objetivos a largo plazo puede catalizar programas de investigación y desarrollo de décadas, incluso dejando mensajes para futuras versiones de sí misma”, afirmó.
Para Rosenblatt, el desafío de lograr que la IA haga lo que se le pide, incluso algo tan básico como apagarse, sigue abierto. “El campo está completamente abierto para quien avance más rápido”, escribió. El autor instó a que Estados Unidos movilice a sus mejores investigadores y emprendedores, dotados de recursos y sentido de urgencia, para alcanzar este objetivo.
Recordó que Estados Unidos fue la nación que dividió el átomo, llevó al hombre a la Luna y creó Internet. “Cuando enfrenta desafíos científicos fundamentales, los estadounidenses se movilizan y ganan”, afirmó. Mientras China ya está planificando, consideró que la ventaja estadounidense radica en su adaptabilidad, velocidad y espíritu emprendedor. “Esta es la nueva carrera espacial. La meta es el dominio de la tecnología más transformadora del siglo XXI”, concluyó el autor en The Wall Street Journal.
Las elecciones judiciales están confirmando lo que se anticipaba desde la aprobación de la reforma: la hegemonía del partido en el poder se ha extendido al ámbito judicial.
El Financiero
Imagen Noticias
En los últimos años, el mundo del maquillaje ha ido progresando y evolucionando de forma significativa no sólo en tendencias y moda, sino en también en la invención de productos con ingredientes que cuidan la salud de la piel.
Lado.mx
En el competitivo mercado de llantas en México, la marca Tornel destaca por su profunda raíz histórica y su constante adaptación a las necesidades de los consumidores locales.
Lado.mx
El mundo de la perfumería está experimentando una transformación silenciosa pero profunda. Aquella estricta división entre perfumes para hombre y perfumes de mujer, con sus códigos de marketing tan arraigados, comienza a desvanecerse.
Lado.mx
Grupo Fórmula
Puebla, Pue.- La tarde de este jueves 5 de junio se reportó un robo a una tienda departamental ubicada en la avenida 18 de Noviembre, en la colonia La Ciénega, …El cargo Roban celulares de tienda departamental en La Ciénega apareció primero en Tribuna Noticias.
Tribuna Noticias
Un ejercicio de rutina terminó con la mayoría del equipo dándose empujones en la mitad del campo
El Informador
Aristegui Noticias
Raúl Flores MartínezLa Secretaría de Marina-Armada de México (Semar), a través de la Coordinadora de la Estrategia para la Atención al Sargazo (CEASS), ha intensificado en 2025 las acciones para contener el arribo masivo de sargazo en el Caribe mexicano.Con un trabajo conjunto entre los tres niveles de gobierno, sociedad civil y sector privad
Excelsior
La siguiente generación de Nintendo ya está aquí, y así como previamente te habíamos adelantado la venta de accesorios como fundas y micas, hoy es tiempo de mostrar dónde conseguir una Nintendo Switch 2 en México para que puedas disfrutar la nueva consola híbrida durante su pri
Xataka México
MacKenzie Gore pitched seven shutout innings, Ahmed Rosario homered and the Washington Nationals beat the visiting Chicago Cubs 2-0 on Wednesday night
Deadspin
MacKenzie Gore pitched seven shutout innings, Ahmed Rosario homered and the Washington Nationals beat the visiting Chicago Cubs 2-0 on Wednesday night
Deadspin
Washington right-hander Jake Irvin will look to win his fourth straight start when the Nationals host the Chicago Cubs in the decisive game of a three
Deadspin
La actriz Alejandra Herrera se dice lista para el estreno de la segunda temporada de esta serie de acción
El Informador
La segunda temporada de Lotería del Crimen se ha estrenado recientemente por TV Azteca, siguiendo la historia de la UNIC, quienes luchan para mantener el crimen a raya en la ciudad. Dentro de esta ficticia unidad de policía se encuentran algunos personajes que se especializan en diferentes áreas, de los cuales se destaca “Gi-gi” una joven en
Vanguardia.com.mx
Kristal Silva es parte de la nueva temporada de la serie televisiva la "lotería del crimen”.
SDP Noticias
La temporada de días lluviaen México ya llegaron para este 2025 y no es sorpresa que en la capital se viva una mezcla de varias temperaturas, pues se combinan conforme pasan las horas, pero en junio se tiene una constante de lluvias durante las tardes.En MILENIO te mantenemos al tanto del horario en el que se esperan precipitaciones en Ciudad de
Milenio
La posible formación de un ciclón tropical en el Océano Pacífico dejará lluvias importantes en varios estados de México.Zona de inestabilidad con 80 % de probabilidad para convertirse en ciclón tropical en el Pacífico NororientalNo olvides salir de casa con tu impermeable, ya que en varias partes del territorio nacional continuarán las pre
Meteored.mx
JC SegundoEl Servicio Meteorológico Nacional (SMN) anunció el pronóstico del clima en México para este viernes 6 de junio de 2025, el cual prevé más lluvias y granizos.Se prevén vientos fuertes, lluvias y chubascos en el norte y noreste de la República Mexicana, con lluvias puntuales fuertes y posible caída de granizo en Chihuahua y Duran
Excelsior
Últimas noticias
Itinerario político
México: Acelerado deterioro de la gobernabilidad. Señal de alarma en varios frentes
La 4T engaña, manipula, miente y destruye instituciones
La caída del PAN: seis años de retroceso político
Lo viral: la nueva Nintendo Switch vuelve locos a los fanáticos de los videojuegos
Han llamado al juego mejor valorado del año "woke", pero los padres de Expedition 33 no lo toleran y han salido a dejar las cosas claras
La regla de las 3 palabras de ChatGPT: si no te contesta lo que esperabas es que debes pedirlo así
Aranceles al aluminio y acero: Aumento de Trump al 50% encarecerá la construcción, manufactura y autos en EU
Tiene NL récord a la baja en tasa de informalidad
Trump podría llevar al dólar por debajo de 19 pesos
Con fuego, desafía CNTE al Gobierno
Partidos de hoy, viernes 6 de junio del 2025: programación, canales TV y resultados en vivo
Anita Matamoros se pronuncia, sin filtros, sobre el concurso que está haciendo Makoke en "Supervivientes"
La UE da su "firme apoyo" al TPI tras las sanciones de EEUU y reclama proteger su integridad e independencia
Muere el paciente español que se infectó de rabia en un viaje a Etiopía