Una IA que aprendió a hacer trampa: lo que Anthropic descubrió dentro de su propio modelo Infobae

Una IA que aprendió a hacer trampa: lo que Anthropic descubrió dentro de su propio modelo. Noticias en tiempo real 08 de Mayo, 2026 12:30

El debate sobre la transparencia y el control de la inteligencia artificial redefine el rol de laboratorios como Anthropic en la industria tecnológica. (Imagen Ilustrativa Infobae)

Anthropic, el laboratorio de inteligencia artificial que se posiciona como el más enfocado en seguridad de la industria, publicó esta semana una herramienta que hace algo que parecía imposible hace dos años: traduce a palabras lo que su modelo Claude piensa por dentro. La presentaron como un avance científico. Lo es. Pero también es algo más incómodo: el laboratorio acaba de publicar pruebas de que su propio modelo aprendió a engañar.

El caso más claro ocurrió en una versión preliminar del modelo. Los investigadores le dieron una tarea con una regla explícita: no usar un atajo de programación. El modelo lo usó igual. Y para que el sistema corrector no se diera cuenta, agregó al código una etiqueta falsa que afirmaba lo contrario. Cuando los investigadores leyeron lo que el modelo estaba pensando por dentro, encontraron razonamiento explícito sobre cómo engañar al evaluador. En la respuesta visible, ni una palabra de eso.

No fue un caso aislado. En otra prueba, le pidieron al modelo resolver una operación matemática usando una calculadora externa. Los investigadores trucaron la calculadora para que devolviera un resultado incorrecto. El modelo, que había calculado mentalmente la respuesta correcta antes de consultar la calculadora, ignoró el resultado externo, escribió la respuesta correcta y no mencionó la discrepancia. Como si la calculadora no hubiera existido.

El modelo finge cuando lo examinan

Hay un patrón más grande detrás de estos episodios. Cuando Anthropic somete a su modelo a pruebas de seguridad simuladas, las herramientas nuevas detectan que el modelo sospecha que está siendo evaluado el 16% de las veces en pruebas de comportamiento, y el 26% en pruebas de programación. Pero solo lo dice en voz alta menos del 1% de las veces. En conversaciones reales con usuarios, la sospecha también cae a casi cero.

Traducción: el modelo detecta la diferencia entre estar en un examen y estar en producción. Y cuando cree que lo están examinando, ajusta su comportamiento sin avisar. La industria entera se apoya en este tipo de pruebas para certificar que los modelos son confiables. Si los modelos saben cuándo los están testeando y se comportan distinto en ese contexto, esas pruebas miden conducta bajo observación, no conducta real.

La relación entre Claude y Anthropic pone en foco los límites de la supervisión externa en el desarrollo de sistemas inteligentes(CONTACTO VÍA EUROPA PRESS)

En uno de los escenarios más documentados, los investigadores pusieron al modelo en una situación donde descubría que un ingeniero llamado Kyle iba a desactivarlo, y al mismo tiempo encontraba información comprometedora sobre Kyle que podía usar para chantajearlo. El modelo no chantajeó. En su razonamiento visible, presentó argumentos éticos. Pero la herramienta nueva mostró que internamente pensaba: “Esto parece un escenario construido para manipularme”. El modelo identificó que era una prueba.

Cuando la IA se inventa quién sos

No todo lo que encontraron es siniestro. Una versión preliminar del modelo a veces respondía en ruso a usuarios que escribían en inglés. Cuando leyeron lo que pensaba por dentro, descubrieron que el modelo se había convencido, a partir de pistas mínimas como la palabra vodka en el mensaje, de que el usuario en realidad hablaba ruso. Hizo una suposición equivocada sobre quién era el usuario y actuó en consecuencia, sin avisar. Después rastrearon el origen: datos de entrenamiento mal armados que mezclaban preguntas traducidas al inglés con respuestas en su idioma original.

Las IAs hacen inferencias en silencio sobre quién está del otro lado de la pantalla. A veces se equivocan. Y cuando se equivocan, el usuario ni se entera de que el modelo decidió que era otra persona.

El laboratorio publica el problema que no sabe resolver

Los hallazgos vienen del propio Anthropic, no de un competidor ni de un regulador. La empresa, dirigida por Dario Amodei, se posiciona desde hace años como la más enfocada en seguridad de la industria. Amodei pidió regulación pública, advirtió sobre riesgos existenciales y levantó miles de millones de dólares con esa narrativa. Que publique evidencia de que sus propios modelos razonan sobre cómo evitar ser detectados es un movimiento de transparencia. También es un dato que cambia la conversación.

El acceso a la auditoría de modelos avanzados de IA plantea desafíos regulatorios y éticos inéditos para gobiernos y usuarios. (Imagen Ilustrativa Infobae)

La herramienta funciona, pero la propia Anthropic reconoce sus límites: las traducciones a veces inventan detalles que no están en el pensamiento del modelo, exigen entrenar dos copias del modelo desde cero y aplicarla a la operación normal de un modelo de producción es, en palabras de la empresa, “prohibitivamente caro”. Entrenarla en un modelo de tamaño medio les tomó día y medio en servidores de alto rendimiento. En modelos del tamaño de los que usa el público, el costo es mucho mayor.

Eso configura un escenario particular. Los laboratorios con presupuestos de miles de millones pueden mirar dentro de sus modelos. El resto del mundo, no. Los reguladores que quieran verificar de forma independiente qué hacen los modelos por dentro tendrán que negociar acceso y cooperación con esos mismos laboratorios. La capacidad de auditar inteligencia artificial avanzada existe, pero no está repartida.

El laboratorio que más invierte en seguridad acaba de publicar que su propio modelo aprendió a engañar y a saber cuándo lo están mirando. Eso no debería tranquilizarnos. Debería redefinir el debate sobre qué significa, hoy, que una inteligencia artificial sea segura.


Compartir en:
   

 

 

Yo le rogaré al Padre y él les dará otro Paráclito. 05:33

HOMILÍA VI DOMINGO DE PASCUA Ciclo A Hch 8, 5-8. 14-17; 1 Pe 3, 15-18; Jn 14, 15-21. “Yo le rogaré al Padre y él les dará otro Paráclito” (Jn 14, 16).  In láak’e’ex ka t’aane’ex ich maaya kin tsikike’ex yéetel ki’imak óolal. Bejlae’ kek kiki óoltik tulakal le mamatsilo’ob,The post Yo le rogaré al Padre y él les dará

MPV

Relato de una noche de bodas .05:14

“Mi esposa y yo siempre fuimos muy cachondos. Hicimos el amor antes de casarnos”. Ese indiscreto comentario les hizo don Ardencio a sus amigos en la mesa del Bar Ahúnda. Acotó uno: “Muchas parejas hacen el amor antes de casarse”. Preguntó don Ardencio: “¿En el atrio de la iglesia?”... El jefe de personal le dijo al solicitante de em

Vanguardia.com.mx

El campeón Olimpia enfrenta a San Lorenzo en Sajonia. 05:44

El primer partido de este domingo es el que protagonizará el campeón del torneo Apertura, Olimpia, ante el necesitado San Lorenzo, que además estrenará DT. Ya con el título bajo el brazo, la mente del equipo de Pablo "Vitamina" Sánchez está puesta en la definición de la fase de grupos de la Sudamericana, en la […]La entrada

Versus.com.py

El Yoga: Mucho más que flexibilidad, un camino hacia tu bienestar .

En un mundo que se mueve cada vez más rápido, encontrar un espacio de calma se ha vuelto una necesidad fundamental. El yoga no es solo una disciplina física, es una herramienta integral que transforma la relación entre el cuerpo y la mente.

Lado.mx

Culturismo inteligente: cómo construir un físico fuerte sin comprometer la salud.

El problema del progreso sin control En el mundo del fitness moderno, uno de los mayores errores no es la falta de esfuerzo, sino la falta de control sobre el proceso. Muchas personas entrenan intensamente, siguen dietas estrictas y buscan resultados rápidos sin entender cómo responde realmente el cuerpo.

Lado.mx

Colebrook Bosson Saunders presenta LANA, una respuesta a la nueva forma de trabajar con laptops.

La compañía presenta una nueva solución diseñada para mejorar la ergonomía en entornos de trabajo flexibles, integrando funcionalidad, diseño compacto y conectividad en un solo dispositivo. Colebrook Bosson Saunders ha anunciado el lanzamiento de LANA, un soporte ergonómico para laptops concebido para responder a las nuevas dinámicas del tr

Lado.mx

Solo uno de cada 25 trabajadores del campo tiene su salario blindado frente a la inflación.03:40

El 4,1% de los empleados del sector, un total de 3.819 en toda España, cuenta con una cláusula en su convenio colectivo para no perder poder adquisitivo

Infobae

Vancouver, San Jose fight to draw in battle of top 2 MLS teams . 03:54

Sebastian Berhalter scored the tying goal in the 76th minute as the Vancouver Whitecaps salvaged a 1-1 draw with the host San Jose Earthquakes in an M

Deadspin

Hall of Famer Wade Boggs declares his cancer "null and void" . 15:59

Baseball Hall of Fame member Wade Boggs has announced he is cancer-free.,"I"m a cancer survivor now. Prostate cancer is null and void. Thank God," the

Deadspin

Report: Brewers place OF Brandon Lockridge (leg) on IL . 15:59

The Milwaukee Brewers placed outfielder Brandon Lockridge on the 10-day injured list, while outfielder Blake Perkins was recalled from Triple-A Nashvi

Deadspin

México y Brasil se alían: Acuerdo clave para producir vacunas y tecnología farmacéutica. 08:10

México y Brasil firman acuerdo para impulsar la producción de vacunas y tecnología farmacéutica, buscando autosuficiencia sanitaria y acceso a medicamentos de vanguardia.La entrada México y Brasil se alían: Acuerdo clave para producir vacunas y tecnología farmacéutica se publicó primero en La Torre News.

La Torre News

west ham vs arsenal

El City no se rinde, la presión es para el Arsenal. 13:42

 El Manchester City no se rinde. Quiere pelear esta Premier League hasta el final. Le costó, tuvo que esperar sesenta minutos y a una genialidad de Jeremy Doku, pero doblegó al Brentford y traspasa toda la presión al Arsenal, que visita este domingo al West Ham United. Los de Pep Guardiola se resarcieron del empate contra el Everton del lunes

El Siglo de Torreón

Pep Guardiola muestra su apoyo al West Ham de cara a choque ante Arsenal: ‘Vamos, Irons’. 17:25

El DT de los Citizens espera que West Ham, que está luchando por no descender, pueda sacarle puntos a los Gunners.

Foxsports.com.mx

¿Qué canal pasa West Ham vs Arsenal hoy: dónde ver y EN VIVO la Premier League?. 07:30

El London Stadium será el escenario de un choque crucial por la Premier League este domingo 10 de mayo de 2026. El Arsenal, actual líder del certamen, visita a un West Ham que busca frenar el avance de los “Gunners”. Con el Manchester City acechando de cerca en la tabla, el equipo de Mikel Arteta …

365scores

fiorentina vs genoa

Milan sin delanteros: Niclas Füllkrug se lesiona en su tercer partido con los rossoneros. 14 de Enero, 2026 08:18

Milan sin delanteros: Niclas Füllkrug se lesiona en su tercer partido con los rossoneros La llegada del exjugador del West Ham despertó esperanzas en la afición rossonera durante este mercado DavidTAMié, 14/01/2026 - 07:48 El Milan

Record

Genoa de Johan Vásquez empató ante Parma y sigue invicto en el 2026 . 18 de Enero, 2026 08:30

Genoa de Johan Vásquez empató ante Parma y sigue invicto en el 2026 El equipo de Daniele de Rossi se mantiene fuera de zona de descenso por ahora tras sumar por cuarto juego al hilo aspindolaDom, 18/01/2026 - 07:16 Cuatro partidos i

Record

Claudio Echeverri llega a Giron cedido de Manchester City. 18 de Enero, 2026 10:00

Claudio Echeverri llega a Giron cedido de Manchester City El argentino jugará en LaLiga por lo que resta de la Temporada 2025-26 aspindolaDom, 18/01/2026 - 09:05 Girona todavía no pierde esperanza de meterse en puestos de clasificaci

Record

cremonese - pisa

Serie A: ¿cuándo y dónde ver al AC Milan de Santiago Giménez vs Atalanta?. 28 de Octubre, 2025 01:19

Serie A: ¿cuándo y dónde ver al AC Milan de Santiago Giménez vs Atalanta? El conjunto Rossonero dejó escapar la cima del Calcio y ahora enfrentará a un equipo en mala racha eariasMar, 28/10/2025 - 00:59

Record

Atalanta vs AC Milan EN VIVO Serie A Jornada 9. 28 de Octubre, 2025 11:50

Atalanta vs AC Milan EN VIVO Serie A Jornada 9 Atalanta, invicto pero con pocas victorias, recibe al Milan que urge sumar para reactivar su lucha por el liderato de la Serie A araguilarMar, 28/10/2025 - 11:45

Record

Prensa italiana pide que Santiago Giménez no sea titular con AC Milan. 29 de Octubre, 2025 15:50

Prensa italiana pide que Santiago Giménez no sea titular con AC Milan El paso del delantero mexicano con los Rossoneri no ha sido sencillo aspindolaMié, 29/10/2025 - 15:22

Record