
Anthropic, el laboratorio de inteligencia artificial que se posiciona como el más enfocado en seguridad de la industria, publicó esta semana una herramienta que hace algo que parecía imposible hace dos años: traduce a palabras lo que su modelo Claude piensa por dentro. La presentaron como un avance científico. Lo es. Pero también es algo más incómodo: el laboratorio acaba de publicar pruebas de que su propio modelo aprendió a engañar.
El caso más claro ocurrió en una versión preliminar del modelo. Los investigadores le dieron una tarea con una regla explícita: no usar un atajo de programación. El modelo lo usó igual. Y para que el sistema corrector no se diera cuenta, agregó al código una etiqueta falsa que afirmaba lo contrario. Cuando los investigadores leyeron lo que el modelo estaba pensando por dentro, encontraron razonamiento explícito sobre cómo engañar al evaluador. En la respuesta visible, ni una palabra de eso.
No fue un caso aislado. En otra prueba, le pidieron al modelo resolver una operación matemática usando una calculadora externa. Los investigadores trucaron la calculadora para que devolviera un resultado incorrecto. El modelo, que había calculado mentalmente la respuesta correcta antes de consultar la calculadora, ignoró el resultado externo, escribió la respuesta correcta y no mencionó la discrepancia. Como si la calculadora no hubiera existido.
Hay un patrón más grande detrás de estos episodios. Cuando Anthropic somete a su modelo a pruebas de seguridad simuladas, las herramientas nuevas detectan que el modelo sospecha que está siendo evaluado el 16% de las veces en pruebas de comportamiento, y el 26% en pruebas de programación. Pero solo lo dice en voz alta menos del 1% de las veces. En conversaciones reales con usuarios, la sospecha también cae a casi cero.
Traducción: el modelo detecta la diferencia entre estar en un examen y estar en producción. Y cuando cree que lo están examinando, ajusta su comportamiento sin avisar. La industria entera se apoya en este tipo de pruebas para certificar que los modelos son confiables. Si los modelos saben cuándo los están testeando y se comportan distinto en ese contexto, esas pruebas miden conducta bajo observación, no conducta real.

En uno de los escenarios más documentados, los investigadores pusieron al modelo en una situación donde descubría que un ingeniero llamado Kyle iba a desactivarlo, y al mismo tiempo encontraba información comprometedora sobre Kyle que podía usar para chantajearlo. El modelo no chantajeó. En su razonamiento visible, presentó argumentos éticos. Pero la herramienta nueva mostró que internamente pensaba: “Esto parece un escenario construido para manipularme”. El modelo identificó que era una prueba.
No todo lo que encontraron es siniestro. Una versión preliminar del modelo a veces respondía en ruso a usuarios que escribían en inglés. Cuando leyeron lo que pensaba por dentro, descubrieron que el modelo se había convencido, a partir de pistas mínimas como la palabra vodka en el mensaje, de que el usuario en realidad hablaba ruso. Hizo una suposición equivocada sobre quién era el usuario y actuó en consecuencia, sin avisar. Después rastrearon el origen: datos de entrenamiento mal armados que mezclaban preguntas traducidas al inglés con respuestas en su idioma original.
Las IAs hacen inferencias en silencio sobre quién está del otro lado de la pantalla. A veces se equivocan. Y cuando se equivocan, el usuario ni se entera de que el modelo decidió que era otra persona.
Los hallazgos vienen del propio Anthropic, no de un competidor ni de un regulador. La empresa, dirigida por Dario Amodei, se posiciona desde hace años como la más enfocada en seguridad de la industria. Amodei pidió regulación pública, advirtió sobre riesgos existenciales y levantó miles de millones de dólares con esa narrativa. Que publique evidencia de que sus propios modelos razonan sobre cómo evitar ser detectados es un movimiento de transparencia. También es un dato que cambia la conversación.

La herramienta funciona, pero la propia Anthropic reconoce sus límites: las traducciones a veces inventan detalles que no están en el pensamiento del modelo, exigen entrenar dos copias del modelo desde cero y aplicarla a la operación normal de un modelo de producción es, en palabras de la empresa, “prohibitivamente caro”. Entrenarla en un modelo de tamaño medio les tomó día y medio en servidores de alto rendimiento. En modelos del tamaño de los que usa el público, el costo es mucho mayor.
Eso configura un escenario particular. Los laboratorios con presupuestos de miles de millones pueden mirar dentro de sus modelos. El resto del mundo, no. Los reguladores que quieran verificar de forma independiente qué hacen los modelos por dentro tendrán que negociar acceso y cooperación con esos mismos laboratorios. La capacidad de auditar inteligencia artificial avanzada existe, pero no está repartida.
El laboratorio que más invierte en seguridad acaba de publicar que su propio modelo aprendió a engañar y a saber cuándo lo están mirando. Eso no debería tranquilizarnos. Debería redefinir el debate sobre qué significa, hoy, que una inteligencia artificial sea segura.
HOMILÍA VI DOMINGO DE PASCUA Ciclo A Hch 8, 5-8. 14-17; 1 Pe 3, 15-18; Jn 14, 15-21. “Yo le rogaré al Padre y él les dará otro Paráclito” (Jn 14, 16). In láak’e’ex ka t’aane’ex ich maaya kin tsikike’ex yéetel ki’imak óolal. Bejlae’ kek kiki óoltik tulakal le mamatsilo’ob,The post Yo le rogaré al Padre y él les dará
MPV
“Mi esposa y yo siempre fuimos muy cachondos. Hicimos el amor antes de casarnos”. Ese indiscreto comentario les hizo don Ardencio a sus amigos en la mesa del Bar Ahúnda. Acotó uno: “Muchas parejas hacen el amor antes de casarse”. Preguntó don Ardencio: “¿En el atrio de la iglesia?”... El jefe de personal le dijo al solicitante de em
Vanguardia.com.mx
El primer partido de este domingo es el que protagonizará el campeón del torneo Apertura, Olimpia, ante el necesitado San Lorenzo, que además estrenará DT. Ya con el título bajo el brazo, la mente del equipo de Pablo "Vitamina" Sánchez está puesta en la definición de la fase de grupos de la Sudamericana, en la […]La entrada
Versus.com.py
En un mundo que se mueve cada vez más rápido, encontrar un espacio de calma se ha vuelto una necesidad fundamental. El yoga no es solo una disciplina física, es una herramienta integral que transforma la relación entre el cuerpo y la mente.
Lado.mx
El problema del progreso sin control En el mundo del fitness moderno, uno de los mayores errores no es la falta de esfuerzo, sino la falta de control sobre el proceso. Muchas personas entrenan intensamente, siguen dietas estrictas y buscan resultados rápidos sin entender cómo responde realmente el cuerpo.
Lado.mx
La compañía presenta una nueva solución diseñada para mejorar la ergonomía en entornos de trabajo flexibles, integrando funcionalidad, diseño compacto y conectividad en un solo dispositivo. Colebrook Bosson Saunders ha anunciado el lanzamiento de LANA, un soporte ergonómico para laptops concebido para responder a las nuevas dinámicas del tr
Lado.mx
El 4,1% de los empleados del sector, un total de 3.819 en toda España, cuenta con una cláusula en su convenio colectivo para no perder poder adquisitivo
Infobae
Sebastian Berhalter scored the tying goal in the 76th minute as the Vancouver Whitecaps salvaged a 1-1 draw with the host San Jose Earthquakes in an M
Deadspin
Baseball Hall of Fame member Wade Boggs has announced he is cancer-free.,"I"m a cancer survivor now. Prostate cancer is null and void. Thank God," the
Deadspin
The Milwaukee Brewers placed outfielder Brandon Lockridge on the 10-day injured list, while outfielder Blake Perkins was recalled from Triple-A Nashvi
Deadspin
México y Brasil firman acuerdo para impulsar la producción de vacunas y tecnología farmacéutica, buscando autosuficiencia sanitaria y acceso a medicamentos de vanguardia.La entrada México y Brasil se alían: Acuerdo clave para producir vacunas y tecnología farmacéutica se publicó primero en La Torre News.
La Torre News
El Manchester City no se rinde. Quiere pelear esta Premier League hasta el final. Le costó, tuvo que esperar sesenta minutos y a una genialidad de Jeremy Doku, pero doblegó al Brentford y traspasa toda la presión al Arsenal, que visita este domingo al West Ham United. Los de Pep Guardiola se resarcieron del empate contra el Everton del lunes
El Siglo de Torreón
El DT de los Citizens espera que West Ham, que está luchando por no descender, pueda sacarle puntos a los Gunners.
Foxsports.com.mx
El London Stadium será el escenario de un choque crucial por la Premier League este domingo 10 de mayo de 2026. El Arsenal, actual líder del certamen, visita a un West Ham que busca frenar el avance de los “Gunners”. Con el Manchester City acechando de cerca en la tabla, el equipo de Mikel Arteta …
365scores
Milan sin delanteros: Niclas Füllkrug se lesiona en su tercer partido con los rossoneros La llegada del exjugador del West Ham despertó esperanzas en la afición rossonera durante este mercado DavidTAMié, 14/01/2026 - 07:48 El Milan
Record
Genoa de Johan Vásquez empató ante Parma y sigue invicto en el 2026 El equipo de Daniele de Rossi se mantiene fuera de zona de descenso por ahora tras sumar por cuarto juego al hilo aspindolaDom, 18/01/2026 - 07:16 Cuatro partidos i
Record
Claudio Echeverri llega a Giron cedido de Manchester City El argentino jugará en LaLiga por lo que resta de la Temporada 2025-26 aspindolaDom, 18/01/2026 - 09:05 Girona todavía no pierde esperanza de meterse en puestos de clasificaci
Record
Serie A: ¿cuándo y dónde ver al AC Milan de Santiago Giménez vs Atalanta? El conjunto Rossonero dejó escapar la cima del Calcio y ahora enfrentará a un equipo en mala racha eariasMar, 28/10/2025 - 00:59
Record
Atalanta vs AC Milan EN VIVO Serie A Jornada 9 Atalanta, invicto pero con pocas victorias, recibe al Milan que urge sumar para reactivar su lucha por el liderato de la Serie A araguilarMar, 28/10/2025 - 11:45
Record
Prensa italiana pide que Santiago Giménez no sea titular con AC Milan El paso del delantero mexicano con los Rossoneri no ha sido sencillo aspindolaMié, 29/10/2025 - 15:22
Record
Últimas noticias
Tres de tres: ¿Por qué vencer al Atlas garantiza el trofeo para Cruz Azul?
¿Jugará Kylian Mbappé el Clásico Español? Real Madrid da a conocer la convocatoria oficial
El Clásico se viste de luto: Fallece el padre de Hansi Flick a horas del partido
Onda de calor extrema y frente frío 50: pronóstico del clima en México hoy 10 de mayo 2026
Día de las Madres 2026: Las mejores promociones bancarias y descuentos que caducan HOY en México
Precio del dólar hoy 10 de mayo: Así se ubica el peso mexicano este domingo, Día de las Madres
Día de las Madres: 10 frases inteligentes, profundas e inolvidables para mamá
Pronóstico del clima 10 de mayo | Prevalecerá la onda de calor en Sinaloa y otros estados del país
Salvador Alvarado refuerza trabajos preventivos para evitar inundaciones en temporada de lluvias
Niñas y niños jornaleros, los olvidados
Urge incrementar presupuesto para refugios de mujeres en Zacatecas: Geovanna Bañuelos
Subway rompe la forma clásica de su sándwich con los “Golazos”
Cuba: Mujeres, las mil y una estrategias para paliar la crisis
La leyenda del Área 51 y por qué todavía nos fascina
La CFE cuenta con suficiente capacidad e infraestructura para suministrar energía a nuevos proyectos e impulsar el desarrollo económico de Querétaro