La historia hasta ahora: El lunes (20 de octubre de 2025), uno de los centros de datos de Amazon Web Services (AWS), ubicado en la costa este de EE. UU., comenzó a experimentar “aumentos en tasas de error y latencias”. A la mañana siguiente, se informaron varios problemas en los centros de datos de AWS, muchos de los cuales están ubicados en el norte de Virginia. El grupo de centros de datos afectado, US-East-1, es el más grande y activo de AWS. La interrupción acabó con los servicios digitales de más de 2.000 empresas, según Downdetector. Los servicios en línea de Amazon, Snapchat, Signal, ChatGPT, Perplexity, Canva, Roblox, Duolingo, Fortnite, Coinbase y Epic Games se vieron afectados. El problema finalmente se “resolvió por completo” a las 6:53 p.m. ET, dijo AWS en una publicación de blog.
¿Cuál fue el motivo del incidente?
En una actualización de estado, AWS informó a los usuarios que la interrupción se originó debido a un error de DNS que afectó las interfaces de programación de aplicaciones de la base de datos DynamoDB en la región US-East-1. Después de un tiempo, Amazon recomendó a los usuarios que tenían problemas para resolver los puntos finales del servicio DynamoDB en US-EAST-1 que vaciaran sus cachés DNS.
El Sistema de nombres de dominio (DNS) funciona esencialmente como un mecanismo de búsqueda que traduce una URL web en su dirección IP correspondiente. Por ejemplo, la dirección IP del dominio www.instagram.com es 57.144.150.34. Cuando falla el DNS, no hay forma de recuperar la dirección, por lo que incluso si un servicio parece estar operativo para los usuarios que ejecutan la plataforma, no hay tráfico entrante. Considere intentar comunicarse con un amigo cuyo número de teléfono cambia constantemente y usted no tiene ninguno de estos números memorizado.
AWS utilizó el servicio de base de datos DynamoDB para almacenar datos para los propios servicios de Amazon, así como para varios otros clientes, incluidos Amazon Retail, Amazon Alexa, Lyft, Snapchat y Signal, etc.
Los errores de DNS se han vuelto frecuentes debido a diversos factores. Podría suceder en caso de que una empresa no renovase el registro o durante una actualización automática defectuosa o en los casos más comunes en los que se cambia el proveedor de servicios DNS o se actualiza la dirección de dominio.
Aunque los errores de DNS podrían ser causados por actores maliciosos, esta interrupción específica no lo fue. Fue un caso de “disponibilidad”, dijeron los expertos en ciberseguridad, donde el sistema no podía decidir correctamente a qué servidor conectarse, lo que provocó un efecto dominó.
A pesar de cuán centralizados se han vuelto los sistemas de nube con el tiempo, la región US-East-1 de AWS es relativamente famosa por causar interrupciones masivas. Construido en 2006, US-East-1 también es el predeterminado para una gran cantidad de servicios y usuarios, ya que fue la primera región de AWS.
Hay algunos servicios globales de AWS que se ejecutan desde US-East-1 dependiendo de sus puntos finales, que incluyen DynamoDB Global Tables, entre otros. Esto podría significar que los servicios utilizados incluso en Europa tengan características de infraestructura ubicadas en US-East-1 y pueden ser susceptibles a una reacción en cadena.
¿Ha habido interrupciones de AWS en el pasado?
Después de dos cortes importantes en septiembre y diciembre de 2021, los clientes estaban furiosos y calificaron a US-East-1 como un “riesgo sistémico”. La interrupción de diciembre se cita a menudo como la más grave en la historia de AWS. Dejó al descubierto cuán frágiles pueden ser las dependencias de la nube. La interrupción, que duró casi siete horas y costó a las empresas de S&P 150 millones de dólares, se debió a un error tipográfico en un comando ingresado mientras se depuraba un problema.
Tras la reacción violenta, Amazon confirmó que se estaban reconstruyendo nuevas arquitecturas tanto para el sistema de gestión de casos de soporte de AWS para que los clientes puedan chatear con el soporte técnico como para el panel de estado. Pero, en junio de 2023, la región enfrentó otra interrupción que provocó la caída de 100 servicios durante aproximadamente cuatro horas y los clientes se enfrentaron al problema recurrente de no poder comunicarse con AWS Support rápidamente, a pesar de los cambios.
En particular, cada región de AWS tiene un mínimo de tres zonas de disponibilidad (AZ) diferentes que están conectadas por separado. Y aunque se sugirió a los clientes que permitieran que sus aplicaciones y plataformas se ejecutaran en diferentes zonas de disponibilidad para controlar los riesgos de impacto, toda la región ha sido propensa a hundirse llevándose todo consigo.
¿Habrá más cortes como éste en el futuro?
Algunos expertos han predicho que las interrupciones en la nube podrían aumentar debido al impulso hacia la introducción de capacidades de inteligencia artificial en las empresas que conducen a una mayor ingesta de datos en la nube, aumentando la carga sobre los hiperescaladores. (La computación en la nube global está dominada en gran medida por AWS, seguida por Azure de Microsoft y Google Cloud).
Como la mayoría de los expertos han advertido repetidamente, la interrupción es un claro recordatorio de que la excesiva dependencia de estos proveedores dominantes de la nube podría poner de rodillas a las empresas globales en línea.
Gergely Orosz, autor del boletín informativo ‘The Pragmatic Engineer’, enumeró algunos casos poco probables de consecuencias de esta interrupción, que incluyeron a Postman, una herramienta de desarrollo de API, y Eight Sleep, una empresa de fitness para dormir.
“¡En ambos casos, las cosas deberían haber funcionado localmente! Es lo que los clientes asumieron, y debería haber sido posible. Pero claramente a los equipos de desarrollo les resultó más sencillo asumir una dependencia de la nube, y no se prepararon para una interrupción en la región de AWS. Así que ahora los clientes saben que estos son productos de la nube”, dijo en una publicación de X.
Amazon publicó un informe con un resumen detallado de la interrupción de 15 horas diciendo que deshabilitará temporalmente DynamoDB DNS Planner y que agregará “protecciones adicionales” para evitar errores de DNS en el futuro. El equipo de AWS también trabajará para mejorar sus pruebas internas para buscar más problemas de este tipo que prolongaron la interrupción.