Las ruedas aplastadas provocaron el sobrecalentamiento de un rack de servidores de Google en uno de los puntos de presencia de su red de borde.

Según una publicación del arquitecto de soluciones de Google Cloud, Steve Mcghee, la ingeniería de confiabilidad del sitio (SRE) fue notificada del "número anormalmente alto de errores" que emanaba de un centro de datos sin nombre. Según Google, el problema se solucionó antes de que pudiera provocar un impacto notable en los usuarios.

Google no ha proporcionado detalles sobre cuándo o dónde sucedió esto, sin embargo, se eliminaron las máquinas que funcionaban mal y SRE migró las cargas de trabajo a "recursos" redundantes. Finalmente, los ingenieros aislaron el problema en un solo rack y descubrieron mensajes del kernel en el registro del sistema base del rack.

La torre inclinada de Google

El problema fue provocado por un daño en las ruedas traseras del rack, que inclinó el bastidor hacia adelante, interrumpiendo el flujo de refrigerante líquida y provocando que algunas CPU se sobrecalentaran. Google informó que fue rápidamente reparado y el bastidor volvió a la alineación correcta.

Más tarde, la compañía decidió reemplazar sistemáticamente todos los bastidores con las mismas ruedas para garantizar que el problema no vuelva a ocurrir.