Por Rainer W. Kaese, director senior de la división de productos de almacenamiento de Toshiba Electronics Europe GmbH


Los discos duros empresariales modernos están diseñados para temperaturas de funcionamiento entre 5 y 60 grados Celsius. Los fabricantes recomiendan que no se utilicen en el extremo superior de este rango de forma permanente porque hacerlo reducirá la vida útil de las unidades y planteará un riesgo de mayores tasas de falla. Entonces, ¿qué sucede con los discos duros a altas temperaturas? ¿Y estos efectos pueden compensarse posteriormente trabajando a temperaturas más bajas?

Como la mayoría de los componentes de servidores y sistemas de almacenamiento, los discos duros se calientan durante el funcionamiento, especialmente bajo cargas pesadas. Para permitir a los administradores monitorear la temperatura de sus unidades, los discos duros modernos tienen un sensor de temperatura interno que entrega sus lecturas a través de SMART (tecnología de informes y análisis de autocontrol), de modo que se puedan leer utilizando los recursos del sistema operativo integrados, la administración del sistema o las herramientas para administrar controladores RAID y adaptadores de bus host. Además, existe una gran cantidad de herramientas especializadas para esta tarea, como smartmontools con licencia de código abierto, disponible tanto para Windows como para Linux.

TSH128_PressImage_03_coding
– Toshiba

Si los discos duros se calientan demasiado, ya no funcionan correctamente porque los componentes electrónicos y mecánicos sólo funcionan correctamente dentro de un determinado rango de temperatura. Además, los componentes mecánicos se desgastan más rápidamente, lo que reduce la fiabilidad y la vida útil. En particular, el rodamiento del eje dentro de los discos duros está en peligro, porque a altas temperaturas el aceite utilizado como lubricante se vuelve demasiado líquido y puede salirse del rodamiento. Por lo tanto, es esencial controlar la temperatura del disco duro para evitar el sobrecalentamiento y garantizar que las unidades brinden un servicio prolongado y confiable.

¿Cuál es la temperatura óptima?

Los fabricantes de unidades de disco duro suelen especificar un rango de temperatura en el que sus unidades funcionan correctamente. En el caso de los HDD empresariales, se supone que se utilizan en salas de servidores o centros de datos con aire acondicionado, por lo que este tipo de unidades están diseñadas para temperaturas de funcionamiento entre 5 y 60 grados centígrados. Las especificaciones para los discos duros NAS son de 5 a 65 grados Celsius y los discos duros de vigilancia son de 0 a 70 grados Celsius porque los sistemas de videovigilancia no siempre se instalan en habitaciones con condiciones ambientales estables.

En realidad, estas especificaciones se refieren únicamente a la capacidad operativa, pero la durabilidad definitivamente se ve afectada negativamente cuando las unidades se operan en el rango de temperatura superior durante un período de tiempo más largo. Normalmente, se puede tolerar un breve aumento de temperatura, por ejemplo, cuando un ventilador del sistema falla y debe ser reemplazado, pero incluso el funcionamiento permanente a 45 grados centígrados puede costar a los discos duros algunos meses de vida útil. Al fin y al cabo, las especificaciones de tiempo medio hasta fallo (MTTF) de las hojas de datos de los fabricantes siempre se refieren a una temperatura de funcionamiento media de 40 grados centígrados.

Un dato interesante a este respecto: en realidad, media significa que los tiempos de funcionamiento a más de 40 grados centígrados pueden compensarse posteriormente con un funcionamiento durante un tiempo a una temperatura correspondientemente más baja. En la práctica, sin embargo, es muy poco probable que los HDD pasen primero meses o años a temperaturas altas y luego el mismo tiempo a temperaturas más bajas.

La temperatura aumenta, la confiabilidad disminuye

Un disco duro empresarial típico tiene un MTTF de dos millones y medio de horas. En otras palabras, en el caso de dos millones y medio de unidades, se esperaría un fallo por hora, o en el caso de 1.000 unidades, un fallo cada 2.500 horas. Dado que esta información no es especialmente intuitiva para estimar la probabilidad de fallo de los discos duros dentro de la propia infraestructura, se suele utilizar la tasa de fallo anual (AFR), que puede calcularse a partir del MTTF. La fórmula para esto es la siguiente: AFR = 1-e(-8,760/MTTF)*100, donde 8,760 son las horas de funcionamiento anuales para el funcionamiento 24 horas al día, 7 días a la semana, que es estándar para los discos duros empresariales.

En esta fórmula, las unidades que ya fallaron se consideran al calcular el AFR para las unidades restantes. Sin embargo, esto no es necesario para tasas de fallo bajas, como es el caso de los discos duros, lo que significa que la fórmula se puede simplificar: AFR = 8.760/MTTF*100. El AFR resultante para HDD empresariales con un MTTF de 2,5 millones de horas es, por tanto, del 0,35 por ciento. Cuando se utilizan 1.000 unidades, se puede esperar que tres o cuatro de ellas fallen cada año.

Si la temperatura media de funcionamiento de los discos duros es superior a 40 grados centígrados, la tasa de fallos aumenta. Como regla general, por cada 5 grados por encima de los 40 grados centígrados, la tasa de fracaso puede aumentar en un 30 por ciento. A una temperatura permanente del disco duro de 55 grados Celsius, la AFR debería aproximadamente duplicarse, por lo que una base instalada de 1000 unidades probablemente sufriría de seis a ocho fallas de disco duro por año.

La temperatura no es el único factor

Además de la temperatura, otros factores afectan la durabilidad de los discos duros, incluida la carga de trabajo anual (carga de trabajo nominal), el período de garantía y, en el caso de unidades no diseñadas para uso las 24 horas del día, los 7 días de la semana, el tiempo de funcionamiento. Esto no significa que exista un riesgo inmediato de falla si no se respetan los valores especificados o si el disco duro continúa funcionando después de que haya expirado el período de garantía, pero el AFR aumenta de modo que fallan más de lo esperado con el tiempo.

Correcto diseño térmico y refrigeración

En sistemas térmicamente bien diseñados y alojados en habitaciones con aire acondicionado, normalmente no debería haber problemas para mantener la temperatura del disco duro a 40 grados centígrados o menos. Sin aire acondicionado puede resultar difícil, porque en los meses de verano la temperatura en las habitaciones suele superar los 30 grados centígrados. Esto significa que en el interior de los servidores y sistemas de almacenamiento se alcanzan rápidamente temperaturas superiores a los 40 grados centígrados. Además, el aire caliente de escape de los sistemas es difícil de eliminar sin una ventilación adecuada, lo que provoca un aumento inevitable de la temperatura ambiente y, en consecuencia, los sistemas se calientan aún más.

Por eso siempre es mejor operar servidores y sistemas de almacenamiento en un entorno con aire acondicionado, especialmente si se utilizan cargadores superiores con varias docenas de HDD. Por motivos de diseño, los discos duros traseros se calientan más que los delanteros, porque el flujo de aire absorbe primero el calor de los discos delanteros y, por lo tanto, ya no es capaz de enfriar los traseros con tanta eficacia. En este caso, se requieren temperaturas de entrada de aire inferiores a 20 grados centígrados para mantener los discos duros de las filas traseras por debajo de los 40 grados centígrados de forma permanente.

TSH128_PressImage_02
– Toshiba

Si la temperatura del disco duro está permanentemente más de 15 grados centígrados por encima de la entrada de aire o la temperatura ambiente, hay algún problema con el diseño térmico del sistema. En este caso, los administradores deben comprobar si los ventiladores funcionan correctamente o si el flujo de aire llega sin obstáculos a los discos. Además, la habitación en su conjunto debe diseñarse de manera que el aire frío y el caliente no se mezclen, porque esto reduce la eficiencia de la refrigeración. Por este motivo, los bastidores suelen colocarse uno frente al otro. El aire de refrigeración se suministra en el medio, donde se encuentra con el frente de las unidades, y se aspira para enfriar los componentes del sistema. Absorbe calor en el proceso y luego sale nuevamente por la parte trasera de las unidades, donde es eliminado por ventiladores. Las cubiertas de las bandejas vacías evitan que el aire caliente de escape regrese al pasillo frío.

Resumen

Para garantizar que los discos duros funcionen correctamente y duren el mayor tiempo posible, los administradores deben monitorear continuamente sus temperaturas de funcionamiento. Aunque los convertidores están diseñados para soportar temperaturas de hasta 60 grados centígrados, es fundamental evitar este valor máximo. Lo ideal es el funcionamiento a una temperatura media de no más de 40 grados centígrados. Garantizar que no se supere esta temperatura depende principalmente del diseño térmico del sistema y del concepto de refrigeración de la habitación en la que se encuentra el sistema.