Allá por 2003, e incluso antes, cuando comenzamos a interesarnos por esto de los niveles de topología en el diseño electromecánico de los data centers, una de las primeras cosas que nos llegó de forma muy nítida era la correspondencia entre los distintos escalones con un determinado número de “nueves” para la disponibilidad.

99,99     (4 nueves)      52,5 minutos

99,999   (5 nueves)      5,3 minutos

99,9999 (6 nueves)      31,5 segundos

Y tanto los estándares que existían entonces como los que fueron surgiendo incorporaron esta correspondencia como fundamento de su mensaje. A continuación algunos ejemplos de ello:

Y el mensaje caló bastante, pero de forma un tanto confusa, ya que se tomaron como valores absolutos lo que sólo era una referencia meramente orientativa. En los casos anteriormente citados de Icrea y Bicsi, las cifras, puramente referenciales, no se corresponden ni con un cálculo preciso ni con un dato estadístico, lo que, por el contrario, sí sucede con Uptime Institute quien, manejando una importante cifra de sucesos, puede determinar los valores medios de disponibilidad en distintas topologías.

La razón por la que escribo estas líneas no es otra que el hecho de haber oído de nuevo, y recientemente, varias comunicaciones en el sector en las que se vuelve a establecer la relación mencionada entre topología y disponibilidad, y además, en términos textuales tales como “el Tier IV permite 5,3 minutos de parada por año” o “si mi data center no ha parado, mi nivel es superior a cualquier Tier III o IV”.

 

El imposible 100%

Pues bien, nada más lejos de la realidad. Los niveles más altos en topologías de diseño lo que pretenden es que las paradas no se produzcan, es decir, una disponibilidad del 100%, como también lo pretenden niveles no tan altos. Si preguntamos a un usuario de data center cuánto tiempo estaría dispuesto a parar por año, la respuesta casi unánime sería “nada”, por tanto, ese es el objetivo. Cosa bien distinta es lo que luego resulte de la operación del centro.

El 100% es imposible, pero los niveles más altos pretenden acercarse lo máximo a ese objetivo. Por otra parte, la expectativa de disponibilidad es tanto más alta cuando más redundada y compleja la topología de diseño, pero ello lleva consigo también una mayor complejidad en la operación y mantenimiento. Recuerdo cuando, extrañado por el bajo nivel de disponibilidad asociado al Tier IV del UI (99,995 son 26 minutos de parada), le pregunté a Ken Brill sobre la razón para ello. Pregúntale al EPO, contestó.

En efecto, las consecuencias de paradas provocadas por, entre otros, el sistema de apagado de emergencia (Emergency Power Off) llevaban a lo que, al menos teóricamente, debía suponer un muy elevado número de nueves, a un escenario donde, con sólo 99,995, la media suponía una parada de algo más de 26 minutos al año, cantidad absolutamente intolerable para un entorno de máxima disponibilidad.

Que el Tier IV siga indicando una disponibilidad del 99,995 no quiere decir que ese sea el objetivo, sino que aquellos mal operados y mantenidos han provocado caídas que arrastran a los demás a una media muy baja. Para un Tier IV el objetivo debe ser el máximo, y conseguirlo, un esfuerzo conjunto a lo largo de su vida útil, mucho más allá de cómo fue diseñado, construido y certificado.

Además, el número de nueves lo que pretende expresar es el nivel esperado de disponibilidad, entendiendo la disponibilidad como el resultado de dividir el tiempo medio entre fallos (MTBF) por ese mismo valor sumado al tiempo de recuperación del servicio (MDT), por tanto, aunque la pérdida de suministro sea de corta duración, la recuperación del sistema suele ser más prolongada con lo que las cifras finales de disponibilidad se ven francamente resentidas.

Cuando se diseña una instalación para un mantenimiento concurrente, lo que se incorpora a la misma es la posibilidad de realizar tareas planificadas de mantenimiento sin que ello afecte a la funcionalidad de los equipos en producción. Cierto es que tales centros están expuestos a fallos singulares que pueden afectar directamente al servicio, pero la labor preventiva anterior disminuye mucho las posibilidades de que tales anomalías se manifiesten.

Si, además, se diseña el centro como tolerante a fallos, el nivel de topología adquiere su máxima expresión, siendo sólo posible una caída por una acción combinada de dos o más defectos, algo que sólo suele suceder cuando interviene la mano del hombre. La expectativa debe ser del 100%, pero todo el mundo tiene que estar preparado por si no se alcanzan esas cotas. Si se mantiene el nivel del 100%, uno estará perteneciendo al grupo de los elegidos. Si no es así, irá al grupo de los que desvirtúan los logros del colectivo.

 

La meta de la disponibilidad

El origen de la clasificación Tier está muy relacionado con el tema de los nueves. En su día, una de su primeras aplicaciones, si no la primera, fue para ayudar a una persona a justificar un presupuesto para reforzar la infraestructura de su data center. A los escalones se les asignó una teórica disponibilidad y a las caídas un coste asociado. Al comparar la inversión con los costes de caída, la inversión se hacía rentable. Sin embargo, lo de los nueves no deja de ser una filfa, sobre todo en aquellos casos que ofrecen unos valores puramente estimativos.

En España, a día de hoy, hay 6 data centers certificados como Tier IV en construcción, algunos de ellos con, incluso, la certificación Gold en sostenibilidad. Y como no somos distintos de los demás, si no se ha dado ya el caso, la estadística que es muy cabezona muestra que en un periodo determinado de tiempo, alguno o algunos de ellos harán que la media de disponibilidad general no sea lo elevada que sería de desear.

A quienes piensen que el objetivo es distinto del 100%, decirles que deberían hacerse una composición de lugar. El hecho de que no se les haya caído en un periodo determinado es un buen comienzo pero no garantiza nada, solamente cumple las expectativas del diseño, construcción y certificación.