La creciente dependencia de la infraestructura digital para que la sociedad funcione significa que la importancia de la resiliencia del centro de datos ha crecido en consecuencia. Mientras que hace 20 años, una empresa podía haber ejecutado un pequeño porcentaje de sus aplicaciones en línea, ahora solo existen modelos completos en línea.

Los sistemas de TI físicos y el software que admiten deben permanecer conectados en todo momento. Estas operaciones son frágiles, sobre todo porque dependen de equipos de energía y refrigeración, pero si fallan, puede ser difícil volver a conectar los sistemas, que a menudo están interrelacionados, son interdependientes y están conectados de maneras que requieren mucho esfuerzo manual. volver y restablecer, volver a conectar, y reiniciar. La pérdida de datos puede significar la pérdida de negocios, lo que en algunos casos puede significar una pérdida masiva de ingresos.

La desconexión de los sistemas, o el tiempo de inactividad, puede generar un escrutinio regulatorio por no brindar un servicio confiable y, con el tiempo, puede dañar la reputación de una empresa.

Fue con la idea de garantizar la resiliencia del centro de datos que el fundador de Uptime Institute, Ken Brill, se dispuso a crear un sistema que mantuviera estos sistemas frágiles en un estado confiable frente a condiciones poco confiables en una empresa de servicios públicos o en una capa de instalación.

Brill patentó el concepto de una fuente de alimentación de doble cable para servidores, lo que significa que los equipos de TI podrían seguir funcionando incluso con una pérdida de la fuente de alimentación principal.

Junto con la formación inicial del Uptime Institute, compuesto por propietarios y operadores de centros de datos, desarrolló Tier Standard.

En 1996, Uptime Institute creó Topology Standard, un sistema de evaluación comparativa de rendimiento para ayudar a los propietarios y operadores de centros de datos a identificar la capacidad de rendimiento de la infraestructura del centro de datos. Cada uno de los cuatro niveles identifica los requisitos de rendimiento para cada nivel de nivel.

Es importante destacar que el estándar se basó en el resultado y se basó en el desempeño en lugar de prescriptivo. Esto significa que los operadores pueden adaptar su infraestructura a sus propias circunstancias, aún utilizando Tier Standard como punto de referencia.

Estándares de nivel

Los requisitos de nivel solo pueden cumplirse con componentes instalados permanentemente en el sitio, por lo que los operadores y propietarios no pueden afirmar que cumplen con los requisitos de nivel utilizando componentes temporales que pueden eliminarse más adelante.

Además, si bien los sistemas de servicios públicos se ven como alternativas económicas, no se consideran sistemas confiables para cumplir con los requisitos Tier, ya que están fuera del control del propietario u operador del centro de datos, y pueden interrumpirse en cualquier momento por cualquier motivo.

Nivel I - Capacidad básica

Para calificar como centro de datos de nivel I, todo lo que necesita es capacidad e infraestructura. La infraestructura crítica no es redundante; solo tiene que dimensionarse para manejar la carga de diseño y no se requiere capacidad redundante ni rutas de distribución. .

Normalmente ubicados en edificios de oficinas, los sitios de nivel I tienen un suministro de energía ininterrumpido (UPS), un sistema de generación de energía en el sitio, como un generador de motor y un sistema de enfriamiento.

En pocas palabras, un centro de datos de nivel I cuenta con equipos para proteger sus sistemas de TI de cortes de servicios públicos, pero no de errores humanos, y cualquier trabajo de mantenimiento significará que la infraestructura deberá apagarse, lo que inevitablemente causará interrupciones.

Con solo el equipo suficiente para soportar la carga de diseño de TI, ese equipo puede ayudar a garantizar la operación continua durante los cortes de servicios públicos (electricidad, agua, gas natural, etc.), pero debido a la falta de redundancia, la infraestructura aún es vulnerable a los cambios planificados o a eventos no planificados (mantenimiento y fallas en los equipos).

Nivel II - Componentes de capacidad redundante

Las instalaciones de Nivel II tienen lo que se denomina 'capacidad redundante': ignorando la utilidad, porque es intrínsecamente vulnerable, la capacidad redundante estipula que el mantenimiento se puede realizar más fácilmente que en un sitio de Nivel I y que las interrupciones son menos probables, gracias al uso de, por ejemplo, producción de energía in situ, módulos UPS, almacenamiento de energía y sistemas de refrigeración secundarios.

El Nivel II se basa en el Nivel I al requerir la adición de componentes de capacidad redundantes. Esto puede significar un generador de motor redundante, UPS o unidad de enfriamiento. El nivel II aún permite una ruta de distribución única. Esto significa que las instalaciones de Nivel II agregan la capacidad de aislar y mantener los componentes de capacidad sin afectar la carga crítica, pero los eventos de componentes de capacidad no planificados junto con los eventos planificados y no planificados relacionados con el sistema de distribución aún pueden provocar interrupciones en todo el sistema.

Nivel III - Mantenibilidad concurrente

Basándose en el Nivel II, el Nivel III agrega el requisito de una ruta de distribución redundante. Esto, junto con el requisito de nivel II de componentes de capacidad redundantes, crea el concepto de capacidad de mantenimiento concurrente, lo que significa que cualquier componente de capacidad, ruta de distribución o elementos conectados a cualquier sistema crítico se pueden aislar para eventos planificados (mantenimiento) sin afectar la carga crítica. Esto se lleva a cabo a través de los sistemas de TI mediante el uso de activos de TI con cable dual o el uso de interruptores de transferencia de punto de uso para equipos de TI con un solo cable.

Aunque los centros de datos de nivel III aún son vulnerables al tiempo de inactividad debido a errores humanos o interrupciones no planificadas, el mantenimiento no requiere que los sistemas de TI se desconecten.

Tier III es el estándar al que se adhieren la mayoría de los operadores, ya que satisface las necesidades comerciales de una amplia gama de organizaciones. Proporciona la capacidad de realizar todo el mantenimiento necesario, siempre que sea necesario. Los diseños típicos pueden proporcionar cierta tolerancia a fallas limitada debido a la naturaleza de cómo se diseñan los sistemas, aunque no se requiere tolerancia a fallas. Además, el diseño de Nivel III puede contener inherentemente puntos únicos de falla.

La mayoría de los centros de datos están construidos con un estándar de nivel III porque, en este nivel, explica Matt Stansberry, vicepresidente sénior de América del Norte, Uptime Institute, el mantenimiento debe realizarse con frecuencia, y una configuración de nivel III garantiza que "no está poniendo ninguna de su personal en riesgo de hacer mantenimiento de 'trabajo en caliente'".

“Eso es súper peligroso”, dice. “Si tiene un sistema de TI de misión crítica que está diseñado para no fallar nunca, esa responsabilidad no debe recaer en la salud y la seguridad de su personal”.

Nivel IV - Tolerancia a fallas

Las instalaciones de nivel IV a menudo se denominan "tolerantes a fallas" y están diseñadas para lograr un tiempo de actividad esperado muy alto, con un tiempo de inactividad anual medido en minutos.

El nivel IV también tiene capacidad de mantenimiento concurrente: tiene múltiples sistemas aislados que brindan capacidad redundante y múltiples rutas de distribución activa. No se permite que ninguna falla individual de la infraestructura afecte el entorno crítico.

Menos centros de datos están certificados con Tier IV, ya que muchos operadores no sienten que este nivel de tolerancia a fallas sea necesario para cumplir con sus objetivos comerciales.

Certificación

Las instalaciones se pueden certificar con las definiciones Tier en varios niveles.

Los servicios de Uptime Institute se rigen por las clasificaciones de nivel y Uptime Institute es la única organización a la que se permite adjudicar en contra de sus estándares.

Certificación de Nivel de Documentos de Diseño (TCDD)

La certificación de documentos de diseño se lleva a cabo idealmente antes o durante la construcción, lo que garantiza que una instalación se haya diseñado para cumplir con un determinado estándar de nivel. Esto asegurará que un proyecto se inicie sobre bases sólidas, evitando lo que pueden convertirse en errores costosos más adelante en el desarrollo de un centro de datos.

La certificación TCDD también se puede realizar en cualquier momento de la vida de un centro de datos.

Certificación de nivel de instalación construida (TCCF)

Intuitivamente, la certificación de instalaciones construidas verifica si un centro de datos se ha construido de acuerdo con el estándar Tier para el que fue diseñado y ofrece el rendimiento de ese estándar Tier.

Durante la construcción, cualquier proyecto experimentará cambios con respecto al diseño original debido a problemas de construcción, ingeniería de valor u otros factores. El TCCF ayuda a garantizar que cuando el diseño no se sigue por completo, el resultado cumple con el nivel y cumple con el objetivo del nivel.

Historia y desarrollo

Uptime comenzó a certificarse según el estándar a principios de la década de 2000, centrándose inicialmente en los mercados de EE.UU. y Europa occidental, pero ahora los estándares Tier están establecidos en más de 215 países.

El volumen estándar estaba (y todavía está) disponible para consultar de forma gratuita, siempre que se firme un memorando de entendimiento. Entonces, si bien se convirtió en la norma que los centros de datos se construyeran para cumplir con los estándares Tier, muchas empresas no siguieron la ruta de la certificación.

Solo más tarde, durante el auge digital de la década de 2010, las certificaciones despegaron a nivel mundial, explica Stansberry:

“Hubo proyectos de construcción en todo el mundo con personas que podrían tener 50 oficios diferentes en un sitio. Querían supervisar estas compilaciones para asegurarse de que se hicieran correctamente y cumplieran con un determinado estándar de rendimiento”.

En la actualidad, la función principal de los estándares y la certificación Tier es el aseguramiento de la calidad, para detectar errores en los diseños de los centros de datos.

Dichos errores son inevitables, dice Stansberry, porque “los proyectos y procesos son demasiado detallados y hay demasiadas personas con diferentes KPI que tienen un impacto oficial en un proyecto, desde la reducción de costos hasta la programación, los permisos y simplemente encontrar espacio en un diseño para obtener cosas hechas que quieren ver hechas”.

A pesar de las mejores intenciones, inevitablemente, dice: “Todo proyecto tiene errores. Todo proyecto tiene problemas. No vamos a pasar y darle a la gente 100, eso no sucede. Incluso en los centros de datos mejor diseñados y mejor planificados del mundo, constantemente encontramos errores y equivocaciones”.

“Es solo para decir que estos son proyectos realmente complejos, por lo que la garantía de calidad es realmente importante”.

Falta del tiempo

Hasta hace relativamente poco tiempo, el Uptime Institute proporcionaba una estimación del tiempo de inactividad anual de los centros de datos según su nivel, expresado como porcentaje de tiempo en línea al año. Una instalación de Nivel I normalmente estaría en línea el 99 por ciento del año, una de Nivel II estaría en línea el 99,9 por ciento del año y una de Nivel III tendría lo que se conoce como cuatro nueves de disponibilidad, lo que significa que solo estuvo fuera de línea durante 52 minutos al año.

Esta métrica se eliminó en 2009 porque generaba confusión, explica Chris Brown, CTO de Uptime Institute: "La referencia a 'nueves' se eliminó porque enturbiaba el problema, ya que la gente creía que la diferencia entre los niveles se basaba en un análisis probabilístico en su lugar. de las capacidades de una instalación".

Este enfoque probabilístico no sería una buena idea, dice Brown, ya que "podría dejar algunos sistemas importantes con detalles de diseño inadecuados que en el futuro podrían resultar en una falla a pesar de que el análisis arrojó una cierta cantidad de nueves a la derecha del decimal".

¿Entonces que? Más allá de la topología de nivel: sostenibilidad operativa

Para considerar cómo se ejecuta realmente un centro de datos, Uptime creó un nuevo estándar de nivel para la estabilidad operativa. Esto se administra a través de servicios que incluyen la Certificación Tier de Sostenibilidad Operacional (TCOS).

El estándar de Sostenibilidad Operacional utiliza una evaluación de operaciones basada en puntajes para evaluar la eficacia con la que cuenta un centro de datos, cómo es su capacitación interna y cómo se llevan a cabo los informes, la responsabilidad y la organización interna.

Juntos, los dos lentes de Topolicy y Operations están destinados a ayudar a una organización a diseñar y administrar una instalación que satisfaga sus necesidades comerciales generales, asegurando que una instalación bien diseñada también esté bien administrada.

Los estándares de Sostenibilidad Operacional también sirven para comparar operaciones en múltiples centros de datos y, si se usan como guía, deberían ayudar a los operadores a operar sus instalaciones de manera más consistente.

Hay tres elementos fundamentales dentro del estándar Tier para la sostenibilidad operativa: gestión y operaciones, características del edificio y ubicación del sitio.

Gestión y Operaciones

El elemento 'Administración y operaciones' se identifica como el más influyente para maximizar la disponibilidad potencial del centro de datos, ya que, según Uptime, la mayoría de las interrupciones son atribuibles a deficiencias de administración, personal y procedimientos.

Examina la dotación de personal, la eficacia del programa de mantenimiento de una instalación, incluido el mantenimiento preventivo y los acuerdos de nivel de servicio, y la rigurosidad del programa de capacitación del personal.

Vale la pena mencionar que la gestión y las operaciones son las categorías que se cambian más fácilmente, por lo que la atención aquí puede ser la forma más fácil de tener un impacto positivo en la operación de la instalación.

Características del edificio

Esto analiza los aspectos prácticos, verificando qué tan completo es el programa de puesta en servicio de un operador y qué tan bien documentado está, por ejemplo, pruebas presenciales de infraestructura crítica en la fábrica.

También analiza las características del edificio, con miras a evaluar qué tan bien preparan al personal de operaciones para el éxito.

Por ejemplo, estos elementos analizan si una instalación tiene espacio dedicado para la recuperación ante desastres, para reuniones y capacitación, y para el almacenamiento de herramientas.

Ubicación del sitio

Por último, la ubicación del sitio evalúa el riesgo de desastres naturales como inundaciones o actividad sísmica, pero también el riesgo provocado por el hombre, como la proximidad a una planta química o un aeródromo civil o militar, y qué tan bien preparado está un operador para mitigar esos riesgos.

Evaluaciones de riesgos del centro de datos (DCRA)

Para evaluar la sustentabilidad de un centro de datos operativo en vivo, Uptime Institute ofrece un servicio que combina Tier Standard: Topología y Tier Standard: Sustentabilidad operativa.

Las evaluaciones de riesgos del centro de datos tienen como objetivo evaluar las capacidades y condiciones de un centro de datos existente y qué tan bien puede satisfacer las necesidades de la organización.

Se puede utilizar para identificar deficiencias, como elemento de diligencia debida o como parte de un programa para mejorar las operaciones de la instalación.

La evaluación busca vulnerabilidades y puntos únicos de falla, evalúa la capacidad de un centro de datos, la disposición y el estado del equipo in situ, así como el régimen de mantenimiento, la dotación de personal y los programas de capacitación de una instalación.

Comprendiendo las clasificaciones de niveles del centro de datos