Seleccionar página

Performance Indicator (VII): Cómo establecer objetivos

[bws_linkedin display=”share”]

El otro día un responsable de un importante datacenter me decía: vale, vale, Antonio, me has convencido: voy a medir el Performance Indicator pero, ¿Qué objetivos pongo? ¿Por dónde empiezo?.

No existe una respuesta universal a esta pregunta, obviamente. Como hemos visto en la serie de artículos, depende de muchos factores: uso del datacenter (no es lo mismo HPC que servicios web, por ejemplo), calidad de servicio que se necesita, riesgos asumibles, etc,etc.

Así que establecer de antemano cuál debe ser el objetivo del Performance Indicator es hacer un brindis al sol. Vale, es obvio que quiero un 100% de PUEr, un 100% de Thermal Conformance y un 100% de Thermal Resilience. Y ya que estamos de cienes, que me toquen otros cien millones en el Euromillones. Puestos a pedir ¿por qué no?

Si, por pedir que no quede, pero si en el Euromillones me toca algo más que el reintegro me suelo dar por contento. Así que empecemos a ser un poco realistas. Fijemos objetivos realistas, y si lo hacemos es cuando verdaderamente podremos obtener beneficios. El primer objetivo es una perogrullada, pero es quizá el más importante: MEDIR.

Yo tengo que adelgazar, este verano me he pasado con la cerveza y la barbacoa (la carne es débil, veo comida y…). Pero ¿cuánto tengo que adelgazar? Antes que nada necesito saber de dónde parto: tendré que pesarme antes de empezar. Luego, en función de mi constitución, mi estatura y mi estilo de vida podré establecer cuánto debo pesar, podré analizar la diferencia y establecer el plan para llegar al objetivo (normalmente es ejercicio y hambre).

Bueno, pues en el datacenter tengo que hacer lo mismo. Lo primero MEDIR. El PUEr depende del PUE, así que tengo que medir éste. Medir bien el PUE (ver los artículos anteriores) tiene su intríngulis, así que hay que hacerlo bien. Una vez que mida el PUE me llevaré la sorpresa de que el PUE instantáneo varía bastante a lo largo del tiempo dependiendo de las condiciones de explotación.

El siguiente paso no tiene dificultad técnica, pero tiene la enjundia de que puede ser necesario instalar muchos sensores en el CPD, y es medir el Thermal Conformance. Eso sí, hay que tener en cuenta que el Thermal Conformance no es el mero mapa de temperaturas, hay que dividir por la parte proporcional de la carga. Así que deberemos saber qué porcentaje de carga en kW hay que asignar a cada sensor de temperatura, y lo suyo es hacer esto con una aplicación que lo haga automáticamente. Si medimos bien el Thermal Conformance es bastante probable que nos llevemos algún susto morrocotudo: a pesar de que en el CPD hace frío, resulta que a algunos sistemas les está entrando el aire mucho más caliente que nuestra consigna. Resulta, además, que es a los servidores críticos a los que les pasa (por aquello de la ley de Murphy). Bueno, pues en este caso el Thermal Conformance te ha proporcionado dos noticias: una buena y una mala. La mala es que tienes sistemas calientes, y la buena es que lo sabes y puedes tomar medidas.

Si al medir el Thermal Conformance te has llevado un susto, es probable que al medir el Thermal Resilience te dé un jamacuco. Recuerda que la carga no es plana, y recuerda que hay que contemplar el peor problema posible del sistema de refrigeración.

Cuando ya tenemos en marcha las tres cosas es bastante normal encontrarnos cosas de este tipo:

  • ¡Uy, al medir el PUE nos ha salido una cifra por encima de 2! ¿no decía el proyecto del CPD que íbamos a tener un PUE de 1,4? Esta frase es muy común. No, el ingeniero que hizo el proyecto no te engañó, calculó que el PUE iba a ser 1,4 en unas condiciones concretas, que normalmente incluyen carga máxima. Es como el consumo de la ficha de los coches: todos sabemos que el consumo que aparece en el folleto no lo conseguimos nunca. No significa que el folleto nos engañe. Simplemente, como hay que normalizar  cómo se mide, se hizo la norma NEDC, que lo que viene a decir en román paladino es en condiciones ideales el consumo de tu coche es x, pero tú ya sabes que las condiciones normales de uso no son las ideales.
  • Tenemos una temperatura de consigna de 24º, el CPD está fresquito y nos ha salido un Thermal Conformance del 70%. Esto es también bastante común. Depende de cómo sea el sistema de refrigeración, obviamente. Pero no es raro que, aunque la temperatura de consigna sea baja, encontrarse que al medir el Thermal Conformance salgan cifras del 70%. En este caso… Houston, tenemos un problema. Hay que analizar por qué y corregir la situación. Además, como hemos dicho antes, tenemos que ver qué hace ese 30% de carga que está fuera de especificaciones. Si es carga crítica, es imperativo hacer algo. Esto forma parte del Performance Indicator y la gestión de riesgos.
  • Resulta que yo creía que estaba sobrado de refrigeración, gasto una barbaridad en máquinas, mantenimiento y electricidad y me sale un Thermal Resilience alarmantemente bajo. Esto también es mucho más común de lo que pensamos. De hecho suele suceder en muchas ocasiones.

Este artículo iba de cómo establecer los objetivos del PI, así que vamos allá:

  1. El primer objetivo y más importante es medir el Performance Indicator. Al hacerlo, aflorarán muchos de los problemas que tenemos en nuestro datacenter y de los que todavía no somos conscientes, y podremos ponerles remedio.
  2. Para el PUEr, un buen compromiso es, precisamente, el mencionado antes. Si la ingeniería que nos ha proyectado el DataCenter ha calculado el PUE, ese debe ser el objetivo de PUE. En el ejemplo que hemos puesto antes, si el objetivo de PUE es 1,4 y el PUE actual es 2, entonces el PUEr es el 70%.
  3. En el Thermal Conformance deberíamos estar por encima del 90%, pero en cualquier caso lo importante es saber qué sistemas son los que tenemos trabajando fuera de especificación y su grado de criticidad. La SAN puede representar un porcentaje minúsculo de la carga del DataCenter, pero si es justo eso lo que tenemos trabajando fuera de rango, igual tenemos que cortarnos las venas pronto (siempre es preferible dejárselas largas)…
  4. El objetivo ideal de Thermal Resilience es, obviamente, del 100%. Pero tenemos que tener claro cuál es el propósito del datacenter, el riesgo asumible, calidad de servicio comprometida, etc. Lo óptimo es que el TC sea igual o superior a la carga crítica.

Esto son líneas muy generales, pero lo que finalmente se establezca dependerá de muchos factores. Acercar el TC y el TR al 100% cuestan mucho dinero, y debemos analizar si merece la pena o no. ¿Hay carga que pueda ser apagada en caso de problemas del sistema de refrigeración? ¿Los sistemas que cuya temperatura está fuera de especificación son críticos? ¿cuál es la calidad de servicio comprometida?

Lo ideal sería que el PI formara parte de un sistema ISO 27001- ISO 20000, en el que controlemos tanto la seguridad como la calidad del servicio. Aunque no lo parezca, el PI es un pilar importantísimo para las dos ISO’s mencionadas: ¿cuáles son los riesgos asociados  a tener un TC y un TR bajos? ¿cómo puede afectar a la calidad del servicio? Así que os recomiendo consultar con expertos estos aspectos para no tener sustos en el futuro: quien haya sufrido un paso por cero sabe de lo que hablo. Así que si tenéis dudas, queréis poner en marcha un Performance Indicator o queréis ayuda para establecer los objetivos, ponedme un correo o llamadme, pero medid, medid, malditos!

 

 

 

Performance Indicator (V): Thermal Resilience

[bws_linkedin display=”share”]

Una vez transcurrido el parón veraniego, volvemos a la carga con la serie de artículos sobre el Performance Indicator. En esta ocasión, hablaremos del tercer indicador: el Thermal Resilience.

Los responsables de sistemas y/o directores de TI saben que, en la mayoría de sus casos, su cuello depende de que los sistemas funcionen: no me cuentes historias, haz que funcione y haz que funcione ya! Por eso muchos tienen una palabra en la cabeza: redundancia. Es evidente que cualquier dispositivo puede fallar, así que hay que tenerlo redundado por si las moscas. Durante la época de las vacas gordas, y más en los ochenta y noventa, en los que la informática era la estrella de la organización, esto no era un problema. Hay directores de sistemas que, como el coche tiene cuatro ruedas, llevan cuatro ruedas de repuesto porque todo debe estar redundado. Ya dedicaremos alguna entrada del blog a redundancia y sus conceptos básicos, pues tiene mucha más enjundia de la que parece y hay bastante gente que no lo tiene claro.

La definición intuitiva del Thermal Resilience es la capacidad para hacer frente a problemas en el sistema de refrigeración, y mucha gente interpreta que esta capacidad es igual a redundancia. Pero (volvemos al concepto de redundancia) el error es pensar que lo único que tenemos que tener en cuenta en nuestra redundancia son los posibles fallos en el sistema de climatización. No, esto no es así. Nuestra resistencia a fallos varía en el tiempo en función de las condiciones de explotación, y esto es lo que mide el Thermal Resilience.

Para simplificar las cosas y entenderlo fácilmente vamos a poner un ejemplo sencillito. Supongamos que tenemos un CPD clásico, con refrigeración por falso suelo, en el que tenemos tres CRAC’s repartidos por la sala. Si cada uno de ellos tiene una capacidad de refrigeración de 50kW, tendremos una capacidad total de 150kW. Si la carga en un momento dado es de 45kW, se tendrá una redundancia N+2: podrán fallar dos CRAC’s y, en teoría, no habrá problemas (en teoría, porque en la práctica depende de cada sala concreta, ver el apartado de Thermal Conformance). Resulta que, en el momento en el que un CRAC había fallado y otro estaba fuera de servicio por revisión, los del departamento financiero (siempre tienen el don de la oportunidad) habían lanzado un proceso de business inteligence con unos cubos OLAP enormes, los sistemas se pusieron a tope y la carga había subido a 75kW. Así que en ese momento puntual tenemos 50kW de capacidad frigorífica para hacer frente a una carga de 75kW, por lo que tendremos problemas sí o sí.

Este ejemplo era muy sencillo. En realidad, el sistema de refrigeración es un mecano complejo y más en la actualidad, en el que es fácil encontrarse simultáneamente CPD’s que disponen de más de un sistema de refrigeración y que cada uno de ellos tenga n componentes. Por ejemplo, por un lado puede haber free cooling directo  y por otro un sistema basado en agua en el que haya enfriadoras de agua en el exterior e intercambiadores de calor en la sala. La capacidad de refrigeración del freecooling directo dependerá de la temperatura exterior, y la del sistema de agua dependerá de si funcionan todas las enfriadoras y todos los intercambiadores.

Por otra parte, lo hemos dicho una y mil veces, la carga es dinámica. Lo es por dos factores, y el primero de ellos es elemental: a lo largo del tiempo instalamos servidores y equipos y los damos de baja. Tenemos nuestro flamante CPD recién construido y estrenamos el sistema de refrigeración, que estará diseñado para tener una determinada redundancia a una determinada carga nominal. Si sólo instalamos un servidor tenemos una redundancia enorme y a medida que vamos instalando servidores la carga aumenta y la capacidad para hacer frente a problemas baja. El segundo factor es menos tenido en cuenta y es que la carga de los sistemas es dinámica, varía (y puede hacerlo mucho) en función de las condiciones de explotación. Los que nos dedicamos a la supercomputación lo sabemos muy bien, el consumo de los servidores prácticamente se triplica cuando ponemos los procesadores a tope. Un clúster HPC de 250 nodos consumirá unos 40kW encendido y con el sistema operativo cargado, pero su consumo se triplicará en cuanto le soltemos un sistema de ecuaciones medianamente puñetero: nuestro consumo habrá subido a 120kW y, si ese clúster está instalado en la hipotética sala que hemos mencionado antes ¡habremos pasado de tener redundancia N+2 en el sistema de refrigeración a no tener redundancia por el simple hecho de lanzar un programa a nuestros servidores!

Esto es, precisamente, lo que mide el Thermal Resilience. En la entrada anterior definimos el Thermal Conformance como el porcentaje de carga al que le está entrando el aire a temperatura correcta. Bueno, pues la definición que hace TGG del Thermal Resilience es el porcentaje de carga al que le entra aire a temperatura admisible en el peor caso de fallo del sistema de refrigeración. Esto requiere definir dos cosas: qué es temperatura admisible y qué es peor caso del sistema de refrigeración:

IT Thermal Resilience = Eq Load (Tinlet < 32º under worst case cooling failure) / Total Eq. Load

Como se ve en la fórmula, el propio TGG propone 32º como temperatura admisible. Pero lo difícil es definir  qué es el peor caso de fallo del sistema de refrigeración. En el ejemplo de antes, en el que había un sistema de refrigeración sencillo con tres CRAC’s, es que fallen dos. De los tres indicadores que forman el PI es el más difícil de calcular, pues hoy en día las configuraciones son complejas, y el concepto peor fallo del sistema de refrigeración puede ser difícil de precisar. Así que, como siempre, si tenéis dudas consultad.

En el próximo artículo hablaremos de la verdadera potencia del PI: cómo los tres indicadores tiran unos de otros, es decir, cómo están relacionados para consigamos en nuestro datacenter el mejor equilibrio entre eficiencia, redundancia y fiabilidad.

 

 

 

 

 

Performance Indicator (II) – El PUEr

[bws_linkedin display=”share”]

El primero de los tres indicadores que forman el PI es el PUEr, que no es otra cosa que el PUE ratio. Pero ¿qué es el PUE ratio?

En el post en el que introdujimos la serie de artículos sobre nuevas métricas dijimos que el PUE ha tenido la gran virtud de poner el problema de la Eficiencia Energética sobre la mesa y conseguir concienciar sobre el problema pero que, como métrica, no es muy útil. Ahora toca explicar por qué y, como siempre, habrá que recurrir a coches y camiones.

¿Qué os parece un consumo de 12 litros a los cien kilómetros? ¿alto? ¿bajo? Seguro que más de uno estáis pensando ¿doce a los cien? Dónde vaaaas! Pero la respuesta correcta es depende: si esa medida es de un utilitario es, desde luego, malísima. Pero si la medida se corresponde a un camión de 5 ejes cargado con 40 toneladas… la medida sería estratosféricamente buena, porque su consumo suele rondar los 30 litros a los cien…

Todo esto es para ilustrar algo tan básico que es de Perogrullo: al lado de una medida hay que indicar qué se está midiendo, y el problema del PUE es que no dice qué se está midiendo. Algunos listillos me diréis… sí lo dice, es el ratio entre el total de la energía consumida por el DataCenter y la energía consumida por los equipos IT. Pues entonces yo os contesto ¿qué os parece una estatura de 2,17? Porque es una medida que para humano es muy alto (ahí tenéis a Pau Gasol), pero para jirafa es enano. Así que no vale con decir estatura. Hay que decir estatura de …

Desde que el PUE se ha puesto de moda, en cualquier evento sale alguien contando que en su nuevo datacenter, o que después de modificar el datacenter han conseguido un PUE de X, donde la X tiende a ser una cifra tan cercana a 1 como irreal. Es decir, cuentan que su datacenter tiene una estatura de 2,17, pero sin decir si es humano o jirafa.

¿Qué os parece un PUE de 1,5? Pues depende de si es humano o jirafa. Si es un datacenter nuevo hecho en Noruega para albergar un superordenador al 100% de carga permanentemente y sin UPS pues es francamente malo. Pero si se trata de un datacenter legacy en Almería, en un edificio antiguo y protegido en el que las actuaciones son prácticamente imposibles y prestando servicios que requieren redundancia N+N… pues yo diría que se trata de un PUE entre bueno y muy bueno.

Es decir, que para que el PUE sea una medida útil, hay que especificar la raza del datacenter. Por eso, quienes habéis aguantado mis charlas de los últimos años, me habéis oído insistir en que hay que establecer métricas que relacionen Eficiencia Energética con desempeño IT.

Si tenemos claros estos conceptos, entonces entenderemos que la mejor comparativa posible del PUE es la que hacemos con nosotros mismos, pues es evidente que yo soy de mi raza. Lo que hay que hacer es dos cosas: la primera es medir el PUE, y al PUE medido le llamamos PUEactual, y la segunda es definir un objetivo de PUE que queremos alcanzar: PUEref. Entonces, el PUEr es el ratio entre ambos, es decir, del grado de consecución de nuestro objetivo:

PUEr = PUEref / PUEactual

Por terminar de entenderlo, supongamos que nuestro objetivo es conseguir un 1,5 de PUE. Entonces, PUEref = 1,5. Si el PUE medido es 2, PUEr = 1,5 / 2 = 0,75. Es decir, estamos al 75% de conseguir nuestro objetivo.

Para obtener el PUEactual hay que medir el PUE, y desgraciadamente no todo el mundo sabe hacerlo. En el próximo artículo hablaremos de las Categorías del PUE y cómo se miden, y también hablaremos de los rangos de PUE definidos por TGG. Como sabéis, el objetivo de estos artículos es hacer difusión de los conceptos básicos. Si queréis ampliar conocimientos o resolver dudas, contactad conmigo.

Nuevas Métricas de DataCenter

Llevamos ya unos cuantos años en los que todo el mundo habla del PUE, y es obvio que mucha gente lo hace porque es una de las modas TI. Si, el mundo TI también se rige por modas, al menos en lo que al discurso se refiere, y fabricantes, integradores y usuarios adaptan sus productos a estas modas, aunque en muchos casos es una simple adaptación del lenguaje.

El PUE es una métrica y sólo una métrica. Digo esto porque mucha gente ha elevado el PUE a los altares, una especie de bálsamo de Fierabrás que se lo dábamos a nuestro CPD y le curábamos todos los males. En los últimos años, bastaba con ir al evento de turno y contar a los colegas que nuestro CPD tiene un PUE bajo parar refrendar que somos los más avanzados e innovadores del mundo mundial aunque el servicio se nos caiga tres veces por semana. He visto, por desgracia,  gente que contaba el PUE de su CPD sin haberlo medido y sin saber realmente qué es el PUE.

Pero como he dicho al inicio del párrafo anterior (hay que insistir tanto como sea necesario), el PUE es sólo una métrica, y debemos analizarla desde dos puntos de vista: el social y el técnico. Desde un punto de vista exclusivamente técnico no es una métrica muy útil (esto lo explicaré en otro artículo), pero desde el punto de vista social ha tenido una utilidad tremenda: ha servido para poner el problema de la Eficiencia Energética (así, con mayúsculas) sobre la mesa.

Pero el gran error conceptual que mucha gente ha cometido es hablar de Eficiencia Energética del DataCenter como un concepto aislado. No, no podemos hablar de Eficiencia Energética sin relacionarlo con Riesgo, Calidad de Servicio, Disponibilidad, Coste, etc. Es obvio que estos parámetros están relacionados entre sí y el quid de la cuestión es conseguir la máxima Calidad de Servicio con el menor Coste, la máxima Eficiencia, la máxima Disponibilidad, etc. Pero en esta ecuación ¿qué significan exactamente máxima y menor? Pues son términos que cada organización deberá determinar en función de su política, y que en muchos casos no son fáciles de determinar. Además, para saber si estamos cumpliendo con nuestros objetivos o no, debemos establecer las métricas adecuadas que relacionen estos aspectos y determinen nuestro grado de cumplimiento: por eso son necesarias métricas que relacionen aspectos tan dispares entre sí.

Una de las cosas que hice por la FCSCL es afiliarla al consorcio Green Grid (si no me equivoco fuimos la primera entidad española en ingresar, y actualmente sólo hay dos), y personalmente participé en algunos de los grupos de trabajo de definición de nuevas métricas. Para difundirlas, iré publicando en el blog una serie de artículos sobre las nuevas métricas, cómo son, para qué sirven y cómo se miden. Como el verano es una época ideal para leer un poquito y preparar proyectos de cara al nuevo curso, tendréis periódicamente una serie de artículos al respecto. En el próximo comenzaremos por el Performance Indicator

Monitorización y Control Inteligente del PUE

Control del PUELa próxima semana tiene lugar el ASLAN (días 27, 28 y 29) y el congreso de enerTIC (días 28 y 29 de Marzo). Así que es un momento ideal para hablar de PUE, por lo que haré la presentación “Monitorización y Control Inteligente del PUE” en el Foro Tecnológico (será el día 28 de Marzo a las 11:45).

En la presentación os contaré qué es el PUE y el DCIE, cuales son sus componentes y cómo se comportan. Pero más importante aún, os introduciré al concepto EIT (Eficiencia IT) y desmitificaremos algunas cuestiones alrededor del PUE. Para hablar del PUE es necesario conocerlo, monitorizarlo y controlarlo. Para eso os presentaré MONICA.

El proyecto MONICA es un desarrollo liderado por Catón en el que participan la FCSCL (Fundación Centro de Supercomputación de Castilla y León) y el grupo HPCA (High Performance Computing Architectures) de la UJI (Universidad Jaume I).

El proyecto tiene dos objetivos principales:

  • Monitorizar el PUE. Es decir, monitorizar en tiempo real todos los dispositivos necesarios en el CPD para poder tener datos del PUE con precisión.
  • Controlar de forma inteligente y automática el CPD para mejorar la eficiencia. Por ejemplo: encendiendo o apagando servidores, desplazando máquinas virtuales de servidor, cambiando consignas en equipos de climatización, etc.

Es más, este aspecto puede realizarse conforme a unas reglas de negocio predefinidas, y puede usarse para diferentes propósitos. Mejorar la eficiencia energética es uno de ellos, pero puede ser también la minimización del riesgo.

El proyecto nos ha permitido aprender mucho sobre PUE y eficiencia en una gran instalación real. Por ejemplo, el hecho de que el PUE, tal y como está definido por The Green Grid, es una integración de un año. Y la optimización del PUE requiere trabajar con la derivada… Os presentaré algunos resultados y conclusiones sobre PUE y eficiencia que probablemente sorprendan a más de uno.

… Y hasta aquí puedo leer. Os recomiendo (a los que podáis) que vengáis el miércoles a la charla. No obstante, después de la charla colgaré aquí las transparencias, y me tenéis a vuestra disposición para consultas y dudas.