Seleccionar página

Performance Indicator (VII): Cómo establecer objetivos

[bws_linkedin display=»share»]

El otro día un responsable de un importante datacenter me decía: vale, vale, Antonio, me has convencido: voy a medir el Performance Indicator pero, ¿Qué objetivos pongo? ¿Por dónde empiezo?.

No existe una respuesta universal a esta pregunta, obviamente. Como hemos visto en la serie de artículos, depende de muchos factores: uso del datacenter (no es lo mismo HPC que servicios web, por ejemplo), calidad de servicio que se necesita, riesgos asumibles, etc,etc.

Así que establecer de antemano cuál debe ser el objetivo del Performance Indicator es hacer un brindis al sol. Vale, es obvio que quiero un 100% de PUEr, un 100% de Thermal Conformance y un 100% de Thermal Resilience. Y ya que estamos de cienes, que me toquen otros cien millones en el Euromillones. Puestos a pedir ¿por qué no?

Si, por pedir que no quede, pero si en el Euromillones me toca algo más que el reintegro me suelo dar por contento. Así que empecemos a ser un poco realistas. Fijemos objetivos realistas, y si lo hacemos es cuando verdaderamente podremos obtener beneficios. El primer objetivo es una perogrullada, pero es quizá el más importante: MEDIR.

Yo tengo que adelgazar, este verano me he pasado con la cerveza y la barbacoa (la carne es débil, veo comida y…). Pero ¿cuánto tengo que adelgazar? Antes que nada necesito saber de dónde parto: tendré que pesarme antes de empezar. Luego, en función de mi constitución, mi estatura y mi estilo de vida podré establecer cuánto debo pesar, podré analizar la diferencia y establecer el plan para llegar al objetivo (normalmente es ejercicio y hambre).

Bueno, pues en el datacenter tengo que hacer lo mismo. Lo primero MEDIR. El PUEr depende del PUE, así que tengo que medir éste. Medir bien el PUE (ver los artículos anteriores) tiene su intríngulis, así que hay que hacerlo bien. Una vez que mida el PUE me llevaré la sorpresa de que el PUE instantáneo varía bastante a lo largo del tiempo dependiendo de las condiciones de explotación.

El siguiente paso no tiene dificultad técnica, pero tiene la enjundia de que puede ser necesario instalar muchos sensores en el CPD, y es medir el Thermal Conformance. Eso sí, hay que tener en cuenta que el Thermal Conformance no es el mero mapa de temperaturas, hay que dividir por la parte proporcional de la carga. Así que deberemos saber qué porcentaje de carga en kW hay que asignar a cada sensor de temperatura, y lo suyo es hacer esto con una aplicación que lo haga automáticamente. Si medimos bien el Thermal Conformance es bastante probable que nos llevemos algún susto morrocotudo: a pesar de que en el CPD hace frío, resulta que a algunos sistemas les está entrando el aire mucho más caliente que nuestra consigna. Resulta, además, que es a los servidores críticos a los que les pasa (por aquello de la ley de Murphy). Bueno, pues en este caso el Thermal Conformance te ha proporcionado dos noticias: una buena y una mala. La mala es que tienes sistemas calientes, y la buena es que lo sabes y puedes tomar medidas.

Si al medir el Thermal Conformance te has llevado un susto, es probable que al medir el Thermal Resilience te dé un jamacuco. Recuerda que la carga no es plana, y recuerda que hay que contemplar el peor problema posible del sistema de refrigeración.

Cuando ya tenemos en marcha las tres cosas es bastante normal encontrarnos cosas de este tipo:

  • ¡Uy, al medir el PUE nos ha salido una cifra por encima de 2! ¿no decía el proyecto del CPD que íbamos a tener un PUE de 1,4? Esta frase es muy común. No, el ingeniero que hizo el proyecto no te engañó, calculó que el PUE iba a ser 1,4 en unas condiciones concretas, que normalmente incluyen carga máxima. Es como el consumo de la ficha de los coches: todos sabemos que el consumo que aparece en el folleto no lo conseguimos nunca. No significa que el folleto nos engañe. Simplemente, como hay que normalizar  cómo se mide, se hizo la norma NEDC, que lo que viene a decir en román paladino es en condiciones ideales el consumo de tu coche es x, pero tú ya sabes que las condiciones normales de uso no son las ideales.
  • Tenemos una temperatura de consigna de 24º, el CPD está fresquito y nos ha salido un Thermal Conformance del 70%. Esto es también bastante común. Depende de cómo sea el sistema de refrigeración, obviamente. Pero no es raro que, aunque la temperatura de consigna sea baja, encontrarse que al medir el Thermal Conformance salgan cifras del 70%. En este caso… Houston, tenemos un problema. Hay que analizar por qué y corregir la situación. Además, como hemos dicho antes, tenemos que ver qué hace ese 30% de carga que está fuera de especificaciones. Si es carga crítica, es imperativo hacer algo. Esto forma parte del Performance Indicator y la gestión de riesgos.
  • Resulta que yo creía que estaba sobrado de refrigeración, gasto una barbaridad en máquinas, mantenimiento y electricidad y me sale un Thermal Resilience alarmantemente bajo. Esto también es mucho más común de lo que pensamos. De hecho suele suceder en muchas ocasiones.

Este artículo iba de cómo establecer los objetivos del PI, así que vamos allá:

  1. El primer objetivo y más importante es medir el Performance Indicator. Al hacerlo, aflorarán muchos de los problemas que tenemos en nuestro datacenter y de los que todavía no somos conscientes, y podremos ponerles remedio.
  2. Para el PUEr, un buen compromiso es, precisamente, el mencionado antes. Si la ingeniería que nos ha proyectado el DataCenter ha calculado el PUE, ese debe ser el objetivo de PUE. En el ejemplo que hemos puesto antes, si el objetivo de PUE es 1,4 y el PUE actual es 2, entonces el PUEr es el 70%.
  3. En el Thermal Conformance deberíamos estar por encima del 90%, pero en cualquier caso lo importante es saber qué sistemas son los que tenemos trabajando fuera de especificación y su grado de criticidad. La SAN puede representar un porcentaje minúsculo de la carga del DataCenter, pero si es justo eso lo que tenemos trabajando fuera de rango, igual tenemos que cortarnos las venas pronto (siempre es preferible dejárselas largas)…
  4. El objetivo ideal de Thermal Resilience es, obviamente, del 100%. Pero tenemos que tener claro cuál es el propósito del datacenter, el riesgo asumible, calidad de servicio comprometida, etc. Lo óptimo es que el TC sea igual o superior a la carga crítica.

Esto son líneas muy generales, pero lo que finalmente se establezca dependerá de muchos factores. Acercar el TC y el TR al 100% cuestan mucho dinero, y debemos analizar si merece la pena o no. ¿Hay carga que pueda ser apagada en caso de problemas del sistema de refrigeración? ¿Los sistemas que cuya temperatura está fuera de especificación son críticos? ¿cuál es la calidad de servicio comprometida?

Lo ideal sería que el PI formara parte de un sistema ISO 27001- ISO 20000, en el que controlemos tanto la seguridad como la calidad del servicio. Aunque no lo parezca, el PI es un pilar importantísimo para las dos ISO’s mencionadas: ¿cuáles son los riesgos asociados  a tener un TC y un TR bajos? ¿cómo puede afectar a la calidad del servicio? Así que os recomiendo consultar con expertos estos aspectos para no tener sustos en el futuro: quien haya sufrido un paso por cero sabe de lo que hablo. Así que si tenéis dudas, queréis poner en marcha un Performance Indicator o queréis ayuda para establecer los objetivos, ponedme un correo o llamadme, pero medid, medid, malditos!

 

 

 

Performance Indicator (VI): La verdadera potencia del indicador.

[bws_linkedin display=»share»]

En la serie de artículos precedente hemos ido viendo las generalidades sobre el Performance Indicator y los indicadores que lo componen. En este vamos a ver la verdadera potencia del PI, que es el conjunto. Si, el PI en su conjunto es un indicador por sí mismo, y  además es muy, muy potente.

Como hemos visto en los artículos anteriores, el PI tiene tres componentes: el PUEr, que es el ratio entre el PUE actual y el objetivo de PUE (mide la distancia a la que nos encontramos de nuestro objetivo); el Thermal Conformance, que mide el grado de cumplimiento de la especificación térmica; y por último el Thermal Resilience, que mide la capacidad del datacenter para hacer frente a problemas en el sistema de refrigeración. Es obvio que cada uno de ellos tiene una función concreta y proporciona información muy valiosa, pero ¿y el conjunto?

Supongamos que quiero hacer un uso eficiente de mi coche. ¿Qué significa uso eficiente? pues no lo tengo muy claro, y voy a establecer indicadores para ello. Hombre, un indicador básico para ello se ha utilizado toda la vida: cuántos litros de combustible gasta por cada 100 kilómetros recorridos. Hala, ya tenemos un indicador: litrosaloscien, y vamos a llamarle Consumo. Es evidente que cuanto más bajo es el indicador, mejor: si consumo siete litros a los cien estoy peor que si consumo cinco litros a los cien. Bueno, ya tengo un indicador, y además está relacionado con la Eficiencia Energética, voy por buen camino. Ahora ¿voy sólo en el coche? En algunas ciudades como Madrid existen calles y zonas restringidas a vehículos con dos o más ocupantes. No hay que ser un lince para ver intuitivamente que cuantas más personas ocupen un vehículo se consigue una mejor optimización de recursos, así que parece que otro buen indicador puede ser ese: cuántas personas ocupan el coche por cada 100 kilómetros. Si un coche recorre cien kilómetros, 50 de ellos con una persona y los otros 50 con dos, no hacen falta muchas matemáticas para saber que el valor del indicador sería 1,5. Llamemos a este indicador Ratio de Ocupación.

Bien, hemos establecido dos indicadores para nuestro automóvil: Consumo y Ratio de Ocupación. En el primero, hemos visto que cuánto más bajo y próximo a cero sea el valor, mejor. Y en el segundo, si pensamos que el coche está homologado para cinco plazas, es que cuanto mayor y más próximo a cinco sea el valor, mejor. Obviamente, si quiero mejorar, debo estar atento a los dos indicadores para que el primero tenga valores cada vez más próximos a cero y el segundo valores más próximos a cinco.

Pero ¿y si los indicadores no son independientes, es decir, están relacionados? En este caso ¡es obvio que lo están! Si se suben más personas al coche pesará más y, por tanto, consumirá más. Es decir: mejorar el segundo indicador implica empeorar el primero. Por eso tenemos que estar atento a ambos. Imaginemos que si Ratio de Ocupación es 1 entonces el consumo Consumo es 5, pero que si radio de ocupación es 5 consumo sube a 7,5 ¿cuál de las dos situaciones es mejor?

En nuestro datacenter queremos conseguir la mayor fiabilidad, calidad de servicio, eficiencia, etc. Para esto, a veces establecemos indicadores, nos fijamos en ellos y nos obsesionamos con mejorarlos, y no nos damos cuenta de que quizá, al mejorar un indicador concreto, estamos empeorando otro igual de importante. Por eso, debemos establecer indicadores de parámetros críticos que están relacionados, y debemos ser nosotros mismos los que establezcamos sus objetivos sin perder de vista la visión global.

A cualquier responsable de datacenter le aterra la posibilidad de tener problemas en la climatización, y la forma fácil de solventar esto es  redundando ¡venga máquinas! parafraseando a Groucho Marx en el Oeste: ¡Más máquinas! ¡Es la guerra! Sin embargo, si pongo tres docenas de climatizadoras en una sala de veinte racks (quizá sea un pelín exagerado hacer algo así) dormiré muy tranquilo pensando que tengo redundancia suficiente de climatización. Pero si hago eso y a la vez miro el PUEr debería tener pesadillas. Análogamente, otro responsable que tenía su datacenter y estaba tan feliz con él resulta que llega el Antonio Ruíz Falcó y le convence para medir el Thermal Conformance, se da cuenta de que está lejos de cumplir, cambia consignas en la climatización… y baja el Thermal Resilience.

Es decir, que como es evidente, los tres indicadores están íntimamente relacionados entre sí, y actuar sobre uno de ellos afecta a los otros dos. Si, PUEr, Thermal Conformance y Thermal Resilience están íntimamente emparentados, y si tocamos uno afectaremos a los otros dos, y es algo que nunca debemos de perder de vista. Precisamente, esta es la forma del Performance Indicator: visual. Es n triángulo, y sobre él podremos ver nuestro estado actual, pero también podremos predecir cómo será cuando lleguemos a nuestro objetivo. Si, porque nos permite hacer eso, establecer un objetivo. Sólo nosotros podemos decidir de todos los aspectos que influyen en nuestro datacenter cuáles son más importantes, estratégicos, etc. Pero, sobre todo, la importancia de no fijarse en un único aspecto. Conozco datacenters que, durante muchos años, su objetivo era la disponibilidad, y todo lo enfocaban a ella. Por eso hacían auténticas aberraciones en eficiencia. Pero no sólo eso, como ni siquiera se establecían métricas adecuadas no se conseguía mejorar la disponibilidad.

Así que, el Performance Indicator es un indicador gráfico Es un triángulo equilátero, en cuyo vértice superior está el Thermal Resilience, en el vértice inferior derecho el PUEr y en el vértice inferior izquierdo el Thermal Conformance. En los vértices se encuentra el hipotético 100% de cada uno de los parámetros, y en el centro del triángulo el otro extremo de la escala, que lo podemos establecer nosotros. Lo normal es que sea sobre el 80% para verlo con buena resolución, pero dependiendo de cuál sea nuestro punto de partida quizá tengamos que ser más conservadores y poner otros valores. En los ejes de los tres indicadores pondremos nuestro valor para cada uno de ellos, y veremos que se forma un triángulo isósceles.

La imagen siguiente muestra el aspecto del Performance Indicator tal como lo define The Green Grid:

 

Como vemos en la imagen, con la carga actual el PUEr está a algo más del 85% de su objetivo, hay un 100% de Thermal Resilience y el Thermal Conformance está próximo al 100%, en cualquier caso por encima del 95%. También vemos que si se mejora el PUEr hasta alcanzar algo más del 90%, pero entonces el Thermal Conformance y el Thermal Resilience bajan aproximadamente al 95%. ¿Es esto bueno o malo en sí mismo? Pues depende de los objetivos de la organización que explota el datacenter, del riesgo admisible, de la calidad de servicio objetivo, etc. Pero, lo que es muy importante, es tener muy claro que debemos mantener una visión global, y para eso el Performance Indicator es una gran ayuda. Podremos encontrarnos multitud de situaciones, pero las básicas son tres: datacenters muy optimizados en el que los tres parámetros estén cerca de los vértices, datacenters desastre en el que los tres parámetros estén cerca del centro y datacenters desequilibrados en el que haya un parámetro cerca del vértice y los otros cerca del centro, etc.. En el segundo y tercer caso hay, obviamente, mucho trabajo por delante porque hay problemas en el horizonte.

En el próximo artículo haremos una guía para orientarnos de cómo establecer objetivos para el Performance Indicator. Mientras tanto, ya sabéis: si tenéis alguna duda o queréis implementar el PI en vuestra instalación, consultadme (por cierto que pronto anunciaré novedades en este último punto).

 

 

Performance Indicator (II) – El PUEr

[bws_linkedin display=»share»]

El primero de los tres indicadores que forman el PI es el PUEr, que no es otra cosa que el PUE ratio. Pero ¿qué es el PUE ratio?

En el post en el que introdujimos la serie de artículos sobre nuevas métricas dijimos que el PUE ha tenido la gran virtud de poner el problema de la Eficiencia Energética sobre la mesa y conseguir concienciar sobre el problema pero que, como métrica, no es muy útil. Ahora toca explicar por qué y, como siempre, habrá que recurrir a coches y camiones.

¿Qué os parece un consumo de 12 litros a los cien kilómetros? ¿alto? ¿bajo? Seguro que más de uno estáis pensando ¿doce a los cien? Dónde vaaaas! Pero la respuesta correcta es depende: si esa medida es de un utilitario es, desde luego, malísima. Pero si la medida se corresponde a un camión de 5 ejes cargado con 40 toneladas… la medida sería estratosféricamente buena, porque su consumo suele rondar los 30 litros a los cien…

Todo esto es para ilustrar algo tan básico que es de Perogrullo: al lado de una medida hay que indicar qué se está midiendo, y el problema del PUE es que no dice qué se está midiendo. Algunos listillos me diréis… sí lo dice, es el ratio entre el total de la energía consumida por el DataCenter y la energía consumida por los equipos IT. Pues entonces yo os contesto ¿qué os parece una estatura de 2,17? Porque es una medida que para humano es muy alto (ahí tenéis a Pau Gasol), pero para jirafa es enano. Así que no vale con decir estatura. Hay que decir estatura de …

Desde que el PUE se ha puesto de moda, en cualquier evento sale alguien contando que en su nuevo datacenter, o que después de modificar el datacenter han conseguido un PUE de X, donde la X tiende a ser una cifra tan cercana a 1 como irreal. Es decir, cuentan que su datacenter tiene una estatura de 2,17, pero sin decir si es humano o jirafa.

¿Qué os parece un PUE de 1,5? Pues depende de si es humano o jirafa. Si es un datacenter nuevo hecho en Noruega para albergar un superordenador al 100% de carga permanentemente y sin UPS pues es francamente malo. Pero si se trata de un datacenter legacy en Almería, en un edificio antiguo y protegido en el que las actuaciones son prácticamente imposibles y prestando servicios que requieren redundancia N+N… pues yo diría que se trata de un PUE entre bueno y muy bueno.

Es decir, que para que el PUE sea una medida útil, hay que especificar la raza del datacenter. Por eso, quienes habéis aguantado mis charlas de los últimos años, me habéis oído insistir en que hay que establecer métricas que relacionen Eficiencia Energética con desempeño IT.

Si tenemos claros estos conceptos, entonces entenderemos que la mejor comparativa posible del PUE es la que hacemos con nosotros mismos, pues es evidente que yo soy de mi raza. Lo que hay que hacer es dos cosas: la primera es medir el PUE, y al PUE medido le llamamos PUEactual, y la segunda es definir un objetivo de PUE que queremos alcanzar: PUEref. Entonces, el PUEr es el ratio entre ambos, es decir, del grado de consecución de nuestro objetivo:

PUEr = PUEref / PUEactual

Por terminar de entenderlo, supongamos que nuestro objetivo es conseguir un 1,5 de PUE. Entonces, PUEref = 1,5. Si el PUE medido es 2, PUEr = 1,5 / 2 = 0,75. Es decir, estamos al 75% de conseguir nuestro objetivo.

Para obtener el PUEactual hay que medir el PUE, y desgraciadamente no todo el mundo sabe hacerlo. En el próximo artículo hablaremos de las Categorías del PUE y cómo se miden, y también hablaremos de los rangos de PUE definidos por TGG. Como sabéis, el objetivo de estos artículos es hacer difusión de los conceptos básicos. Si queréis ampliar conocimientos o resolver dudas, contactad conmigo.