Seleccionar página

Performance Indicator (VII): Cómo establecer objetivos

El otro día un responsable de un importante datacenter me decía: vale, vale, Antonio, me has convencido: voy a medir el Performance Indicator pero, ¿Qué objetivos pongo? ¿Por dónde empiezo?.

No existe una respuesta universal a esta pregunta, obviamente. Como hemos visto en la serie de artículos, depende de muchos factores: uso del datacenter (no es lo mismo HPC que servicios web, por ejemplo), calidad de servicio que se necesita, riesgos asumibles, etc,etc.

Así que establecer de antemano cuál debe ser el objetivo del Performance Indicator es hacer un brindis al sol. Vale, es obvio que quiero un 100% de PUEr, un 100% de Thermal Conformance y un 100% de Thermal Resilience. Y ya que estamos de cienes, que me toquen otros cien millones en el Euromillones. Puestos a pedir ¿por qué no?

Si, por pedir que no quede, pero si en el Euromillones me toca algo más que el reintegro me suelo dar por contento. Así que empecemos a ser un poco realistas. Fijemos objetivos realistas, y si lo hacemos es cuando verdaderamente podremos obtener beneficios. El primer objetivo es una perogrullada, pero es quizá el más importante: MEDIR.

Yo tengo que adelgazar, este verano me he pasado con la cerveza y la barbacoa (la carne es débil, veo comida y…). Pero ¿cuánto tengo que adelgazar? Antes que nada necesito saber de dónde parto: tendré que pesarme antes de empezar. Luego, en función de mi constitución, mi estatura y mi estilo de vida podré establecer cuánto debo pesar, podré analizar la diferencia y establecer el plan para llegar al objetivo (normalmente es ejercicio y hambre).

Bueno, pues en el datacenter tengo que hacer lo mismo. Lo primero MEDIR. El PUEr depende del PUE, así que tengo que medir éste. Medir bien el PUE (ver los artículos anteriores) tiene su intríngulis, así que hay que hacerlo bien. Una vez que mida el PUE me llevaré la sorpresa de que el PUE instantáneo varía bastante a lo largo del tiempo dependiendo de las condiciones de explotación.

El siguiente paso no tiene dificultad técnica, pero tiene la enjundia de que puede ser necesario instalar muchos sensores en el CPD, y es medir el Thermal Conformance. Eso sí, hay que tener en cuenta que el Thermal Conformance no es el mero mapa de temperaturas, hay que dividir por la parte proporcional de la carga. Así que deberemos saber qué porcentaje de carga en kW hay que asignar a cada sensor de temperatura, y lo suyo es hacer esto con una aplicación que lo haga automáticamente. Si medimos bien el Thermal Conformance es bastante probable que nos llevemos algún susto morrocotudo: a pesar de que en el CPD hace frío, resulta que a algunos sistemas les está entrando el aire mucho más caliente que nuestra consigna. Resulta, además, que es a los servidores críticos a los que les pasa (por aquello de la ley de Murphy). Bueno, pues en este caso el Thermal Conformance te ha proporcionado dos noticias: una buena y una mala. La mala es que tienes sistemas calientes, y la buena es que lo sabes y puedes tomar medidas.

Si al medir el Thermal Conformance te has llevado un susto, es probable que al medir el Thermal Resilience te dé un jamacuco. Recuerda que la carga no es plana, y recuerda que hay que contemplar el peor problema posible del sistema de refrigeración.

Cuando ya tenemos en marcha las tres cosas es bastante normal encontrarnos cosas de este tipo:

  • ¡Uy, al medir el PUE nos ha salido una cifra por encima de 2! ¿no decía el proyecto del CPD que íbamos a tener un PUE de 1,4? Esta frase es muy común. No, el ingeniero que hizo el proyecto no te engañó, calculó que el PUE iba a ser 1,4 en unas condiciones concretas, que normalmente incluyen carga máxima. Es como el consumo de la ficha de los coches: todos sabemos que el consumo que aparece en el folleto no lo conseguimos nunca. No significa que el folleto nos engañe. Simplemente, como hay que normalizar  cómo se mide, se hizo la norma NEDC, que lo que viene a decir en román paladino es en condiciones ideales el consumo de tu coche es x, pero tú ya sabes que las condiciones normales de uso no son las ideales.
  • Tenemos una temperatura de consigna de 24º, el CPD está fresquito y nos ha salido un Thermal Conformance del 70%. Esto es también bastante común. Depende de cómo sea el sistema de refrigeración, obviamente. Pero no es raro que, aunque la temperatura de consigna sea baja, encontrarse que al medir el Thermal Conformance salgan cifras del 70%. En este caso… Houston, tenemos un problema. Hay que analizar por qué y corregir la situación. Además, como hemos dicho antes, tenemos que ver qué hace ese 30% de carga que está fuera de especificaciones. Si es carga crítica, es imperativo hacer algo. Esto forma parte del Performance Indicator y la gestión de riesgos.
  • Resulta que yo creía que estaba sobrado de refrigeración, gasto una barbaridad en máquinas, mantenimiento y electricidad y me sale un Thermal Resilience alarmantemente bajo. Esto también es mucho más común de lo que pensamos. De hecho suele suceder en muchas ocasiones.

Este artículo iba de cómo establecer los objetivos del PI, así que vamos allá:

  1. El primer objetivo y más importante es medir el Performance Indicator. Al hacerlo, aflorarán muchos de los problemas que tenemos en nuestro datacenter y de los que todavía no somos conscientes, y podremos ponerles remedio.
  2. Para el PUEr, un buen compromiso es, precisamente, el mencionado antes. Si la ingeniería que nos ha proyectado el DataCenter ha calculado el PUE, ese debe ser el objetivo de PUE. En el ejemplo que hemos puesto antes, si el objetivo de PUE es 1,4 y el PUE actual es 2, entonces el PUEr es el 70%.
  3. En el Thermal Conformance deberíamos estar por encima del 90%, pero en cualquier caso lo importante es saber qué sistemas son los que tenemos trabajando fuera de especificación y su grado de criticidad. La SAN puede representar un porcentaje minúsculo de la carga del DataCenter, pero si es justo eso lo que tenemos trabajando fuera de rango, igual tenemos que cortarnos las venas pronto (siempre es preferible dejárselas largas)…
  4. El objetivo ideal de Thermal Resilience es, obviamente, del 100%. Pero tenemos que tener claro cuál es el propósito del datacenter, el riesgo asumible, calidad de servicio comprometida, etc. Lo óptimo es que el TC sea igual o superior a la carga crítica.

Esto son líneas muy generales, pero lo que finalmente se establezca dependerá de muchos factores. Acercar el TC y el TR al 100% cuestan mucho dinero, y debemos analizar si merece la pena o no. ¿Hay carga que pueda ser apagada en caso de problemas del sistema de refrigeración? ¿Los sistemas que cuya temperatura está fuera de especificación son críticos? ¿cuál es la calidad de servicio comprometida?

Lo ideal sería que el PI formara parte de un sistema ISO 27001- ISO 20000, en el que controlemos tanto la seguridad como la calidad del servicio. Aunque no lo parezca, el PI es un pilar importantísimo para las dos ISO’s mencionadas: ¿cuáles son los riesgos asociados  a tener un TC y un TR bajos? ¿cómo puede afectar a la calidad del servicio? Así que os recomiendo consultar con expertos estos aspectos para no tener sustos en el futuro: quien haya sufrido un paso por cero sabe de lo que hablo. Así que si tenéis dudas, queréis poner en marcha un Performance Indicator o queréis ayuda para establecer los objetivos, ponedme un correo o llamadme, pero medid, medid, malditos!

 

 

 

Performance Indicator (V): Thermal Resilience

Una vez transcurrido el parón veraniego, volvemos a la carga con la serie de artículos sobre el Performance Indicator. En esta ocasión, hablaremos del tercer indicador: el Thermal Resilience.

Los responsables de sistemas y/o directores de TI saben que, en la mayoría de sus casos, su cuello depende de que los sistemas funcionen: no me cuentes historias, haz que funcione y haz que funcione ya! Por eso muchos tienen una palabra en la cabeza: redundancia. Es evidente que cualquier dispositivo puede fallar, así que hay que tenerlo redundado por si las moscas. Durante la época de las vacas gordas, y más en los ochenta y noventa, en los que la informática era la estrella de la organización, esto no era un problema. Hay directores de sistemas que, como el coche tiene cuatro ruedas, llevan cuatro ruedas de repuesto porque todo debe estar redundado. Ya dedicaremos alguna entrada del blog a redundancia y sus conceptos básicos, pues tiene mucha más enjundia de la que parece y hay bastante gente que no lo tiene claro.

La definición intuitiva del Thermal Resilience es la capacidad para hacer frente a problemas en el sistema de refrigeración, y mucha gente interpreta que esta capacidad es igual a redundancia. Pero (volvemos al concepto de redundancia) el error es pensar que lo único que tenemos que tener en cuenta en nuestra redundancia son los posibles fallos en el sistema de climatización. No, esto no es así. Nuestra resistencia a fallos varía en el tiempo en función de las condiciones de explotación, y esto es lo que mide el Thermal Resilience.

Para simplificar las cosas y entenderlo fácilmente vamos a poner un ejemplo sencillito. Supongamos que tenemos un CPD clásico, con refrigeración por falso suelo, en el que tenemos tres CRAC’s repartidos por la sala. Si cada uno de ellos tiene una capacidad de refrigeración de 50kW, tendremos una capacidad total de 150kW. Si la carga en un momento dado es de 45kW, se tendrá una redundancia N+2: podrán fallar dos CRAC’s y, en teoría, no habrá problemas (en teoría, porque en la práctica depende de cada sala concreta, ver el apartado de Thermal Conformance). Resulta que, en el momento en el que un CRAC había fallado y otro estaba fuera de servicio por revisión, los del departamento financiero (siempre tienen el don de la oportunidad) habían lanzado un proceso de business inteligence con unos cubos OLAP enormes, los sistemas se pusieron a tope y la carga había subido a 75kW. Así que en ese momento puntual tenemos 50kW de capacidad frigorífica para hacer frente a una carga de 75kW, por lo que tendremos problemas sí o sí.

Este ejemplo era muy sencillo. En realidad, el sistema de refrigeración es un mecano complejo y más en la actualidad, en el que es fácil encontrarse simultáneamente CPD’s que disponen de más de un sistema de refrigeración y que cada uno de ellos tenga n componentes. Por ejemplo, por un lado puede haber free cooling directo  y por otro un sistema basado en agua en el que haya enfriadoras de agua en el exterior e intercambiadores de calor en la sala. La capacidad de refrigeración del freecooling directo dependerá de la temperatura exterior, y la del sistema de agua dependerá de si funcionan todas las enfriadoras y todos los intercambiadores.

Por otra parte, lo hemos dicho una y mil veces, la carga es dinámica. Lo es por dos factores, y el primero de ellos es elemental: a lo largo del tiempo instalamos servidores y equipos y los damos de baja. Tenemos nuestro flamante CPD recién construido y estrenamos el sistema de refrigeración, que estará diseñado para tener una determinada redundancia a una determinada carga nominal. Si sólo instalamos un servidor tenemos una redundancia enorme y a medida que vamos instalando servidores la carga aumenta y la capacidad para hacer frente a problemas baja. El segundo factor es menos tenido en cuenta y es que la carga de los sistemas es dinámica, varía (y puede hacerlo mucho) en función de las condiciones de explotación. Los que nos dedicamos a la supercomputación lo sabemos muy bien, el consumo de los servidores prácticamente se triplica cuando ponemos los procesadores a tope. Un clúster HPC de 250 nodos consumirá unos 40kW encendido y con el sistema operativo cargado, pero su consumo se triplicará en cuanto le soltemos un sistema de ecuaciones medianamente puñetero: nuestro consumo habrá subido a 120kW y, si ese clúster está instalado en la hipotética sala que hemos mencionado antes ¡habremos pasado de tener redundancia N+2 en el sistema de refrigeración a no tener redundancia por el simple hecho de lanzar un programa a nuestros servidores!

Esto es, precisamente, lo que mide el Thermal Resilience. En la entrada anterior definimos el Thermal Conformance como el porcentaje de carga al que le está entrando el aire a temperatura correcta. Bueno, pues la definición que hace TGG del Thermal Resilience es el porcentaje de carga al que le entra aire a temperatura admisible en el peor caso de fallo del sistema de refrigeración. Esto requiere definir dos cosas: qué es temperatura admisible y qué es peor caso del sistema de refrigeración:

IT Thermal Resilience = Eq Load (Tinlet < 32º under worst case cooling failure) / Total Eq. Load

Como se ve en la fórmula, el propio TGG propone 32º como temperatura admisible. Pero lo difícil es definir  qué es el peor caso de fallo del sistema de refrigeración. En el ejemplo de antes, en el que había un sistema de refrigeración sencillo con tres CRAC’s, es que fallen dos. De los tres indicadores que forman el PI es el más difícil de calcular, pues hoy en día las configuraciones son complejas, y el concepto peor fallo del sistema de refrigeración puede ser difícil de precisar. Así que, como siempre, si tenéis dudas consultad.

En el próximo artículo hablaremos de la verdadera potencia del PI: cómo los tres indicadores tiran unos de otros, es decir, cómo están relacionados para consigamos en nuestro datacenter el mejor equilibrio entre eficiencia, redundancia y fiabilidad.

 

 

 

 

 

Performance Indicator (IV) – IT Thermal Conformance

Hoy toca hablar del segundo indicador del PI: el Thermal Conformance, es decir, cumplimiento térmico. Pero ¿qué quiere decir cumplimiento térmico?

Los que visitáis con frecuencia CPD’s habéis comprobado que en ellos hace frío. En alguna conferencia hemos contado que una de las razones para que esto sea así es histórica: los viejos mainframes de los setenta y ochenta consumían poco y por tanto el coste de refrigeración era una fracción ínfima respecto al coste de explotación del bicho, así que era necesario crearles una aureola esotérica, y para eso el frío ayuda mucho: el mainframe se encontraba en un altar de condiciones muy especiales, empezando por el frío. Así que, tradicionalmente, en los CPD’s ha hecho excesivo frío. Los sistemas deben estar en el rango de temperatura especificado por el fabricante: no más, pero tampoco es necesario que esté a menos, ya que en este caso ni va a funcionar mejor ni más rápido.

Gracias a que algunos hemos dado mucho la tabarra con este tema, mucha gente se ha dado cuenta de que la temperatura del CPD tiene una influencia decisiva en la Eficiencia Energética. Hace unos años esto importaba un pimiento a la mayoría de la gente: al director de TI lo único que le interesaba es que los sistemas funcionaran, y le daba igual si gastaba mucha electricidad o poca. Normalmente ni se enteraba del coste de la electricidad, pues son otros departamentos los que se ocupan de ellas (¡grave error, querido Watson!).

Sin embargo, ahora esto ya no es así: entre que aprieta la piedra al zapato de la pasta, aprieta la piedra al zapato de la ecología y aprieta la piedra al zapato de la Eficiencia, ya no hay quien de dos pasos sin ver si puede hacer algo para mejorar la Eficiencia y, por tanto, las facturas a pagar por la organización, el medio ambiente, la emisión de CO2, la imagen del departamento… Es más, recuerdo una anécdota personal. En las jornadas del Proyecto de e-Ciencia en Andalucía celebradas en 2007 hablé sobre Eficiencia Energética y TIC… y la audiencia se me dormía. Como me precio de ser un conferenciante capaz de captar la atención de la audiencia, me sorprendió. Así que en la celebración de esas mismas jornadas dos años después hice la misma charla con una pequeña modificación: donde ponía kWh cambié a Kg de CO2. Es decir, averigüé cuánto CO2 había que emitir a la atmósfera para generar un kWh según el mix energético de aquel año. A partir de ahí, hice la misma presentación, pero hablando de toneladas de CO2 emitidas a la atmósfera en vez de kWh que es un concepto aburrido. Como todos llevamos un ecologista dentro, la charla fue un éxito.

No hay que ser un genio para darse cuenta que el coste de refrigeración tiene un impacto enorme en la explotación de un CPD. En el pasado sólo preocupaban las consecuencias de un posible problema en la refrigeración. Pero hoy, además de eso, nos preocupa su coste. En un CPD legacy, puede pegarse un recorte significativo a los gastos de refrigeración a base de buenas prácticas, sin realizar apenas inversiones: distribuir correctamente las cargas, separar zonas frías y calientes y, la más importante de todas, tener una temperatura correcta. Es por eso que muchos responsables de explotación han añadido una palabra a su vocabulario: setpoint. Vamos, algo tan tonto como la temperatura de consigna del sistema de refrigeración, que en el pasado la programó el instalador y nunca se cambió. Ahora hemos aprendido que la podemos cambiar, es más, que la debemos subir y que para eso los fabricantes de los servidores hacen recomendaciones. No sólo los fabricantes, instituciones como ASHRAE hacen recomendaciones sobre cuál debe ser la temperatura de consigna en un CPD.

Pero hay que tener en cuenta un factor muy importante (y aquí vamos al meollo del Thermal Conformance): una cosa es la temperatura de consigna del sistema de refrigeración y otra diferente es la temperatura a la que el aire entra al servidor correspondiente. Es fácil ilustrar este concepto viendo la siguiente foto:

Muchos, en casa o en la oficina, tendréis algo así. Y habréis sufrido las discusiones: el que está sentado en el sofá debajo del split de aire acondicionado se quejará de que tiene exceso de aire frío en el cogote, pero el que está sentado al otro lado de la habitación se quejará de que pasa calor ¿A cuántos os pasa esto mismo en la oficina?. Es decir, yo he programado una temperatura de 24º al aparato, pero esto no quiere decir que consiga que toda la habitación esté uniformemente a 24º.

Bueno, pues en nuestro CPD pasa esto mismo. Pasará en mayor o menor medida en función del tipo de sistema de refrigeración, distribución de las salidas de aire, etc., pero pasará. Así que supongamos que vamos haciendo caso de recomendaciones y ponemos un setpoint de 26º, es decir, lo que queremos es que el aire entre a 26º a nuestros servidores.

Entonces, si lo que queremos es que entre aire a 26º a nuestros servidores ¿lo estamos cumpliendo? O, mejor dicho, ¿en qué medida lo estamos cumpliendo? Esto es, exactamente, el Thermal Conformance: el grado de cumplimiento de la especificación térmica. Vamos a explicarlo fácil: supongamos que tenemos cuatro racks, y que en tres la temperatura del aire de entrada está por debajo del umbral especificado y uno en el que está por encima. Es cierto que en el 75% por ciento de los racks entra el aire a temperatura correcta, pero ¿qué carga representa? Imaginad que en los tres racks en los que la temperatura entra correcta hay pocos servidores y tienen una carga de 1000W cada uno, y en que entra la temperatura incorrecta tenemos un blade con una carga de 7000W. La realidad es que en este hipotético CPD con 10.000W de carga ¡el aire entra a temperatura incorrecta al 70% de la misma! Eso es, exactamente, el Thermal Conformance: el indicador que nos dice a qué porcentaje de carga le está entrando aire a temperatura correcta.

Por cierto, que el ejemplo puesto no es tan descabellado: conozco CPD’s que tenían un montón de servidores legacy, y que en algún momento de la historia han hecho un proyecto de consolidación (¡Bien!) y han sustituido 100 servidores por un flamante blade sobre el que se han virtualizado los servidores. Ese blade, cuando se compró, hubo que instalarlo en el rack que estaba libre, que estaba en un extremo de la sala y al que llega ya poco flujo de aire… Desde el punto de vista funcional, genial. Desde el punto de vista de la eficiencia, también, seguro que han disminuido consumo. Pero han creado un punto caliente que acabará generando problemas de fiabilidad al sistema de refrigeración y al propio blade. Porque, una de las consecuencias del Thermal Conformance, es que hay una correlación entre tasa de averías y temperatura de entrada de aire si esta es excesivamente alta. Por cierto, en este punto una colleja colectiva: cuando se instala un servidor en un rack vacío la tendencia es, por comodidad, instalarlo a la altura de los hombros… pero si el sistema de refrigeración es por impulsión de aire en el falso suelo, poco aire frío llega a la parte superior de los racks.

Como la recomendación de ASHRAE es impulsar entre 18-27º, la estandarización del cálculo del Thermal Conformance que nos hace TGG es:

IT Thermal Conformance = Eq Load (Tinlet < 27º) / Total Eq. Load

Donde Eq Load es la carga en kW de los equipos IT. Es decir, para calcular el Thermal Conformance tenmos que dividir el porcentaje de carga IT a la que le llega la temperatura por debajo de 27º  por el total de carga IT. Como es evidente, necesitamos medir las temperaturas a las que entra el aire en los equipos. La especificación de TGG dice que hay que poner tres sensores por rack: arriba, en medio y abajo.

Intentad hacer un mapa mental de vuestro CPD y pensad ¿cuál sería mi IT Thermal Conformance? Os aseguro que si tenéis un CPD con refrigeración por falso suelo os llevaréis sorpresas desagradables. Imaginad que implantáis un sistema de medida del Thermal Conformance y que el primer número que os sale es malo. Intuitivamente es fácil comprender que si intentáis mejorar el TC a base de fuerza bruta inmediatamente subirá el PUE ¿comprendéis ya por dónde van los tiros del “indicador triple”, es decir, el Performance Indicator? Lo seguiremos viendo en los próximos artículos. Y ya sabéis, si queréis montar un sistema de medida del Thermal Conformance o tenéis alguna duda… consultad conmigo!

 

Performance Indicator (I) – Generalidades

Hoy comenzamos la serie de artículos sobre nuevas métricas de DataCenter, y vamos a comenzar por la propuesta del Green Grid como métrica fundamental: el Performance Indicator (PI). Es un indicador muy potente, y para obtener todos los beneficios que nos puede dar es necesario comprender su filosofía y principios.

El PI se basa en tres indicadores. Pero lo que hay que comprender es que el verdadero indicador es la relación entre los tres que lo componen, y por eso el PI es un indicador gráfico. Es decir, no es que tengamos tres numeritos y a partir de ellos y una fórmula mágica obtengamos el número mágico. No, el verdadero indicador es un gráfico, un dibujo que cambia en función de nuestras condiciones de explotación, y simplemente viendo el dibujo obtendremos mucha información… si sabemos verlo.

En la explotación de un DataCenter influyen muchísimas variables. Si pensamos únicamente en el consumo energético son muchas las variables que incidirán, algunas continuas y otras discretas: tipo de sistema de refrigeración, temperatura de consigna, temperatura exterior, carga de procesadores, densidad eléctrica, etc. Obviamente no todas tienen el mismo grado de influencia, pero son muchas las que están correlacionadas. Hace años, en el contexto del proyecto MONICA, calculamos el modelo matemático de un DataCenter concreto, para lo cual determinamos el polinomio para estimar el consumo en función de unas pocas variables.

Vivimos en la era del Big Data, y uno de sus objetivos es analizar gran cantidad de variables con gran cantidad de datos y poder establecer sus correlaciones. Matemáticamente es sencillo, el gran problema es poder recopilar y organizar los datos para que puedan ser tratados. Bien, en la explotación de un DataCenter influyen muchísimas variables (centenares o miles), y podemos utilizar Big Data para su análisis y mejora. En nuestro grupo llevamos años haciéndolo.

Por eso debemos de entender que haya indicadores que a pesar de que midan cosas radicalmente diferentes están correlacionados, es decir, que si nos varía el indicador A nos variará también el indicador B. Seguramente A no es lo único que influye en B, pero influye. Por ejemplo, supongamos que somos los responsables de explotación de una empresa de transportes, en la que tenemos 20 camiones. Un dato que nos gustará saber es el consumo en litros por cada 100 kilómetros recorridos. Con este dato podemos tener una idea de la eficiencia de nuestra flota y si nos merecería la pena cambiar los camiones por otro modelo.

Pero para saber si estamos optimizando bien nuestras rutas, también deberíamos saber los kg de carga por kilómetro: seguro que ganamos más dinero cuanto más cargados vayan los camiones. Un camión vacío es un drama: traga gasoil, desgasta embragues y neumáticos, requiere horas de conductor y no genera ingresos.

Pero si no queremos tomar decisiones equivocadas, tendremos que tener en cuenta que ambos indicadores están relacionados: si los camiones van más descargados, consumirán menos litros de gasoil a los 100 kms que si van cargados. Es decir, en el primer indicador influirá tanto la eficiencia intrínseca del camión como el uso que hagamos de él.

En este ejemplo hemos relacionado carga y consumo, y es de sentido común pensar que mayor carga implica mayor consumo. Pero en nuestro DataCenter, si queremos tomar las decisiones correctas, tenemos que contemplar simultáneamente todos los aspectos: eficiencia, redundancia, seguridad, etc. De eso va el PI, de conseguir un indicador muy sencillo que, de un vistazo y de forma gráfica, nos permita obtener una visión global sobre el estado de estos aspectos globales y su relación. Como hemos dicho, el PI está compuesto por tres indicadores, y cada uno de ellos es muy potente y aporta mucha información de un aspecto concreto. Pero luego está el indicador global, el que relaciona a los tres.

Por eso vamos a dedicar al PI varios artículos: además de este, tendremos tres analizando cada uno de los tres indicadores que lo componen y finalmente aprenderemos a leer el indicador global. El próximo artículo se lo dedicaremos al primero de los tres indicadores del PI: el PUEr (con r pequeñita).

 

Consolida, que algo queda 3.0

Decíamos la semana pasada que la clave este año es hacer más con menos. Y una buena forma de hacerlo es consolidar. Más de uno dirá “yo ya consolidé hace cinco años cuando acometí el proceso de virtualización. Reduje a la quinta parte el número de servidores físicos. Mi granja de virtualización ha seguido creciendo, y a día de hoy tengo tropecientas máquinas virtuales”.

En los últimos meses he hablado con algunos CTO’s que transmiten mensajes como el anterior, y que piensan (ingenuos ellos) que ya tienen los deberes hechos. Tampoco son  capaces de darse cuenta de que cambiar sus cincuenta servidores distribuidos en siete armarios (“es que el comercial me regaló el rack con aquellos tres servidores) que compramos para el proyecto X”) por un chasis blade que en unas pocas U tiene 16 servidores y un buen montón de núcleos le ha creado un montón de problemas, pues no hay manera de refrigerarlo. Hay algunos casos exagerados de este tipo: son los que yo llamo CPD Faro. CPD’s de doscientos metros cuadrados que antes estaban llenos de racks y se han quedado vacíos, que ahora tienen un único rack en el centro con uno o dos chasis llenos de blades y muchicientas máquinas virtuales. Como es lógico, aunque la refrigeración de la sala está a tope (impulsuión por falso suelo, of course), el rack está al rojo. Quizá no se aprecie a simple vista, pero el rack está al rojo. Y el que no lo quiera creer, que le haga una foto con una cámara termográfica. Por eso estos son los CPD’s Faro.

Pero esta versión de Consolida que algo queda era la 1.0. Ahora estamos en Consolida que algo queda 3.0 (muchos no van a pasar por la 2.0). Consiste en hacer algo parecido pues también se trata de reducir el número de elementos físicos  aumentando la carga de los restantes. Pero en este caso los elementos físicos no son simples servidores: ahora hay que hacerlo con CPD’s completos. Ya hemos mentado la bicha: cerrar CPD’s. Quien tiene diez puede vivir con tres, y quien tiene uno puede vivir sin ninguno.

Hoy he estado en una reunión de proyecto en la que el cliente lo tiene muy claro. Va a reducir costes, pero no calidad de servicio. Quien tenga dudas sobre cómo se hace ésto, que pregunte. Para eso estamos.