Seleccionar página

Nuevas métricas de eficiencia y disponibilidad de CPD’s

Esta semana he dado una charla en una de las Video Sesiones que organiza RedIRIS (Tecniris). Aunque la sesión se difundía a través de la Red, he aprovechado a ir en persona a la oficina de RedIRIS pues siembre es bueno saludar amigos.

Por el número de asistentes, parece que la charla suscitaba mucho interés. El título era “Nuevas métricas de Eficiencia y Disponibilidad en CPD’s”. En la primera parte me centré en hacer un repaso histórico del problema de la Eficiencia Energética en CPD, ya sabéis que llevo 10 años danto la tabarra con ello. En ese repaso, hacía una encuesta en tiempo real sobre cuánta gente medía el PUE en tiempo real. El resultado, no por esperado, es menos desalentador: menos del 50% de los CPD’s miden el PUE.

Pero más significativa fue la pregunta que hice a continuación: “¿Sabes realmente cómo se mide el PUE?”. Se notaba un cierto desconcierto, pero la realidad es que el porcentaje que contestó sí fue inferior al de la pregunta anterior. Es decir, se deduce que hay gente que está midiendo el PUE… pero que realmente no sabe cómo y en qué condiciones hay que medirlo. Precisamente, con esa intención lo hice. En los últimos años he asistido a un montón de eventos, he visitado un montón de CPD’s y he hablado con muchas personas. Con los problemas de CPD’s pasa como con las hemorroides o la eyaculación precoz: muchos tienen problemas pero pocos se atreven a consultar con un especialista. Esto es especialmente cierto en el caso de la Eficiencia Energética y la disponibilidad: mucha gente no sabe qué tiene que medir y cómo, y hay gente que directamente da datos menos fiables que un euro de cartón.

Por eso la sesión era necesaria, y en ella me dediqué a explicar con profusión el Performance Indicator propuesto por TGG. Hice especial hincapié en el PUEr (si, PUEr, con una r pequeña al final), resaltando lo importante que es no tomar el PUE como un valor absoluto y expliqué por qué hay que relativizarlo. Expliqué también detenidamente qué es el Thermal Conformance y el Thermal Resilience.

Finalmente expliqué otras métricas y dejé claro que, si queremos ser Eficientes con mayúsculas, no debemos centrarnos sólo en el balance energético. Tenemos que analizar qué hace nuestro CPD desde el punto de vista IT y relacionarlo con consumo energético. Es decir, que para saber si hacemos bien las cosas, necesitamos métricas que relacionen Desempeño IT con consumo energético.

Más de una hora de sesión que, por el feedback recibido de los asistentes, fue interesante. Si quereís ver la charla, la tenéis disponible en el archivo de RedIRISSi necesitáis más ayuda o queréis las transparencias, ya sabéis, ponedme un correo.

Tutorial Eficiencia Energética en los Grupos de Trabajo de RedIris

Como habéis notado, hace mucho tiempo que no actualizo el blog: el último mes ha sido muy intenso en trabajo, viajes, etc, etc. El agobio ha sido considerable, y ni siquiera he podido anunciaros  los Grupos de Trabajo de RedIris que se han celebrado en Cáceres. Cualquier excusa es buena para visitar Cáceres y su maravilloso casco antiguo, pero sobre todo si una de las sesiones lleva por título “Tutorial de Eficiencia Energética”, y en la que RedIris me ha invitado a dar dos charlas “Impacto económico de la Eficiencia Energética” y “Gestión de un Datacenter Eficiente”.

A simple vista me ha parecido que este año la asistencia a los Grupos de Trabajo ha sido algo más escasa: se nota que la crisis hace estragos y mucha gente ya no tiene ni presupuesto para un modesto viaje a Cáceres. Pero a pesar de ello, la asistencia a la sesión fue más que notable, con la sala llena (a pesar de ser la primera sesión de la tarde). Se notaba a la perfección que es un tema que despierta gran interés e inquietud.

En la primera puse ejemplos básicos -muy básicos- del impacto en términos económicos de la eficiencia energética. Y fue significativa la sorpresa de algunos de los asistentes ante la magnitud del problema y asimilar lo que supone ahorrar un sólo kW de carga IT, bajar el PUE, etc, etc.

En la segunda charla, aparte de algunos consejos básicos sobre gestión de datacenters (hay quien todavía se sorprende cuando le dices que suba el termostato, que no tiene por qué hacer frío en el CPD), mostré los resultados preliminares del proyecto MONICA, que en algunos aspectos son bastante sorprendentes. Pero esto serán objeto de una entrada nueva.

Si queréis ver las transparencias, tenéis las presentaciones en la sección de descargas.

Eficiencia energética y más eficiencia energética

Se acabó ASLAN, se acabó el congreso enerTIC, se acabó la semana santa y se acabó hacer el vago (es un decir). Después de la semana del ASLAN y el congreso enerTIC y del parón de Semana Santa (en algunas comunidades con parón incluso la semana posterior, pues hacen cosas tan pintorescas como hacer las vacaciones de semana santa la semana siguiente), la actividad ha sido bastante frenética.

Entre las muchas cosas de estos días, esta semana ha habido reunión de los grupos de trabajo de enerTIC. Hay varias cosas interesantes que resaltar de la reunión.

La primera es que enerTIC crece. En esta reunión ha habido caras nuevas, pues nuevas entidades se van sumando a la iniciativa. Sin duda significa que cada vez hay una mayor inquietud/concienciación sobre el problema.

Uno de los puntos a tratar fue cómo acercarse a colectivos y sectores claves de la demanda energética. Y una de las conclusiones es que no sabemos dónde estamos. Es decir, tras esta moda sobre eficiencia energética hay todavía mucho por hacer. Muchas entidades no sólo no tienen métricas, sino que no tienen ni la más mínima idea de dónde se encuentran. Así que tenemos que hacer un gran esfuerzo en este sentido.

Desde enerTIC se quiere realizar una jornada sobre I+D+i en Eficiencia Energética, con la idea de potenciar que surjan proyectos en colaboración. Y me surge una pregunta: ¿cuánto estamos invirtiendo en I+D+i sobre Eficiencia Energética?. Si es uno de los grandes temas de moda, es de suponer que estamos invirtiendo mucho dinero en proyectos de investigación y desarrollo para el desarrollo de nuevas tecnologías eficientes en diferentes ámbitos. Pero me temo que tristemente no es así. Averiguar el dato de proyectos con financiación pública es relativamente fácil: basta con ver qué proyectos de las diferentes convocatorias y organismos financiadores (MINECO, MITYC, CDTI, etc.) tienen como objetivo la eficiencia energética. Que yo conozca, existe al menos una línea específica (Avanza TIC Verdes), y me enorgullece decir que Catón, la FCSCL y la UJI estamos trabajando en un proyecto en colaboración interesantísimo para monitorización y control dinámico de la eficiencia energética en datacenters.

Como es habitual, la sesión de los grupos de trabajo terminó con una charla de Nieves Jerez. En esta ocasión fue sobre “Gestión del Conflicto”. Como es habitual en las charlas de Nieves, además de pasarlo bien, aprendimos mucho…

Monitorización y Control Inteligente del PUE

Control del PUELa próxima semana tiene lugar el ASLAN (días 27, 28 y 29) y el congreso de enerTIC (días 28 y 29 de Marzo). Así que es un momento ideal para hablar de PUE, por lo que haré la presentación “Monitorización y Control Inteligente del PUE” en el Foro Tecnológico (será el día 28 de Marzo a las 11:45).

En la presentación os contaré qué es el PUE y el DCIE, cuales son sus componentes y cómo se comportan. Pero más importante aún, os introduciré al concepto EIT (Eficiencia IT) y desmitificaremos algunas cuestiones alrededor del PUE. Para hablar del PUE es necesario conocerlo, monitorizarlo y controlarlo. Para eso os presentaré MONICA.

El proyecto MONICA es un desarrollo liderado por Catón en el que participan la FCSCL (Fundación Centro de Supercomputación de Castilla y León) y el grupo HPCA (High Performance Computing Architectures) de la UJI (Universidad Jaume I).

El proyecto tiene dos objetivos principales:

  • Monitorizar el PUE. Es decir, monitorizar en tiempo real todos los dispositivos necesarios en el CPD para poder tener datos del PUE con precisión.
  • Controlar de forma inteligente y automática el CPD para mejorar la eficiencia. Por ejemplo: encendiendo o apagando servidores, desplazando máquinas virtuales de servidor, cambiando consignas en equipos de climatización, etc.

Es más, este aspecto puede realizarse conforme a unas reglas de negocio predefinidas, y puede usarse para diferentes propósitos. Mejorar la eficiencia energética es uno de ellos, pero puede ser también la minimización del riesgo.

El proyecto nos ha permitido aprender mucho sobre PUE y eficiencia en una gran instalación real. Por ejemplo, el hecho de que el PUE, tal y como está definido por The Green Grid, es una integración de un año. Y la optimización del PUE requiere trabajar con la derivada… Os presentaré algunos resultados y conclusiones sobre PUE y eficiencia que probablemente sorprendan a más de uno.

… Y hasta aquí puedo leer. Os recomiendo (a los que podáis) que vengáis el miércoles a la charla. No obstante, después de la charla colgaré aquí las transparencias, y me tenéis a vuestra disposición para consultas y dudas.

El “secador de cuerpo entero”

Rack 128 Servidores "45Kw"

Rack 128 Servidores

A raíz del post sobre la alta densidad, muchos me habéis preguntado cómo son los racks con más de 40Kw. Algunos con bastante escepticismo, pero la realidad es que habéis mostrado curiosidad por cómo es el secador de cuerpo entero.

Pues es muy sencillo: en cada rack hay cuatro chasis HP C7000. En cada chasis, hay 32 servidores HP BL2x220C: este servidor tiene precisamente este nombre (2x) porque en cada hoja hay dos servidores. Es decir, en las 16 bahías del chasis entran 16 hojas con 2 servidores cada una: 32 servidores. Cada servidor tiene dos procesadores Intel Xeon E5450 con cuatro cores: ocho cores por servidor, 256 cores por chasis. Y como cada rack tiene 4 chasis, en un único rack hay 128 servidores y 1024 cores. Si seguimos desglosando, cada servidor tiene un ratio de 2GB/core o lo que es lo mismo 16GB/servidor. Por tanto en cada rack hay 2TB RAM.

Repetición: 128 servidores, 1024 cores y 2TB por rack. A día de hoy, con procesadores con más cores, la cosa sería más bestia…

Pero eso no es todo. Ahora hay que ponerlos a trabajar. En las instalaciones de propósito general, además de haber muchos menos servidores que en una dedicada a HPC, las tasas de utilización por servidor son muy bajas. En servidores dedicados a cálculo, los procesadores están al 100% permanentemente… y precisamente, los procesadores (y también las memorias, que es el otro componente que trabaja intensivamente en cálculo) son los componentes que más consumen.

La mayoría de la gente no es consciente de esto. A continuación tenéis una gráfica del consumo de un chasis:

Chasis C7000 encendido y sin carga

Chasis C7000, 32 servidores encendidos y sin carga

Como podéis ver, el consumo del chasis en números redondos es de 4Kw. En esto están incluidos los 32 servidores (encendidos, sistema operativo -RHE Linux- cargado pero sin ejecutar programas de cálculo), seis fuentes de alimentación, seis ventiladores, OA de control del chasis, cuatro switches gigabit y cuatro switches infiniband.

Como son cuatro chasis por rack, 4×4=16Kw. Es decir, si encendemos los 128 servidores de un rack, consumen 16Kw… antes de hacer nada útil. 16Kw en un rack es una cifra absolutamente estratosférica para una instalación convencional. Pero ahora vamos a ver qué pasa cuando los servidores se ponen a trabajar:

Chasis C7000 con los 32 servidores ejecutando un Linpack

Consumo Chasis C7000 con los 32 servidores ejecutando un Linpack

 

Como podéis ver, el consumo sube de 10Kw. En función del programa concreto y su configuración, puede llegar hasta un poco más de 11Kw por chasis. Como el rack tiene cuatro chasis… ahí están los 45Kw por rack.

En este ejemplo concreto, en el que el consumo está ligeramente por encima de los 10Kw en el chasis, está ejecutando un test de Linpack N=275.000, np=256. Es decir, calculando un sistema de ecuaciones lineales de 275.000 ecuaciones con 275.000 incógnitas, utilizando los 256 cores del chasis. En otras ejecuciones que supongan todavía más saturación de memoria y más estrés es cuando se llegan a superar los 45Kw.

Como bien os podéis imaginar, los racks con esta configuración no están “simplemente encendidos”, así que la instalación trabaja a unos regímenes muy elevados…

El siguiente paso es refrigerar los servidores. Y no sólo refrigerarlos, sino hacerlo de una forma eficiente. Pero esto os lo contaré en otro momento.

Os dejo una foto de la “salida del secador”, que espero que os guste. Y una advertencia: cuando vayáis a comprar un blade, averiguad si el fabricante sabe cuánto consume. Por absurdo que parezca, es bastante posible que las especificaciones estén mal en un 100%.

 

La Alta Densidad como necesidad para la Eficiencia Energética

Cada vez que cuento que en la instalación de la FCSCL hemos superado densidades de 44Kw por rack, veo dos tipos de reacciones: quienes lo ven en una presentación suelen ser escépticos (total, todos sabemos que en este oficio hay cierta costumbre de inflar números…). Pero también están las visitas a quienes se lo cuento in situ, mientras sufren lo que es estar detrás de racks chufando más de 40Kw por el tubo de escape: lo más parecido a un secador de cuerpo entero que os podáis imaginar.

En el discurso sobre nuestro secador siempre resalto dos cosas. La primera, que tener una instalación de estas características es todo un reto de ingeniería. Y la segunda, y mucho más importante,  es que esta alta densidad es fundamental para alcanzar una alta eficiencia energética. Es de sentido común: tratar un punto caliente es complicado, pero si se consigue es más eficiente que si se tiene calor disperso.

Empezamos con este discurso hace muchos años, y predicando en el desierto. Recuerdo, en unas jornadas de usuarios de supercomputación del año 2006, que hice una presentación sobre el gran problema de la eficiencia energética. La audiencia no me hizo puñetero caso: casi todos tenían unos clústeres de cálculo estupendos, pero a ninguno le tocaba pagar la luz. Además, y como ya he contado en más de una ocasión he conocido directores de sistemas que utilizaban el cuánto gasta mi camión como unidad de medida del gran director de sistemas que soy.

Pero moda o no moda, el mensaje va calando. Sobre todo, si el mensaje viene de fuera: tenemos tanta fe en nosotros mismos que damos más credibilidad a los mensajes del exterior. ¿Cuándo nos daremos cuenta de que esta actitud tiene mucho que ver con la crisis que padecemos?. Así que, para que no me tengáis que hacer caso a mí y podáis hacer caso a mensajes de fuera, os dejo un enlace a un artículo interesantísimo publicado por The Green Grid: Breaking new Ground on Datacenter Efficiency. Es un caso de éxito de como eBay ha conseguido una altísima eficiencia gracias a la alta densidad.