Seleccionar página

El «secador de cuerpo entero»

Rack 128 Servidores "45Kw"

Rack 128 Servidores

A raíz del post sobre la alta densidad, muchos me habéis preguntado cómo son los racks con más de 40Kw. Algunos con bastante escepticismo, pero la realidad es que habéis mostrado curiosidad por cómo es el secador de cuerpo entero.

Pues es muy sencillo: en cada rack hay cuatro chasis HP C7000. En cada chasis, hay 32 servidores HP BL2x220C: este servidor tiene precisamente este nombre (2x) porque en cada hoja hay dos servidores. Es decir, en las 16 bahías del chasis entran 16 hojas con 2 servidores cada una: 32 servidores. Cada servidor tiene dos procesadores Intel Xeon E5450 con cuatro cores: ocho cores por servidor, 256 cores por chasis. Y como cada rack tiene 4 chasis, en un único rack hay 128 servidores y 1024 cores. Si seguimos desglosando, cada servidor tiene un ratio de 2GB/core o lo que es lo mismo 16GB/servidor. Por tanto en cada rack hay 2TB RAM.

Repetición: 128 servidores, 1024 cores y 2TB por rack. A día de hoy, con procesadores con más cores, la cosa sería más bestia…

Pero eso no es todo. Ahora hay que ponerlos a trabajar. En las instalaciones de propósito general, además de haber muchos menos servidores que en una dedicada a HPC, las tasas de utilización por servidor son muy bajas. En servidores dedicados a cálculo, los procesadores están al 100% permanentemente… y precisamente, los procesadores (y también las memorias, que es el otro componente que trabaja intensivamente en cálculo) son los componentes que más consumen.

La mayoría de la gente no es consciente de esto. A continuación tenéis una gráfica del consumo de un chasis:

Chasis C7000 encendido y sin carga

Chasis C7000, 32 servidores encendidos y sin carga

Como podéis ver, el consumo del chasis en números redondos es de 4Kw. En esto están incluidos los 32 servidores (encendidos, sistema operativo -RHE Linux- cargado pero sin ejecutar programas de cálculo), seis fuentes de alimentación, seis ventiladores, OA de control del chasis, cuatro switches gigabit y cuatro switches infiniband.

Como son cuatro chasis por rack, 4×4=16Kw. Es decir, si encendemos los 128 servidores de un rack, consumen 16Kw… antes de hacer nada útil. 16Kw en un rack es una cifra absolutamente estratosférica para una instalación convencional. Pero ahora vamos a ver qué pasa cuando los servidores se ponen a trabajar:

Chasis C7000 con los 32 servidores ejecutando un Linpack

Consumo Chasis C7000 con los 32 servidores ejecutando un Linpack

 

Como podéis ver, el consumo sube de 10Kw. En función del programa concreto y su configuración, puede llegar hasta un poco más de 11Kw por chasis. Como el rack tiene cuatro chasis… ahí están los 45Kw por rack.

En este ejemplo concreto, en el que el consumo está ligeramente por encima de los 10Kw en el chasis, está ejecutando un test de Linpack N=275.000, np=256. Es decir, calculando un sistema de ecuaciones lineales de 275.000 ecuaciones con 275.000 incógnitas, utilizando los 256 cores del chasis. En otras ejecuciones que supongan todavía más saturación de memoria y más estrés es cuando se llegan a superar los 45Kw.

Como bien os podéis imaginar, los racks con esta configuración no están «simplemente encendidos», así que la instalación trabaja a unos regímenes muy elevados…

El siguiente paso es refrigerar los servidores. Y no sólo refrigerarlos, sino hacerlo de una forma eficiente. Pero esto os lo contaré en otro momento.

Os dejo una foto de la «salida del secador», que espero que os guste. Y una advertencia: cuando vayáis a comprar un blade, averiguad si el fabricante sabe cuánto consume. Por absurdo que parezca, es bastante posible que las especificaciones estén mal en un 100%.

 

Lo que se nos viene encima…

Esta semana hemos tenido la reunión de arranque de un interesante proyecto de investigación: Amiga4Gas. En la reunión estábamos los equipos de los tres miembros del proyecto: IAA (CSIC), BSC y FCSCL. Es decir, un centro de investigación en astrofísica y dos centros de supercomputación.

Nuestro rol como centro de supercomputación es doble: además de desarrollar los componentes de software necesarios, tenemos que poner nuestro músculo computacional a disposición del proyecto para realizar los cálculos necesarios.

Las imágenes a procesar proceden de radiointerferómetros. Y en estos momentos está en proyecto el que será el mayor radiointerferómetro del mundo: SKA (siglas de Square Kilometer Array). No voy a aburriros ahora con lo que significa SKA desde el punto de vista de la ingeniería, tenéis la información básica en el artículo de la wikipedia. Lo relevante desde el punto de vista TI es el flujo de datos que dará SKA cuanto esté completamente operativo en 2024. Ni más ni menos que 1TB de datos por segundo.

Es decir, este pequeño instrumento nos dará un exabyte de datos por día. Tenemos doce años para diseñar cómo serán los sistemas capaces de procesar, transmitir y almacenar semejantes flujos de información. Si me permitís un chiste malo, esto ya no es un problema de Big Data, sino más bien de Huge Data. Y necesita tecnología que todavía no tenemos.

Mientras tanto, nosotros diseñaremos los sistemas para tratar los cubos actuales de datos (comienzan en 100MB) de forma completamente automática, utilizando para ello una federación de infraestructuras heterogéneas.

 

Bienvenido seas, enerTIC

Foto Fundadores enerTIC

Foto Fundadores enerTIC

A lo largo de los últimos meses se ha constituido la plataforma enerTIC. Es una plataforma constituida por 25 socios fundadores, y a la que se han incorporado ya algunos socios más. El objetivo de la plataforma, tal como se define en su web (www.enertic.es), es «Contribuir al desarrollo del potencial de transformación de las Tecnologías de la Información y Comunicaciones en el ámbito de la eficiencia energética en España con el apoyo de las Empresas Asociadas e instituciones públicas, en favor de una economía más competitiva y sostenible”.

Lo decíamos en la presentación, la eficiencia energética es otra de las modas imperantes en el sector TIC. Y bendita moda. Desgraciadamente, hasta hace muy poco no había conciencia en el sector sobre el gran problema energético. En mi caso, fui consciente del problema en cuanto creé la empresa. a finales de los noventa construimos el primer cluster medianamente grande. Si mal no recuerdo, eran 70 nodos de los de entonces. yo había instalado muchísimos sistemas en el centro de investigación donde trabajaba… pero nunca había visto una factura de electricidad. Y en mi empresa no sólo tenía que ver las facturas, sino que tenía que pagarlas de mi bolsillo.

Los clusteres de cálculo son muy intensivos en consumo de energía. Además, la diferencia de consumo entre un servidor con una tasa de utilización baja a otro con la CPU al 100% es prácticamente el triple (algún día os mostraré datos sobre esto). Un ejemplo: Caléndula, el cluster de la FCSCL, tiene armarios con 128 servidores (es decir, 1024 cores por rack). Estos armarios consumen, cuando están a plena carga, ¡más de 40Kw!

Por ello quienes nos dedicamos a HPC debemos ser pioneros una vez más. Manejamos las instalaciones que más consumen: cientos o miles de servidores trabajando al 100%. Sin embargo, y hasta hace muy poco, muchos utilizaban el consumo al revés: mira lo grande que es mi camión, porque gasta una barbaridad.