Seleccionar página

Edge Supercomputing

El pasado día dos de octubre tuvo lugar en Madrid el foro From the Edge to AI Computing: Energy Efficiency and Sustainability, organizado por enerTIC. Una vez más tengo que dar las gracias y la enhorabuena a Óscar, María y todo su equipo por una organización perfecta. Tuve el honor de moderar la última sesión: AI Computing y HPC: liderando la sostenibilidad en la nueva era digital.

Las sesiones fueron francamente interesantes, y tuvieron un denominador común: en todas, de una forma u otra, salió el concepto Edge Computing a la palestra. Si, una vez que muchos usuarios se habían convencido de que debían migrar a la nube, ahora el mensaje es Edge Computing. Es un esquema adecuado, porque permite la flexibilidad de un funcionamiento realmente híbrido, en el que en local se pueden ejecutar las cargas críticas y un balanceo dinámico con infraestructuras de nube pública.

Pero las razones para el Edge Computing no son sólo tener un esquema así. Para introducir el tema de la mesa redonda, hice una pequeña presentación sobre las tendencias en HPC que veo para un futuro próximo: en un extremo están las grandes infraestructuras para computación en la exaescala. Uno de los ponentes en la mesa era David Carrera, del BSC, que explicó cómo será Mare Nostrum 5. España es uno de los tres países que lideran la supercomputación europea, y traer una inversión de más de 200M€ siempre es una bendición.

Pero en el otro extremo está lo que denominé Edge Supercomputing: el concepto Edge Computing aplicado a la supercomputación. Hay que tener en cuenta dos cosas: un servidor de hoy en día con 24 o más núcleos en los procesadores principales y 640 tensor cores de una Tesla V100 tiene una capacidad de cálculo que le ubicarían en la lista top500 hace unos pocos años. Y si es una máquina que tiene una capacidad de cálculo que hace unos pocos años se consideraba la punta de lanza de la supercomputación y resuelve problemas mediante las mismas técnicas de programación paralela, es que resuelve problemas de supercomputación. Si nada, tiene cabeza de pato, pico de pato y hace cuá-cuá, es un pato.

La segunda cuestión a tener en cuenta es lo que denominé la AI storm: la tormenta de inteligencia artificial que nos viene encima. Industria 4.0, AI, Data Analytics, Machine Learning, IoT … no solo se van a generar un volumen de datos enorme, sino que también se van a tener que procesar. El denominador común de todo son dos cosas: AI (podemos englobar las diferentes metodologías utilizadas para Machine Learning, Deep Learning y Data Analytics en general dentro de la AI), y la necesidad de procesar esos datos cerca de su origen.

El problema del procesar cerca del origen de datos es muy importante. Son muchos los casos de uso en el que tanto las latencias como la necesidad de garantizar que los datos se procesen a tiempo hacen que sea una necesidad procesar cerca del origen. Esto no es un concepto nuevo: por ejemplo, en los supermercados la base de datos de productos y precios están en el TPV de la caja. Las cajas de los supermercados tienen que funcionar y cobrar a los clientes pase lo que pase: da igual que falle el servidor, las comunicaciones o lo que sea. Al cliente hay que cobrarle rápido para que se pueda marchar con sus productos.

Supongamos ahora otro caso simple: una cámara en los tornos de entrada de un campo de fútbol, que tiene que analizar varias caras por segundo para decidir si entre ellas hay algún terrorista o alguien violento que tenga vedada la entrada al campo. Un proceso de Deep Learning como ese requiere mucha capacidad de proceso, y hay que hacerlo en tiempo real. En el radiotelescopio SKA, otro proyecto en el que he trabajado, se producirán la friolera de 18TB/seg de datos. Un volumen de datos así tiene que procesarse a pie de antena. Al menos realizar un primer proceso para reducir el volumen de información a transmitir.

Podríamos poner muchísimos ejemplos en Industria 4.0, en el que sea necesario resolver problemas mediante AI y técnicas de supercomputación, y que sea imprescindible hacerlo “sin la comodidad de un CPD”. La solución a esto es el Edge Supercomputing, para lo que van a aparecer en el mercado en los próximos años las infraestructuras adecuadas, tanto en continente como en contenido.

En el continente veremos soluciones muy innovadoras en el que en espacios muy reducidos podremos tener altas capacidades de cálculo unidos a alta densidad. Los pequeños contendores de refrigeración por inmersión o servidores con refrigeración por agua en vez de aire están a la vuelta de la esquina.

En cuanto al contenido, pronto veremos también una generación de procesadores especializados en problemas de AI. Si, a las GPU’s les van a salir competidores. La razón de esto es obvia: la supercomputación no era un mercado lo suficientemente grande para diseñar hardware ad hoc: quien lo hiciera tendría que amortizar sus diseños, lo que haría que los precios de venta fueran muy elevados y muy poco competitivos. Por eso en el último cuarto de siglo hemos basado la supercomputación en servidores estándar: son commodities baratas. Sin embargo, el mercado de videojuegos es enorme, y sí es rentable hacer diseños para él. Lo que más demanda ese mercado es capacidad gráfica y por eso las GPU’s han progresado enormemente.

Ahora va a aparecer otro mercado enorme, el de la AI. AI + IoT están creando un enorme ecosistema de dispositivos, datos y procesamiento. Este mercado si tiene un tamaño lo suficientemente grande para realizar diseños específicos para él, y lo iremos viendo en los próximos años.

Nace www.top500.es

Ayer, tuve una participación en el evento Grandes infraestructuras tecnológicas en la nueva era digital: Eficientes energéticamente y sostenibles (una vez más enhorabuena a Óscar Azorín y su equipo por una organización perfecta). En concreto, participé en la primera sesión, que tenía por título Supercomputación: liderando la sostenibilidad en la nueva era digital. Mi participación la titulé Supercomputación, métricas y eficiencia.

En la primera parte de mi intervención, conté la iniciativa www.top500.es. El propósito es crear un portal con la lista de los 500 sistemas de cálculo más potentes de los países de habla hispana. Algunos os preguntaréis el por qué de esta iniciativa, que a surgido a raíz de un trabajo que he tenido que realizar en los últimos meses: ayudar a un Centro de Supercomputación a diseñar su estrategia, la arquitectura del nuevo sistema que van a adquirir y cuál es la mejor forma de reformar el datacenter para alojarlo.

Como es lógico, en un trabajo de consultoría de este tipo una parte importante para diseñar la estrategia es plasmar «la foto» del ecosistema español de supercomputación, y eso requiere saber qué es lo que hay. Evidentemente, conozco todos los sistemas que forman parte de la Red Española de Supercomputación, de cuyo Consejo formé parte hasta mediados de junio del año pasado. También conozco algunos otros sistemas. Pero la realidad es que, en España, hay una potencia de cálculo relevante  en sistemas departamentales y empresas privadas que no son conocidos. Es decir, que no sabemos el inventario que tenemos como país de una infraestructura cara y necesaria. Los superordenadores son obviamente caros, pero también son necesarios. En casi todos los campos es necesario «computar para competir».

Esta carencia de información sobre cuántos sistemas de cálculo hay en España y cómo son la he comentado en ocasiones con otros directores de centros de supercomputación, así como la necesidad de conocerlos para optimizar mejor un recurso caro y escaso. Por eso, a raíz del trabajo de consultoría y del trabajo de investigación que tuve que hacer para realizarlo, se me ocurrió la idea de crear el equivalente a top500. La iniciativa fue muy bien acogida, y nos pusimos en marcha para crear www.top500.es.

La vocación de www.top500.es es ser el portal de referencia en supercomputación para los países de habla hispana. Los motivos que nos mueven son:

  1. Saber qué sistemas hay para que se puedan optimizar los recursos.
  2. Concienciar a los gobiernos de España y resto de países de hispanoamérica de la necesidad de invertir en supercomputación. La lista top500 de noviembre de 2018 debería sonrojarnos. En la lista aparecen 227 ordenadores de China, 109 de EEUU, 94 de Europa y 31 de Japón. A los 94 de Europa, España sólo aporta uno: el Mare Nostrum. La comparación con Francia (18 ordenadores en la lista) e Italia (6 ordenadores en la lista) debería sonrojarnos. Pero si miramos que en la misma lista Arabia Saudí (donde el Free Cooling no está muy fácil) tiene 3, se nos debería caer la cara de vergüenza como país. Por tamaño, España debería tener tres o cuatro ordenadores en la lista. ¿Por qué el CESGA, Scayle o Computaex no disponen del dinero necesario para entrar en la lista?.
  3. Generar conocimiento. La lista top 500 da muy poca información, Rpeak, Rmax, número de cores y, desde hace unos pocos años, energía. En top500.es pretendemos recabar mucha información de cada sistema para poder analizarla utilizando técnicas de machine learning y generar conocimiento con ella.

Os pido que apoyéis a www.top500.es, una iniciativa completamente sin ánimo de lucro, para apoyar y ayudar a la supercomputación en España y países de habla hispana. La supercomputación es una herramienta importantísima para el progreso de la ciencia y la tecnología.

 

Distribución de la Carga

[bws_linkedin display=»share»]

Hoy toca hablar de carga en el DataCenter, y para hablar de carga qué mejor que hablar de aviones, barcos y camiones, que ya sabéis que aparecen con una cierta regularidad en el blog.

El parámetro fundamental de los vehículos de transporte, sean terrestres, marítimos o aéreos es la carga máxima. Como es evidente, el transportista querrá que sus vehículos vayan cargados al máximo, pues esta es la forma de optimizarlos. Cuando un avión, barco o camión está parado está metiendo billetes en la destructora de papel: parados no generan ingresos pero generan muchos gastos. Sin embargo, hay una situación peor que tenerlos quietos, que es tenerlos en movimiento con poca carga. Los costes son mucho mayores que estando parados y los ingresos serán bajos.

De todas formas, hay que entender un concepto importante. Cuando un sistema está diseñado para soportar una carga X, es evidente que su rendimiento máximo medido en términos de gasto por unidad de carga se alcanzará a carga máxima. Un DataCenter, es bajo este punto de vista, igual a aviones y barcos: su rendimiento óptimo lo alcanzará a carga máxima. Sin embargo, la gran diferencia entre un DataCenter y los vehículos de transporte es que, mientras que lo normal es que los vehículos de transporte de mercancías trabajen siempre a plena carga, en los datacenters no: casi siempre hay capacidad excedente. Se construye el datacenter pensando en la carga de hoy en día y en la que vendrá en los próximos X años. Es decir, un datacenter normal no sólo tiene capacidad para albergar más servidores, sino que los servidores que tiene en producción también tienen muchos ciclos de CPU excedentes. Salvo en sistemas HPC, donde en teoría deben encontrarse todas las CPU’s al 100%, en datacenters de propósito general es muy normal encontrarse tasas de utilización de CPU < 10% en sistemas poco virtualizados y < 50% en sistemas virtualizados.

Todo esto, obviamente, penaliza el rendimiento del DataCenter. Es la razón, como vimos en el artículo anterior, de que aunque la ingeniería que proyectó el DataCenter hizo unas predicciones de PUE, una vez en marcha las mediciones reales sean peores. Pero en esto no podemos hacer nada: la carga es la que es actualmente y la única opción es gestionarla de la mejor forma posible. Así que veamos cómo lo hacen en aviones, barcos y camiones.

En el mundo del transporte hay muchos roles. Uno es el del financiero que quiere hacer las cosas al menor coste posible. Otro es el del piloto, camionero o capitán del barco que, además de su sueldo, se juega su cuello. Lo sé por experiencia propia: si te pones a los mandos de un avión quieres aterrizar entero, porque si el avión aterriza «en piezas», su contenido también,  y en este sentido el piloto también es «contenido». Si un vehículo de transporte está a media carga, al financiero le preocupará el coste, pero al piloto (o al camionero o al capitán del barco) le preocupará (y mucho) la distribución de la carga.

No hace falta ser un genio de la física para darse cuenta de que si un barco cargado al 50% se le pone toda la carga en un lado, escorará. En los aviones, es crítico distribuir los pesos: volar en un avión desequilibrado es peligrosísimo (o directamente imposible). Y, además del peligro, la distribución de la carga nos afectará al consumo. Así que, cuando no estamos al 100%, tenemos un problema de gestión y distribución de la carga.

Un DataCenter es como un barco o un avión: estos últimos transportan cargas, y los datacenters soportan cargas computacionales, con la peculiaridad mencionada de que en raras ocasiones tenemos el datacenter al 100%. Así que en el datacenter tenemos siempre el problema de distribución de la carga. Si, es cierto: debemos gestionar cómo distribuimos la carga en el datacenter. He conocido muchos datacenters en el que los sistemas se instalan de cualquier manera, es decir, en el primer sitio que haya disponible y preferentemente a la altura de los ojos. Distribuir la carga del datacenter afecta a dos cuestiones importantísimas: la primera, la eficiencia. La segunda, más importante todavía: fiabilidad y seguridad. Si, no gestionar la carga, además de hacernos menos eficientes, puede provocar problemas de fiabilidad y seguridad.

¿Cómo controlar esto? En primer lugar, el Performance Indicator (y en especial mantener un ojo en el Thermal Conformance y otro en el Thermal Resilience) es una muy buena herramienta. Como continuación, deberíamos disponer de una herramienta que nos permita relacionar el Performance Indicator y sus tres indicadores con riesgos tal como los define la ISO 27001.

Si queréis ayuda sobre cómo distribuir la carga en el datacenter, o cómo realizar un análisis de la carga existente y sus implicaciones sobre los riesgos, consultad conmigo.

La hora del Cambio

Ha llegado el momento de cambiar: vine a León para seis meses y llevo ya nueve años, primero como director técnico y en los últimos dos años y medio como director general. Lejos en el tiempo quedan aquellos días de la primavera de 2008 en la que recibí una llamada (gracias, Luis!) pidiendo ayuda para un proyecto apasionante: crear un centro de supercomputación desde cero.

Y eso hicimos. Comenzamos por apostar por una idea: construir un centro de supercomputación cuyo eje fuera la Eficiencia Energética. En aquella época pocos hablábamos de la importancia de la EE, pero está claro que el tiempo ha acabado dándonos la razón. Diseñamos y construimos un DataCenter que, a día de hoy, sigue siendo una referencia en EE. Es más, sigue siendo el DataCenter más denso de España, porque no conozco ningún otro que alcance los 50kW/rack.

Son muchos y muy importantes los logros conseguidos en la FCSCL, y eso a pesar de una situación económica muy adversa. Es más, el gran logro de los últimos dos años ha sido precisamente ese: darle la vuelta a la situación económica, y pasar de un déficit endémico a un superávit muy significativo que permite encarar el futuro con optimismo.

Otro de los grandes hitos ha sido la integración de la FCSCL en la Red Española de Supercomputación (RES), así como conseguir su inclusión en el Mapa de Grandes Infraestructuras Científico Técnicas (ICTS) del Estado. Este es un club realmente exclusivo: en Castilla y León hay dos ICTS, pero ninguna de ellas es de titularidad exclusiva de la Junta, así que la FCSCL será la primera.

Un logro importantísimo del que me siento especialmente orgulloso es de la Red Regional de Ciencia y Tecnología de Castilla y León, un proyecto de una enorme complejidad y que ha supuesto años de trabajo, desde la búsqueda de la financiación al diseño técnico y ejecución. Castilla y León era la única comunidad autónoma pluriprovincial que no tenía red propia de ciencia y tecnología. Gracias a nuestro proyecto ahora la tiene, y no me duelen prendas en decir que tiene la Red autonómica más avanzada de España.

En resumen, han sido nueve apasionantes pero agotadores años, así que es el momento de cambiar. Creo que dejo a mi sucesor, a quien deseo suerte y éxito en el reto que asume, una muy buena herencia. Por mi parte, un montón de proyectos en cartera. Y como ahora podré disponer de algo más de tiempo, el blog cobrará nueva vida.

Entrevista en TicParaTodos.es

Héctor Hernández me ha hecho una entrevista para su blog www.ticparatodos.es. Bueno, en realidad hacía tiempo que me lo había propuesto, pero con la agenda de los últimos tiempos se ha demorado el poder hacerla. Gracias, Héctor, por tu interés y tu paciencia!

Lo que me planteó fue todo un reto: contar qué es la supercomputación y para qué se utiliza, pero de una forma que pudiera entenderlo todo el mundo. Así que más que hablar de ordenadores… hablé de hoyos, picos… Finalmente pudimos hacer la entrevista y está colgada en el blog de Héctor. La entrevista la podéis ver aquí, espero que os guste. Enhorabuena por tu blog, Héctor!

Tutorial Eficiencia Energética en los Grupos de Trabajo de RedIris

Como habéis notado, hace mucho tiempo que no actualizo el blog: el último mes ha sido muy intenso en trabajo, viajes, etc, etc. El agobio ha sido considerable, y ni siquiera he podido anunciaros  los Grupos de Trabajo de RedIris que se han celebrado en Cáceres. Cualquier excusa es buena para visitar Cáceres y su maravilloso casco antiguo, pero sobre todo si una de las sesiones lleva por título «Tutorial de Eficiencia Energética», y en la que RedIris me ha invitado a dar dos charlas «Impacto económico de la Eficiencia Energética» y «Gestión de un Datacenter Eficiente».

A simple vista me ha parecido que este año la asistencia a los Grupos de Trabajo ha sido algo más escasa: se nota que la crisis hace estragos y mucha gente ya no tiene ni presupuesto para un modesto viaje a Cáceres. Pero a pesar de ello, la asistencia a la sesión fue más que notable, con la sala llena (a pesar de ser la primera sesión de la tarde). Se notaba a la perfección que es un tema que despierta gran interés e inquietud.

En la primera puse ejemplos básicos -muy básicos- del impacto en términos económicos de la eficiencia energética. Y fue significativa la sorpresa de algunos de los asistentes ante la magnitud del problema y asimilar lo que supone ahorrar un sólo kW de carga IT, bajar el PUE, etc, etc.

En la segunda charla, aparte de algunos consejos básicos sobre gestión de datacenters (hay quien todavía se sorprende cuando le dices que suba el termostato, que no tiene por qué hacer frío en el CPD), mostré los resultados preliminares del proyecto MONICA, que en algunos aspectos son bastante sorprendentes. Pero esto serán objeto de una entrada nueva.

Si queréis ver las transparencias, tenéis las presentaciones en la sección de descargas.