Seleccionar página

Edge Supercomputing

El pasado día dos de octubre tuvo lugar en Madrid el foro From the Edge to AI Computing: Energy Efficiency and Sustainability, organizado por enerTIC. Una vez más tengo que dar las gracias y la enhorabuena a Óscar, María y todo su equipo por una organización perfecta. Tuve el honor de moderar la última sesión: AI Computing y HPC: liderando la sostenibilidad en la nueva era digital.

Las sesiones fueron francamente interesantes, y tuvieron un denominador común: en todas, de una forma u otra, salió el concepto Edge Computing a la palestra. Si, una vez que muchos usuarios se habían convencido de que debían migrar a la nube, ahora el mensaje es Edge Computing. Es un esquema adecuado, porque permite la flexibilidad de un funcionamiento realmente híbrido, en el que en local se pueden ejecutar las cargas críticas y un balanceo dinámico con infraestructuras de nube pública.

Pero las razones para el Edge Computing no son sólo tener un esquema así. Para introducir el tema de la mesa redonda, hice una pequeña presentación sobre las tendencias en HPC que veo para un futuro próximo: en un extremo están las grandes infraestructuras para computación en la exaescala. Uno de los ponentes en la mesa era David Carrera, del BSC, que explicó cómo será Mare Nostrum 5. España es uno de los tres países que lideran la supercomputación europea, y traer una inversión de más de 200M€ siempre es una bendición.

Pero en el otro extremo está lo que denominé Edge Supercomputing: el concepto Edge Computing aplicado a la supercomputación. Hay que tener en cuenta dos cosas: un servidor de hoy en día con 24 o más núcleos en los procesadores principales y 640 tensor cores de una Tesla V100 tiene una capacidad de cálculo que le ubicarían en la lista top500 hace unos pocos años. Y si es una máquina que tiene una capacidad de cálculo que hace unos pocos años se consideraba la punta de lanza de la supercomputación y resuelve problemas mediante las mismas técnicas de programación paralela, es que resuelve problemas de supercomputación. Si nada, tiene cabeza de pato, pico de pato y hace cuá-cuá, es un pato.

La segunda cuestión a tener en cuenta es lo que denominé la AI storm: la tormenta de inteligencia artificial que nos viene encima. Industria 4.0, AI, Data Analytics, Machine Learning, IoT … no solo se van a generar un volumen de datos enorme, sino que también se van a tener que procesar. El denominador común de todo son dos cosas: AI (podemos englobar las diferentes metodologías utilizadas para Machine Learning, Deep Learning y Data Analytics en general dentro de la AI), y la necesidad de procesar esos datos cerca de su origen.

El problema del procesar cerca del origen de datos es muy importante. Son muchos los casos de uso en el que tanto las latencias como la necesidad de garantizar que los datos se procesen a tiempo hacen que sea una necesidad procesar cerca del origen. Esto no es un concepto nuevo: por ejemplo, en los supermercados la base de datos de productos y precios están en el TPV de la caja. Las cajas de los supermercados tienen que funcionar y cobrar a los clientes pase lo que pase: da igual que falle el servidor, las comunicaciones o lo que sea. Al cliente hay que cobrarle rápido para que se pueda marchar con sus productos.

Supongamos ahora otro caso simple: una cámara en los tornos de entrada de un campo de fútbol, que tiene que analizar varias caras por segundo para decidir si entre ellas hay algún terrorista o alguien violento que tenga vedada la entrada al campo. Un proceso de Deep Learning como ese requiere mucha capacidad de proceso, y hay que hacerlo en tiempo real. En el radiotelescopio SKA, otro proyecto en el que he trabajado, se producirán la friolera de 18TB/seg de datos. Un volumen de datos así tiene que procesarse a pie de antena. Al menos realizar un primer proceso para reducir el volumen de información a transmitir.

Podríamos poner muchísimos ejemplos en Industria 4.0, en el que sea necesario resolver problemas mediante AI y técnicas de supercomputación, y que sea imprescindible hacerlo “sin la comodidad de un CPD”. La solución a esto es el Edge Supercomputing, para lo que van a aparecer en el mercado en los próximos años las infraestructuras adecuadas, tanto en continente como en contenido.

En el continente veremos soluciones muy innovadoras en el que en espacios muy reducidos podremos tener altas capacidades de cálculo unidos a alta densidad. Los pequeños contendores de refrigeración por inmersión o servidores con refrigeración por agua en vez de aire están a la vuelta de la esquina.

En cuanto al contenido, pronto veremos también una generación de procesadores especializados en problemas de AI. Si, a las GPU’s les van a salir competidores. La razón de esto es obvia: la supercomputación no era un mercado lo suficientemente grande para diseñar hardware ad hoc: quien lo hiciera tendría que amortizar sus diseños, lo que haría que los precios de venta fueran muy elevados y muy poco competitivos. Por eso en el último cuarto de siglo hemos basado la supercomputación en servidores estándar: son commodities baratas. Sin embargo, el mercado de videojuegos es enorme, y sí es rentable hacer diseños para él. Lo que más demanda ese mercado es capacidad gráfica y por eso las GPU’s han progresado enormemente.

Ahora va a aparecer otro mercado enorme, el de la AI. AI + IoT están creando un enorme ecosistema de dispositivos, datos y procesamiento. Este mercado si tiene un tamaño lo suficientemente grande para realizar diseños específicos para él, y lo iremos viendo en los próximos años.

La Transformación Digital del Datacenter

Dice el refrán que en casa de herrero, cuchillo de palo. Suena a tópico, pero en muchos casos es cierto: quien se dedica a prestar un determinado servicio a sus usuarios o clientes está tan volcado en ello que no se preocupa de ese mismo aspecto en su propia organización. Es como el peluquero que lleva el pelo desaliñado porque su dedicación a las cabezas ajenas le impide ocuparse de la propia.

Mucha gente pensará que si hay algo digital por naturaleza es el DataCenter, pero esto es un error grave. Un DataCenter es un edificio, o una parte de un edificio, que alberga equipos TIC. En este sentido, es similar a un edificio que albergue una fábrica o una oficina. Puede ser completamente digital o completamente analógico.

Si, un DataCenter puede ser completamente analógico. Obviamente alberga equipos TIC, pero si no tiene unos procesos adecuados, si no dispone de sensores para comprobar aspectos clave, si la información procedente de estos sensores no es procesada automáticamente (no vale limitarse a representarla en una gráfica por si alguien decide verla, interpretarla y hacer algo), si no dispone de la red de sensores IoT que proporcionen información precisa sobre continente y contenido que sea analizada mediante técnicas de machine learning  e IA para generar nuevo conocimiento y mejorar las condiciones de explotación, será un DataCenter completamente analógico.

Algunos diréis tengo procedimientos bien definidos, sigo buenas prácticas ITIL, Cobit, ISO 20000… Sí, existen procedimientos y buenas prácticas y quien sea disciplinado los seguirá a rajatabla. Pero una fábrica de cualquier cosa puede tener unos procedimientos bien definidos, tener su certificado ISO 9001 para fabricar lo que sea y no haber hecho ningún proceso de Transformación Digital.

Un DataCenter es como un secadero de jamones o una quesería: una instalación para producir un producto o servicio de calidad con el objetivo de conseguir la plena satisfacción al cliente. Sé que muchos CTO’s responsables de datacenters se sentirán ofendidos por la comparación, pues la considerarán poco glamurosa. Sin embargo, para mi es mucho más glamuroso un buen queso curado o un jamón pata negra que un servidor, que no deja de ser un hierro feo.

Si, por mucha corbata que lleven el CIO y el CTO, el DataCenter no es mas que una instalación industrial para producir un servicio y como cualquier otra instalación industrial de producción de productos y servicios, es susceptible de realizar un proceso de Transformación Digital en él. Y, como en cualquier otra instalación industrial, si el DataCenter no hace el imprescindible proceso de transformación digital, desparecerá porque no será competitivo. Esto sucederá, independientemente de que se trate de una instalación On Premise o de prestación de servicios a terceros.

 

Nace www.top500.es

Ayer, tuve una participación en el evento Grandes infraestructuras tecnológicas en la nueva era digital: Eficientes energéticamente y sostenibles (una vez más enhorabuena a Óscar Azorín y su equipo por una organización perfecta). En concreto, participé en la primera sesión, que tenía por título Supercomputación: liderando la sostenibilidad en la nueva era digital. Mi participación la titulé Supercomputación, métricas y eficiencia.

En la primera parte de mi intervención, conté la iniciativa www.top500.es. El propósito es crear un portal con la lista de los 500 sistemas de cálculo más potentes de los países de habla hispana. Algunos os preguntaréis el por qué de esta iniciativa, que a surgido a raíz de un trabajo que he tenido que realizar en los últimos meses: ayudar a un Centro de Supercomputación a diseñar su estrategia, la arquitectura del nuevo sistema que van a adquirir y cuál es la mejor forma de reformar el datacenter para alojarlo.

Como es lógico, en un trabajo de consultoría de este tipo una parte importante para diseñar la estrategia es plasmar «la foto» del ecosistema español de supercomputación, y eso requiere saber qué es lo que hay. Evidentemente, conozco todos los sistemas que forman parte de la Red Española de Supercomputación, de cuyo Consejo formé parte hasta mediados de junio del año pasado. También conozco algunos otros sistemas. Pero la realidad es que, en España, hay una potencia de cálculo relevante  en sistemas departamentales y empresas privadas que no son conocidos. Es decir, que no sabemos el inventario que tenemos como país de una infraestructura cara y necesaria. Los superordenadores son obviamente caros, pero también son necesarios. En casi todos los campos es necesario «computar para competir».

Esta carencia de información sobre cuántos sistemas de cálculo hay en España y cómo son la he comentado en ocasiones con otros directores de centros de supercomputación, así como la necesidad de conocerlos para optimizar mejor un recurso caro y escaso. Por eso, a raíz del trabajo de consultoría y del trabajo de investigación que tuve que hacer para realizarlo, se me ocurrió la idea de crear el equivalente a top500. La iniciativa fue muy bien acogida, y nos pusimos en marcha para crear www.top500.es.

La vocación de www.top500.es es ser el portal de referencia en supercomputación para los países de habla hispana. Los motivos que nos mueven son:

  1. Saber qué sistemas hay para que se puedan optimizar los recursos.
  2. Concienciar a los gobiernos de España y resto de países de hispanoamérica de la necesidad de invertir en supercomputación. La lista top500 de noviembre de 2018 debería sonrojarnos. En la lista aparecen 227 ordenadores de China, 109 de EEUU, 94 de Europa y 31 de Japón. A los 94 de Europa, España sólo aporta uno: el Mare Nostrum. La comparación con Francia (18 ordenadores en la lista) e Italia (6 ordenadores en la lista) debería sonrojarnos. Pero si miramos que en la misma lista Arabia Saudí (donde el Free Cooling no está muy fácil) tiene 3, se nos debería caer la cara de vergüenza como país. Por tamaño, España debería tener tres o cuatro ordenadores en la lista. ¿Por qué el CESGA, Scayle o Computaex no disponen del dinero necesario para entrar en la lista?.
  3. Generar conocimiento. La lista top 500 da muy poca información, Rpeak, Rmax, número de cores y, desde hace unos pocos años, energía. En top500.es pretendemos recabar mucha información de cada sistema para poder analizarla utilizando técnicas de machine learning y generar conocimiento con ella.

Os pido que apoyéis a www.top500.es, una iniciativa completamente sin ánimo de lucro, para apoyar y ayudar a la supercomputación en España y países de habla hispana. La supercomputación es una herramienta importantísima para el progreso de la ciencia y la tecnología.

 

OSDA – Open Standard for DataCenter Availability (II)

En el artículo anterior dijimos que los estándares de diseño que han imperado durante muchos años ya no dan respuesta a las necesidades de hoy en día, y en este artículo vamos a ver por qué. Así que tras un pequeño parón para cambio de servidor,  volvemos a la carga con el OSDA.

Pero ¿por qué tenemos que redefinir estas cosas? ¿No es reinventar la rueda? Pues no, y no lo es fundamentalmente por dos razones:

  • La primera es que las normas están diseñadas para un modelo IT clásico, es decir On Premise, en el que cada organización es dueña de sus infraestructuras y las explota. Es evidente que en este modelo de funcionamiento el DataCenter es una infraestructura crítica para la organización, sobre todo si hiciéramos una encuesta y nos diéramos cuenta que lo de tener un CDP de respaldo es menos frecuente de lo que pensamos y, en todo caso, más reciente de lo que pensamos. Es decir, hasta ahora ha imperado el paradigma Juan Palomo: la organización es propietaria de sus infraestructuras iT y se encarga de explotarlas, así que esas infraestructuras, al ser críticas, deben ser lo más fiables posible. Si puedo Tier 3, pues Tier 3. Y si el bolsillo me da para TIer 4, pues Tier 4. Y, el que podía, un CPD alternativo, pero esto último en empresas pequeñas y medianas se ha limitado en la mayoría de los casos a hacer copias de seguridad y llevarlas a casa. Puede parecer absurdo, pero puedo hacer una lista con más de 100 organizaciones que están todavía así. Organizaciones públicas y privadas, grandes y medianas empresas, comunidades autónomas, ayuntamientos de más de 100.000 habitantes (una de las peripecias de mi vida fue diseñar el rescate informático de un ayuntamiento al que se le quemó su único CPD), universidades, etc, etc. Las implicaciones son evidentes: como sólo tengo un coche, necesito que sea duro y fiable, así que no me importa que sea costoso y feo. Es el modelo Volvo aplicado a IT: si puedo, me compro un segundo coche por si las moscas. Si me puedo permitir dos Volvos, me compro dos Volvos. Y si el segundo es un Pandita, ni cabrá toda la familia, ni iremos igual de seguros ni llegaremos tan lejos, pero siempre será mejor que nada.
  • La segunda son los Dogmas de Fe que existen en el mundo IT, y el datacenter no sólo no es ajeno a tener dogmas sino que a durante años se ha quemado en la hoguera a los herejes que pensábamos que quizá mereciera la pena echarle una pensada a algunos conceptos, por si hubiera alguna forma diferente para hacer las cosas de una forma más eficiente. Podríamos citar muchos de estos dogmas de fe. Pero, por ejemplo: la electricidad es un servicio que se contrata a una compañía eléctrica, y si quieres que te diseñe un sistema fiable de suministro eléctrico para tu datacenter tendrás dos contratos de suministro con dos compañías diferentes y te tendrán que llegar dos líneas diferentes de dos subestaciones diferentes. Está claro que el que piensa así tiene acciones de las compañías eléctricas. Podríamos seguir con más dogmas sobre electricidad, refrigeración, etc. Por cierto, recuerdo que cuando hace diez años hicimos el CPD de Caléndula y contaba que utilizábamos intercambiadores de calor aire/agua en el CPD mucha gente me miraba con más repelús que a los extraterrestres de Men in Black. Ahora, las soluciones InRow aire/agua están a la orden del día. Muchas de las soluciones que aplicamos entonces y que fueron muy innovadoras ahora están a la orden del día. Eso si, diseñamos armarios capaces de albergar 40kW, y a día de hoy no he visto ningún otro CPD capaz de eso.

Si nos fijamos, ambos puntos encierran una gran contradicción: las Tecnologías de la Información y las Comunicaciones son muy innovadoras, y han sido la tecnología disruptiva que han provocado grandes cambios sociales y económicos en los últimos 50 años. Sin embargo, las TIC son reacias a la innovación. Es más, en el mundo del DataCenter no sólo no se ha fomentado la innovación sino que, en buena medida, se ha penalizado. Si nos fijamos, en las normas existentes no caben energías renovables, autoconsumo, otros modelos de refrigeración, etc. Es evidente que una norma no puede prever qué tecnologías van a aparecer en los próximos años, pero sí puede prever cómo incorporarlas.

Así que este es uno de los objetivos del OSDA: no sólo hay que utilizar la tecnología que hay disponible hoy en día, también es necesario fomentar la innovación e incorporarla al proceso. Y esto empieza por las definiciones de base. La primera es que si yo soy el CTO de mi organización debo diseñar infraestructuras para dar respuesta a las necesidades de disponibilidad de mi organización, y ese diseño debe ser global. Es decir, romper ese paradigma en el que un CPD es una mónada aislada del Universo. Por ejemplo, qué es mejor: ¿un único CPD a prueba de bombas o tener la carga en dos o tres CPD’s low cost en un modelo activo/activo? Como hemos dicho en artículos anteriores, tenemos que tener en cuenta que los Centros de Proceso de Datos existen para ejecutar aplicaciones, así que lo verdaderamente importante es que funcionen estas últimas.

Lo importante es diseñar infraestructuras que den respuesta adecuada a las necesidades. Y dar respuesta adecuada significa, como decíamos al principio, pensar sobre el problema que tenemos que resolver y cuál es la mejor forma de resolverlo, abstrayéndonos de dogmas. Incluso los que hoy en día defienden modelos On Premise -sigue habiendo mucha gente que se aferra a ellos- que sin darse cuenta han ido externalizando el correo amén de otras muchas cosas, así que tienen que asumir que los modelos de Cloud Híbrida están a la orden del día.

En el próximo artículo entraremos en materia del OSDA. Mientras tanto, ya sabéis: si queréis implantar metodologías y métricas en vuestro CPD, contactad conmigo.

 

OSDA – Open Standard for DataCenter Availability (I)

[bws_linkedin display=»share»]

Durante muchos años, los estándares de instituciones como el Uptime Institute, TIA y BICSI han sido ampliamente utilizados en diseño, construcción y operación de DataCenters. Son sencillos y relativamente fáciles de utilizar, y su primer objetivo es facilitarnos una clasificación básica sobre datacenters. Cada uno de ellos tiene sus peculiaridades, pero básicamente marcan los requisitos para tener cuatro categorías de centros de proceso de datos. Estas cuatro categorías tienen pequeñas diferencias entre unos estándares u otros, pero podríamos hacer una descripción somera de ellas así:

  1. Básico y no redundante: el nivel más básico no tiene elementos redundados, por lo que en caso de fallo de un componente crítico se producirá una parada. (el responsable de explotación no pega ojo)
  2. Básico redundante: los componentes críticos están redundados. (el responsable de explotación necesita una dosis fuerte de pastillas para dormir).
  3. Mantenimiento concurrente: se puede hacer mantenimiento de cualquier componente sin necesidad de parar o degradar servicios. (el responsable de explotación baja la dosis de pastillas en invierno)
  4. Tolerante a fallos: el CPD es completamente tolerante a fallos. (el responsable de explotación duerme a pierna suelta)

Los estándares marcan unos requisitos de diseño y constructivos para encuadrarse en cada una de las categorías y, si se cumplen, como consecuencia se tendrá una tasa de disponibilidad conocida de antemano. Si las políticas de explotación se adecúan a las buenas prácticas, estadísticamente deben cumplirse las tasas de disponibilidad especificadas en la norma. Durante años, estos estándares han sido muy útiles.

Pero ¿y hoy en día? ¿Son suficientes? Claramente no, y en este artículo vamos a ver por qué. Estos estándares están diseñados para un paradigma en el que cada organización tenía su centro de proceso de datos y, si la organización se lo podía permitir, uno alternativo. Es decir, estas normas asumen que una organización tiene un centro de proceso de datos propio, en el que tiene toda su producción. Como es evidente, este datacenter es crítico, y debe estar diseñado de forma robusta. Si me lo puedo permitir hago un datacenter que resista una bomba atómica, y si soy más pobretón con una o dos UPS me vale.

La informática es crítica para una organización. Si la informática se para entonces la organización se colapsa, así que tiene que funcionar sí o sí. Por eso, durante muchos años, por favor, me ponga usté un host mu caro o lo mejor que haiga y no repare en gastos. Los sistemas eran carísimos y el software tanto como el sistema o más: el coste de los mainframes y sus licencias convertían en irrisorio el coste de la electricidad, las UPS’s, las enfriadoras y demás martingalas necesarias.

Pero claro, para que funcione el host y su software, el router y todas esas puñetas hacen falta cosas básicas: electricidad y frío. Para esto las soluciones han permanecido invariables durante muchos años: en la electricidad un suministro de luz (o dos para los ricos) contratado a una compañía eléctrica. Por si falla el suministro, uno o más sistemas de alimentación ininterrumpida. Y para cuando se agoten las baterías, uno o varios generadores diesel. En el lado del frío, cacharros que generaban frío a base de compresores, se enfriaba el aire y ese aire frío se echa debajo del falso suelo. Por si las moscas, se ponen más cacharros de frío de los necesarios. Por cierto, que el viejo sistema de refrigeración por impulsión por falso suelo es un ejemplo del despilfarro energético que ha caracterizado al mundo del datacenter, porque hacerlo así es como encender el aire acondicionado del dormitorio para refrigerar el salón.

Por eso los estándares que hemos mencionado hablan explícitamente de este tipo de infraestructuras. Pero hoy en día las cosas son diferentes por muchos motivos. Uno de ellos es que tenemos un abanico de soluciones mucho mayor, y el otro es que desde hace tiempo el precio del kWh sube más que las angulas en navidad. Así que uno de los parámetros que hay que tener en cuenta en las tres fases del datacenter que hemos detallado al principio, esto es, el diseño, construcción y explotación, es el de la eficiencia, y el problema es que los estándares mencionados no contemplan para nada la Eficiencia (escrito así, con mayúsculas, como debe ser).

Para suplir esta carencia The Green Grid ha propuesto el Open Standard for DataCenter Availability (OSDA). Tal como el propio TGG indica, uno de los objetivos al proponer el OSDA es fomentar la innovación, teniendo como metas la sostenibilidad y la Eficiencia Energética. En esta serie de artículos veremos los principios básicos del OSDA y cómo utilizarlo. Y ya sabéis, si tenéis dudas o queréis averiguar el estado real de vuestro datacenter, contactad conmigo.