Seleccionar página

Edge Supercomputing

El pasado día dos de octubre tuvo lugar en Madrid el foro From the Edge to AI Computing: Energy Efficiency and Sustainability, organizado por enerTIC. Una vez más tengo que dar las gracias y la enhorabuena a Óscar, María y todo su equipo por una organización perfecta. Tuve el honor de moderar la última sesión: AI Computing y HPC: liderando la sostenibilidad en la nueva era digital.

Las sesiones fueron francamente interesantes, y tuvieron un denominador común: en todas, de una forma u otra, salió el concepto Edge Computing a la palestra. Si, una vez que muchos usuarios se habían convencido de que debían migrar a la nube, ahora el mensaje es Edge Computing. Es un esquema adecuado, porque permite la flexibilidad de un funcionamiento realmente híbrido, en el que en local se pueden ejecutar las cargas críticas y un balanceo dinámico con infraestructuras de nube pública.

Pero las razones para el Edge Computing no son sólo tener un esquema así. Para introducir el tema de la mesa redonda, hice una pequeña presentación sobre las tendencias en HPC que veo para un futuro próximo: en un extremo están las grandes infraestructuras para computación en la exaescala. Uno de los ponentes en la mesa era David Carrera, del BSC, que explicó cómo será Mare Nostrum 5. España es uno de los tres países que lideran la supercomputación europea, y traer una inversión de más de 200M€ siempre es una bendición.

Pero en el otro extremo está lo que denominé Edge Supercomputing: el concepto Edge Computing aplicado a la supercomputación. Hay que tener en cuenta dos cosas: un servidor de hoy en día con 24 o más núcleos en los procesadores principales y 640 tensor cores de una Tesla V100 tiene una capacidad de cálculo que le ubicarían en la lista top500 hace unos pocos años. Y si es una máquina que tiene una capacidad de cálculo que hace unos pocos años se consideraba la punta de lanza de la supercomputación y resuelve problemas mediante las mismas técnicas de programación paralela, es que resuelve problemas de supercomputación. Si nada, tiene cabeza de pato, pico de pato y hace cuá-cuá, es un pato.

La segunda cuestión a tener en cuenta es lo que denominé la AI storm: la tormenta de inteligencia artificial que nos viene encima. Industria 4.0, AI, Data Analytics, Machine Learning, IoT … no solo se van a generar un volumen de datos enorme, sino que también se van a tener que procesar. El denominador común de todo son dos cosas: AI (podemos englobar las diferentes metodologías utilizadas para Machine Learning, Deep Learning y Data Analytics en general dentro de la AI), y la necesidad de procesar esos datos cerca de su origen.

El problema del procesar cerca del origen de datos es muy importante. Son muchos los casos de uso en el que tanto las latencias como la necesidad de garantizar que los datos se procesen a tiempo hacen que sea una necesidad procesar cerca del origen. Esto no es un concepto nuevo: por ejemplo, en los supermercados la base de datos de productos y precios están en el TPV de la caja. Las cajas de los supermercados tienen que funcionar y cobrar a los clientes pase lo que pase: da igual que falle el servidor, las comunicaciones o lo que sea. Al cliente hay que cobrarle rápido para que se pueda marchar con sus productos.

Supongamos ahora otro caso simple: una cámara en los tornos de entrada de un campo de fútbol, que tiene que analizar varias caras por segundo para decidir si entre ellas hay algún terrorista o alguien violento que tenga vedada la entrada al campo. Un proceso de Deep Learning como ese requiere mucha capacidad de proceso, y hay que hacerlo en tiempo real. En el radiotelescopio SKA, otro proyecto en el que he trabajado, se producirán la friolera de 18TB/seg de datos. Un volumen de datos así tiene que procesarse a pie de antena. Al menos realizar un primer proceso para reducir el volumen de información a transmitir.

Podríamos poner muchísimos ejemplos en Industria 4.0, en el que sea necesario resolver problemas mediante AI y técnicas de supercomputación, y que sea imprescindible hacerlo “sin la comodidad de un CPD”. La solución a esto es el Edge Supercomputing, para lo que van a aparecer en el mercado en los próximos años las infraestructuras adecuadas, tanto en continente como en contenido.

En el continente veremos soluciones muy innovadoras en el que en espacios muy reducidos podremos tener altas capacidades de cálculo unidos a alta densidad. Los pequeños contendores de refrigeración por inmersión o servidores con refrigeración por agua en vez de aire están a la vuelta de la esquina.

En cuanto al contenido, pronto veremos también una generación de procesadores especializados en problemas de AI. Si, a las GPU’s les van a salir competidores. La razón de esto es obvia: la supercomputación no era un mercado lo suficientemente grande para diseñar hardware ad hoc: quien lo hiciera tendría que amortizar sus diseños, lo que haría que los precios de venta fueran muy elevados y muy poco competitivos. Por eso en el último cuarto de siglo hemos basado la supercomputación en servidores estándar: son commodities baratas. Sin embargo, el mercado de videojuegos es enorme, y sí es rentable hacer diseños para él. Lo que más demanda ese mercado es capacidad gráfica y por eso las GPU’s han progresado enormemente.

Ahora va a aparecer otro mercado enorme, el de la AI. AI + IoT están creando un enorme ecosistema de dispositivos, datos y procesamiento. Este mercado si tiene un tamaño lo suficientemente grande para realizar diseños específicos para él, y lo iremos viendo en los próximos años.

Distribución de la Carga

[bws_linkedin display=»share»]

Hoy toca hablar de carga en el DataCenter, y para hablar de carga qué mejor que hablar de aviones, barcos y camiones, que ya sabéis que aparecen con una cierta regularidad en el blog.

El parámetro fundamental de los vehículos de transporte, sean terrestres, marítimos o aéreos es la carga máxima. Como es evidente, el transportista querrá que sus vehículos vayan cargados al máximo, pues esta es la forma de optimizarlos. Cuando un avión, barco o camión está parado está metiendo billetes en la destructora de papel: parados no generan ingresos pero generan muchos gastos. Sin embargo, hay una situación peor que tenerlos quietos, que es tenerlos en movimiento con poca carga. Los costes son mucho mayores que estando parados y los ingresos serán bajos.

De todas formas, hay que entender un concepto importante. Cuando un sistema está diseñado para soportar una carga X, es evidente que su rendimiento máximo medido en términos de gasto por unidad de carga se alcanzará a carga máxima. Un DataCenter, es bajo este punto de vista, igual a aviones y barcos: su rendimiento óptimo lo alcanzará a carga máxima. Sin embargo, la gran diferencia entre un DataCenter y los vehículos de transporte es que, mientras que lo normal es que los vehículos de transporte de mercancías trabajen siempre a plena carga, en los datacenters no: casi siempre hay capacidad excedente. Se construye el datacenter pensando en la carga de hoy en día y en la que vendrá en los próximos X años. Es decir, un datacenter normal no sólo tiene capacidad para albergar más servidores, sino que los servidores que tiene en producción también tienen muchos ciclos de CPU excedentes. Salvo en sistemas HPC, donde en teoría deben encontrarse todas las CPU’s al 100%, en datacenters de propósito general es muy normal encontrarse tasas de utilización de CPU < 10% en sistemas poco virtualizados y < 50% en sistemas virtualizados.

Todo esto, obviamente, penaliza el rendimiento del DataCenter. Es la razón, como vimos en el artículo anterior, de que aunque la ingeniería que proyectó el DataCenter hizo unas predicciones de PUE, una vez en marcha las mediciones reales sean peores. Pero en esto no podemos hacer nada: la carga es la que es actualmente y la única opción es gestionarla de la mejor forma posible. Así que veamos cómo lo hacen en aviones, barcos y camiones.

En el mundo del transporte hay muchos roles. Uno es el del financiero que quiere hacer las cosas al menor coste posible. Otro es el del piloto, camionero o capitán del barco que, además de su sueldo, se juega su cuello. Lo sé por experiencia propia: si te pones a los mandos de un avión quieres aterrizar entero, porque si el avión aterriza «en piezas», su contenido también,  y en este sentido el piloto también es «contenido». Si un vehículo de transporte está a media carga, al financiero le preocupará el coste, pero al piloto (o al camionero o al capitán del barco) le preocupará (y mucho) la distribución de la carga.

No hace falta ser un genio de la física para darse cuenta de que si un barco cargado al 50% se le pone toda la carga en un lado, escorará. En los aviones, es crítico distribuir los pesos: volar en un avión desequilibrado es peligrosísimo (o directamente imposible). Y, además del peligro, la distribución de la carga nos afectará al consumo. Así que, cuando no estamos al 100%, tenemos un problema de gestión y distribución de la carga.

Un DataCenter es como un barco o un avión: estos últimos transportan cargas, y los datacenters soportan cargas computacionales, con la peculiaridad mencionada de que en raras ocasiones tenemos el datacenter al 100%. Así que en el datacenter tenemos siempre el problema de distribución de la carga. Si, es cierto: debemos gestionar cómo distribuimos la carga en el datacenter. He conocido muchos datacenters en el que los sistemas se instalan de cualquier manera, es decir, en el primer sitio que haya disponible y preferentemente a la altura de los ojos. Distribuir la carga del datacenter afecta a dos cuestiones importantísimas: la primera, la eficiencia. La segunda, más importante todavía: fiabilidad y seguridad. Si, no gestionar la carga, además de hacernos menos eficientes, puede provocar problemas de fiabilidad y seguridad.

¿Cómo controlar esto? En primer lugar, el Performance Indicator (y en especial mantener un ojo en el Thermal Conformance y otro en el Thermal Resilience) es una muy buena herramienta. Como continuación, deberíamos disponer de una herramienta que nos permita relacionar el Performance Indicator y sus tres indicadores con riesgos tal como los define la ISO 27001.

Si queréis ayuda sobre cómo distribuir la carga en el datacenter, o cómo realizar un análisis de la carga existente y sus implicaciones sobre los riesgos, consultad conmigo.

¿Cloud híbrida, yo? ¡Ja!

El otro día estuve tomando un café con dos buenos amigos que son directores de sistemas de sus respectivas organizaciones. Director de sistemas: esa cosa tan española en la que mezclamos CIO y CTO en una especie de dos por el precio de uno. Trabajan en  organizaciones grandes y dan servicio, cada uno, a más de 5.000 usuarios.

En medio de una charla distendida, les pregunté ¿qué planes cloud tenéis para vuestras organizaciones? La pregunta era totalmente inocente sin ninguna intención de polemizar. Simplemente es un tema de charla más, y siempre me gusta preguntar qué hace la gente y qué soluciones dan a los problemas, pues se amplía el campo de visión y se aprende mucho.

Lo que realmente me sorprendió fuie la respuesta que ambos dieron, casi al unísono, y que puede resumirse en ¿cloud? ¿en mi organización? ¡jamás de los jamases! Por supuesto, la respuesta fue acompañada con unas caras de sorpresa y estupor que parecía que les había preguntado si consumían heroína. A continuación, ambos me soltaron un largo discurso en el que, en líneas generales, decían lo mismo: el cloud no es adecuado para mi organización porque bla, bla, bla. (el cúmulo de razones era tan prolijo que no os voy a aburrir con ellas).

Cuando terminó la avalancha de explicaciones y justificaciones (que más parecían una regañina) yo seguí a lo mío: meterme en la boca del lobo: vale, pero ¿ni siquiera os planteáis los beneficios que os puede dar un esquema híbrido? Insensato de mí, me cayó otro chorreo.

Al cabo del rato, y con las aguas más calmadas, la charla derivó a derroteros más tecnológicos: la dificultad de integración con el LDAP corporativo para que funcione el correo de Google, las dificultades de que SalesForce se integre bien con el resto de aplicaciones, etc.

Oye, me estáis contando que ya tenéis el correo en la nube, CRM, ficheros, aplicaciones ofimáticas ¿por qué decís que nunca usaréis nubes híbridas? ¿Esas aplicaciones y el proceso de integración con el resto de sistemas corporativos qué son? Queridos, vosotros tenéis una cloud híbrida con todas las de la ley… y ni os habéis enterado.

Data Center, Infrastructure & Operations Management Summit (II)

Aunque ya han pasado algunas semanas del evento, tenía pendiente la segunda entrada dedicada al Data Center Infrastructure & Operations Management Summit. Así que, como lo prometido es deuda, aquí está.

En la keynote de la que os hablaba en la entrada anterior, en la que oí la frase que me gustó tanto (don’t be a custodian of legacy technologies) los ponentes introdujeron un concepto que me gustó mucho: Bimodal IT. Esta idea luego estuvo presente en todas las ponencias del evento de una u otra manera.

Los directores de sistemas son –somos- como camioneros: utilizamos máquinas grandes, pesadas y sofisticadas para prestar un servicio. Y, como buenos camioneros, nos gusta nuestro camión, lo cuidamos, lo mantenemos, lo mejoramos… y, por supuesto, cuando nos juntamos con otros camioneros hablamos de camiones. Como es lógico, presumimos de que el nuestro tiene más potencia, más marchas, más ejes… Nos gusta tanto nuestro camión que a veces se nos olvida que lo importante no es si la reductora hace esto o lo otro o si los diferenciales son de un tipo u otro. Lo realmente importante es transportar mercancías, y hacerlo con seguridad, puntualidad, calidad del servicio, con el mínimo coste y el mínimo impacto en el medio ambiente. Por esta razón, y sólo por esta razón, es por la que tenemos el camión.

El día a día nos tiene tan absorbidos que a veces nos cuesta darnos cuenta de cosas tan básicas. Por ejemplo, ¿en qué debemos pensar para mejorar la sanidad? Quien tenga mentalidad de camionero pensará en comprar sistemas más modernos, más potentes, nuevo instrumental, nuevos sistemas de diagnóstico, etc. Pero para mejorar la sanidad, en lo que hay que pensar es en el paciente. En sus expectativas, en sus problemas de salud y en cómo mejorar su calidad de vida.

En conclusión, tenemos que trabajar el plano concreto y el plano conceptual a la vez, sin descuidar ninguno de los dos: eso es el Bimodal IT. El primer modo es el concreto, el cercano al camión y al business as usual, es predecible y su objetivo es la estabilidad. El segundo modo es exploratorio y disruptivo, y su objetivo es la flexibilidad y la velocidad.

 

Un bonito ejemplo de legacy: el IBM 360 M91 que el Goddard Space Center de la NASA compró en 1967 para el programa Apollo. 10M$, 2Mb de RAM.

En 2017 hablaremos de…

Ya han pasado las navidades,  y tras la primera semana después de que hayan venido los reyes hemos superado la depre postnavideña. Estamos a mediados de enero, todavía tenemos los propósitos de comienzos de año en todo lo alto: vamos a adelgazar, a prepararnos para correr cuatro o cinco maratones y a aprender inglés y chino. Los buenos propósitos de comienzos de año tienen también trascendencia en nuestro trabajo, porque parte de los propósitos de comienzos de año es la reflexión de ¿y este año qué toca? ¿Cuáles serán las tendencias? ¿Cómo debo enfocarlo? ¿Seré el último en llegar?

Así que vamos a coger los prismáticos e intentar visualizar de qué hablaremos en 2017. Un tema recurrente será métricas, vamos a hablar mucho de ellas este año. De la primera que hablaremos será del Performance Indicator, que se va a convertir en el eje central para el análisis de la eficiencia de nuestro CPD. Pero The Green Grid no para (todos los viernes tenemos conferencias de los diferentes grupos de trabajo) y por fin se acaba de publicar el OSDA (Open Standard for DataCenter Availability), que es la métrica propuesta por TGG para medir la disponibilidad de nuestro CPD y que nace con la vocación de convertirse en un estándar.

Por supuesto, hablaremos mucho de métricas de eficiencia IT, y de cómo se relacionan con el PI. Los que me conocéis sabéis que llevo años evangelizando con este tema: no se trata sólo de medir cuánto consumen nuestros sistemas, la clave es medir cuánto consumen nuestros sistemas haciendo qué.

Métricas, métricas… métricas implica medir. Así que hablaremos también de cómo medir y qué herramientas utilizar. Pero basta ya de utilizar medidas teóricas o estáticas.

Hablaremos de otros temas, entre ellos la revolución sorda que se está produciendo en nuestras organizaciones: cloud híbrida. El otro día hablé con dos directores de TI que tenían ya una cloud híbrida… y no eran conscientes de ello. Ya os profundizaré en esto también. Sí, porque esto forma también parte de los propósitos de año nuevo. Este año no nos limitaremos a poner temas sobre la mesa, también profundizaré en ellos. En la medida que el tiempo lo permita iré publicando artículos técnicos que espero que os gusten.

Data Center, Infrastructure & Operations Management Summit (I)

Este mes tenía la agenda repleta de eventos, el último en el que he estado es el Data Center, Infrastructure & Operations Management Summit. Londres siempre merece la pena, y el evento, también. En otro post os hablaré en más detalle del evento, ahora sólo quiero dejar dos detalles.

El primero, una frase que me ha gustado mucho. En la profesión hay un viejo chascarrillo: Legacy is all that works. Pero en la keynote de apertura, a cargo de Neil Rickard y Milind Govekar, dijeron una frase que me encantó y con la que no puedo estar de acuerdo: Don’t be a Custodian of Legacy Technologies. Llevo años diciendo eso mismo: si no provocas tú el cambio, te pasará por encima, así que espabilad.

Un evento con más de mil personas en el que sólo estábamos media docena de asistentes españoles: tenemos que hacérnoslo mirar. Y hay otra cosa que nos tenemos que hacer mirar: en dos días he estado en 19 charlas, y todos los ponentes terminaban a la hora en punto sin necesidad que que un moderador les interrumpiera. Y más significativo aún: no sonó ni un puñetero móvil. Salas con 300 personas y no sonaba ni un móvil. Para terminar de descentrar, no había ningún runrun de gente charloteando. Hombre ¿cómo se va a concentrar uno en lo que te están contando si no suenan móviles, la gente no hace ruido y encima el ponente termina a la hora?

Casi igual que el evento en el que estuve el viernes en Madrid, en el que los ponentes que nos ajustamos a nuestro tiempo fuimos excepción y en el que sonaba un móvil cada dos por tres.

Por lo demás, Boris Becker muy simpático y el O2 Arena muy bonito, unas vistas impresionantes y te hace recordar la peli de Pierce Brosnan, pero excesivamente apartado.