Nuestro hábito de la IA ya está cambiando la forma en que construimos centros de datos • The Register

Análisis La loca carrera por asegurar e implementar la infraestructura de IA está obligando a los operadores de centros de datos a reevaluar la forma en que construyen y administran sus instalaciones.

En un centro de datos típico, el aire frío pasa a través de un bastidor lleno de sistemas informáticos, de redes y de almacenamiento. En la parte trasera, el aire caliente es capturado y expulsado por la infraestructura de refrigeración de la instalación.

Este paradigma funciona bien para racks de 6 a 10 kW, pero comienza a desmoronarse cuando comienzas a implementar los tipos de sistemas utilizados para entrenar modelos de IA como GPT-4. Los nodos GPU modernos pueden consumir fácilmente la energía de un rack completo. Y esto está obligando a los operadores de centros de datos a realizar importantes cambios de diseño.

Tesla parece ser el último en darse cuenta de esto. Como informamos a principios de esta semana, el fabricante estadounidense de vehículos eléctricos está buscando personas que le ayuden a construir "los primeros centros de datos de su tipo".

En una publicación de trabajo reciente, la compañía dijo que estaba buscando un gerente senior de programas de ingeniería para centros de datos, quien "liderará el diseño y la ingeniería de extremo a extremo de los primeros centros de datos de su tipo de Tesla y será uno de los miembros clave de su equipo de ingeniería."

Esta persona también sería responsable de supervisar la construcción de un nuevo centro de datos. Esto sugiere que esto puede no estar relacionado con los informes de The Information que afirman que Tesla recientemente se hizo cargo del arrendamiento de un centro de datos en Sacramento abandonado por Twitter luego de la adquisición de la red social por parte del CEO Elon Musk.

Si bien no está exactamente claro qué quiere decir la compañía con "primeros centros de datos de su tipo" (le hemos preguntado a Tesla y aún no hemos recibido respuesta), puede tener algo que ver con el acelerador Dojo AI personalizado que mostró en Hot Chips el año pasado. .

La compañía planea invertir más de mil millones de dólares en el proyecto de aquí a finales de 2024 para acelerar el desarrollo de su software de conducción autónoma. En julio, Musk reveló que el sistema completo podría superar los 100 exaFLOPS, de lo que suponemos que es el rendimiento del BF16.

Eso significa que Tesla tendrá que encontrar un lugar capaz de albergar la cosa y alguien que mantenga las luces encendidas y todos esos puntos flotando. Y según lo que sabemos del acelerador Dojo, diseñar y administrar una instalación capaz de entregar energía y refrigeración adecuadas para mantener el acelerador de IA en funcionamiento podría ser una especie de pesadilla.

Dojo es una supercomputadora componible, desarrollada íntegramente internamente por Tesla. Todo, desde la computación, las redes, las E/S hasta la arquitectura del conjunto de instrucciones, la entrega de energía, el empaquetado y la refrigeración, se creó a medida con el propósito expreso de acelerar los algoritmos de aprendizaje automático de Tesla.

El componente básico de este sistema es el chiplet D1 de Tesla. Veinticinco de estos están empaquetados utilizando la tecnología de sistema en oblea de TSMC en el mosaico Dojo Training. En total, el sistema de medio pie cúbico cuenta con 11 GB de SRAM, 9 TB/s de conectividad de tejido y puede gestionar 9 petaFLOPS de rendimiento BF16. Puede encontrar un desglose completo del enorme acelerador de IA en nuestro sitio hermano, The Next Platform.

Por supuesto, reunir todo ese rendimiento en un factor de forma tan compacto presenta algunos desafíos únicos, como cómo alimentar y enfriar un solo acelerador de 15 kW, y mucho menos los seis que componen el sistema de 1 exaFLOPS Dojo V1. Y esos son sólo los aceleradores. También es necesario alimentar y enfriar todos los sistemas de soporte utilizados para alimentar y coordinar el flujo de datos a través de los aceleradores.

Luego está la cuestión de la malla de alta velocidad, que podría resultar prohibitiva en términos de cómo se pueden desplegar estos mosaicos. A esas velocidades, cuanto más cerca puedas empacarlos, mejor, pero también mayor será la carga térmica. Como tal, no sería sorprendente que Tesla abandonara por completo la idea de utilizar bastidores tradicionales en favor de algo completamente único.

A este humilde buitre personalmente le encantaría ver un regreso a los diseños de supercomputación salvajes y extravagantes de antaño. Las supercomputadoras solían ser raras y divertidas. ¿No me crees? Simplemente busque el CM-1 o el Cray-2 de Thinking Machine. Eran unas máquinas muy bonitas.

Cualquiera que sea la forma que adopte finalmente este sistema, una cosa es segura: dondequiera que Tesla decida implementar el sistema necesitará niveles de supercomputación de capacidad de refrigeración por agua.

No es sólo Tesla. Los requisitos de refrigeración y energía impuestos por la infraestructura de IA ya están impulsando a varios grandes hiperescaladores y operadores de centros de datos a reevaluar cómo construyen sus centros de datos.

Una de las empresas que impulsa estos cambios es Meta, la empresa matriz de Facebook. La empresa ha invertido mucho en investigación y desarrollo de IA y el año pasado puso en servicio una supercomputadora de IA compuesta por 16.000 GPU Nvidia A100.

Esta infraestructura no solo ha ayudado a impulsar el desarrollo de modelos de IA, como el modelo de lenguaje grande Llama 2, que no es exactamente de código abierto, sino que también sirvió para darle forma a la infraestructura misma. Meta, o más bien Facebook, lanzó el Open Compute Project (OCP) ya en 2011 para acelerar el desarrollo de la infraestructura del centro de datos.

En la Cumbre OCP del año pasado, Meta reveló su plataforma de entrenamiento de IA Grand Teton junto con su especificación Open Rack v3 (ORV3), que fue diseñada para adaptarse a las mayores cargas térmicas y de potencia del sistema. Por ejemplo, según la especificación, Meta dice que una sola barra colectora puede soportar racks de 30 kW.

"Con una mayor potencia de toma de corriente, se genera una gestión térmica cada vez más compleja. El ecosistema ORV3 ha sido diseñado para adaptarse a varias formas diferentes de estrategias de refrigeración líquida, incluida la refrigeración líquida asistida por aire y la refrigeración por agua de las instalaciones", escribió en Meta el vicepresidente de infraestructura, Alexis Bjorlin. una publicación de blog el otoño pasado. "La tendencia en materia de energía que estamos viendo aumenta y la necesidad de avances en la refrigeración líquida nos obliga a pensar de manera diferente sobre todos los elementos de nuestra plataforma, bastidor, energía y diseño de centro de datos".

Ese último punto sobre el diseño del centro de datos es particularmente destacado ya que poco después de la publicación de esa publicación en el blog, Meta canceló dos centros de datos holandeses y anunció que rediseñaría un tercero en Huntsville, Alabama, en medio de lo que la compañía describió como una "inversión estratégica en inteligencia artificial".

Una de las tecnologías clave en las que están invirtiendo Meta y otros es algo llamado refrigeración líquida asistida por aire. Como sugiere su nombre, la tecnología es algo así como un medio paso hacia los tipos de infraestructura totalmente refrigerada por líquido que hemos visto en las supercomputadoras HPE Cray, Atos y Lenovo durante años.

La tecnología hace un uso extensivo de intercambiadores de calor de puerta trasera (RDHx) para reducir las inversiones en infraestructura necesarias en todas las instalaciones para soportar chips que funcionan a mayor temperatura. Los RDHx son realmente bastante simples y equivalen a poco más que un radiador del tamaño de un bastidor y algunos ventiladores grandes. Muchos prefieren esta tecnología debido a su flexibilidad, que permite implementarla en instalaciones con o sin las tuberías necesarias para soportar la refrigeración líquida a nivel de rack.

En el caso de Meta, la empresa está considerando RDHx como un medio para eliminar el calor de los sistemas de manera más eficiente. Según lo entendemos, la implementación involucra servidores enfriados por líquido directo (DLC), que están conectados a un depósito y una bomba en el bastidor, que impulsa el refrigerante calentado a través del RDHx, donde el calor de los sistemas se expulsa al pasillo caliente.

En esta configuración, el RDHx funciona de manera muy similar a un circuito de refrigeración por agua personalizado en una PC para juegos, pero en lugar de enfriar un sistema, está diseñado para enfriar todo el bastidor.

Sin embargo, esta no es la única forma en que hemos visto que se realiza la refrigeración líquida asistida por aire. RDHx también se puede utilizar para enfriar con aire. En esta configuración, el agua fría de la instalación se bombea a través del RDHx. A medida que el aire caliente sale por la parte posterior de los sistemas enfriados por aire, el radiador absorbe ese calor. Meta publicó un artículo completo sobre la viabilidad de esta tecnología el pasado mes de octubre [PDF].

Varios proveedores de colocación, incluidos Digital Realty, Equinix, Cyxtera y Colovore, han confirmado el soporte para la refrigeración RDHx en sus centros de datos. Aunque tenemos entendido que suele ser un tipo de pedido personalizado.

Uno de los mayores beneficios de este enfoque, particularmente para los colos, es que no requiere que los clientes adopten DLC antes de estar listos, y no les exige que respalden el campo minado de estándares contradictorios que salpican la industria de la refrigeración líquida.

Los beneficios de esta tecnología tampoco se limitan a las cargas de trabajo de IA o HPC. A medida que las CPU se calientan más y tienen más núcleos más densos, los fabricantes de chips (AMD y Ampere en particular) han estado vendiendo la perspectiva de la densificación. En otras palabras, consolidar múltiples racks potencialmente llenos de servidores más antiguos en un puñado de servidores de alto número de núcleos.

El problema es que estos sistemas con un núcleo denso utilizan tanta energía que es probable que se quede sin energía antes de que el bastidor esté casi lleno. Las configuraciones de racks de mayor densidad y los intercambiadores de calor de puerta trasera tienen el potencial de permitir a los clientes agrupar gran parte de su infraestructura en unos pocos racks. ®

Envíanos noticias

1414Obtén nuestro14