엔비디아 DGX

DGX
DGX-1 슈퍼컴퓨터 5대가 들어있는 랙
제조사	엔비디아
출시일	2016년 (2016)

파스칼 - 볼타

DGX-1

DGX-1 서버는 파스칼 또는 볼타 도터 카드^[1] 기반의 8개 GPU를 특징으로 하며, 총 128 GB의 HBM2 메모리를 NVLink 메시 네트워크로 연결한다.^[2] DGX-1은 2016년 4월 6일에 발표되었다.^[3] 모든 모델은 인텔 제온 E5 CPU의 듀얼 소켓 구성을 기반으로 하며, 다음과 같은 기능을 갖추고 있다.

512 GB의 DDR4-2133
듀얼 10 Gb 네트워킹
4 x 1.92 TB SSD
3200W의 결합된 전원 공급 능력
3U 랙마운트 섀시

이 제품 라인은 딥 러닝 워크로드에 특화된 기능을 사용하여 GPU와 AI 가속기 간의 격차를 해소하도록 고안되었다.^[4] 초기 파스칼 기반 DGX-1은 170 테라플롭스의 반정밀도 처리를 제공했으며,^[5] 볼타 기반 업그레이드는 이를 960 테라플롭스로 증가시켰다.^[6]

DGX-1은 초기에는 파스칼 기반 구성으로만 제공되었으며, 첫 번째 SXM 소켓을 사용했다. 이후 DGX-1의 개정판은 SXM-2 소켓을 통해 첫 번째 볼타 카드에 대한 지원을 제공했다. 엔비디아는 파스칼 기반 DGX-1 사용자가 볼타 기반 DGX-1으로 업그레이드할 수 있는 업그레이드 키트를 제공했다.^[7]^[8]

파스칼 기반 DGX-1에는 16코어 인텔 제온 E5-2698 V3 모델과 20코어 E5-2698 V4 모델의 두 가지 변형이 있다. E5-2698 V4 장착 모델의 가격은 알 수 없으며, E5-2698 V3 장착 파스칼 기반 DGX-1은 출시 당시 $129,000였다.^[9]
볼타 기반 DGX-1은 E5-2698 V4를 장착했으며 출시 당시 $149,000였다.^[9]

DGX 스테이션

턴키 데스크사이드 AI 슈퍼컴퓨터로 설계된 DGX 스테이션은 냉각, 이중 전원 또는 19인치 랙과 같은 일반적인 데이터센터 인프라 없이도 완전히 독립적으로 작동할 수 있는 타워형 컴퓨터이다.

DGX 스테이션은 다음과 같은 사양으로 처음 출시되었다.^[10]

볼타 기반 테슬라 V100 가속기 4개, 각각 16 GB의 HBM2 메모리 장착
480 TFLOPS FP16
싱글 인텔 제온 E5-2698 v4^[11]
256 GB DDR4
4x 1.92 TB SSD
듀얼 10 Gb 이더넷

DGX 스테이션은 총 시스템 구성 요소의 거의 1500W에 달하는 열을 더 잘 관리하기 위해 수랭식으로 냉각되어 부하 시 소음 범위를 35 dB 미만으로 유지할 수 있다.^[12] 이러한 기능 외에도 이 시스템은 시끄럽고 많은 열을 방출하며 넓은 영역을 차지할 수 있는 랙마운트 DGX 시스템을 실행할 인프라가 없는 고객에게 매력적인 구매였다. 이는 엔비디아가 고성능 컴퓨팅을 데스크사이드로 가져오는 첫 시도였으며, 이후 엔비디아의 주요 마케팅 전략으로 남아 있다.^[13]

DGX-2

DGX-1의 후속 모델인 엔비디아 DGX-2는 단일 유닛에 16개의 볼타 기반 V100 32 GB (2세대) 카드를 사용한다. 2018년 3월 27일에 발표되었다.^[14] DGX-2는 거대한 데이터셋을 처리하기 위해 512 GB의 공유 메모리와 고대역폭 내부 통신을 위한 NVSwitch를 사용하여 2 페타플롭스를 제공한다. DGX-2는 총 512 GB의 HBM2 메모리, 총 1.5 TB의 DDR4를 갖추고 있다. 또한 8개의 100 Gbit/s 인피니밴드 카드와 30.72 TB의 SSD 스토리지^[15]가 있으며, 이 모든 것은 거대한 10U 랙마운트 섀시에 내장되어 있으며 최대 부하 시 최대 10 kW를 소비한다.^[16] DGX-2의 초기 가격은 $399,000였다.^[17]

DGX-2는 다른 DGX 모델과 달리 각각 8개의 GPU를 가진 두 개의 개별 GPU 도터보드를 포함한다. 이 보드들은 NVSwitch 시스템에 의해 연결되어 보드 간 추가 지연 없이 시스템의 모든 GPU에서 전체 대역폭 통신이 가능하다.^[16]

DGX-2의 고성능 변형인 DGX-2H도 제공되었다. DGX-2H는 DGX-2의 듀얼 인텔 제온 플래티넘 8168을 업그레이드된 듀얼 인텔 제온 플래티넘 8174로 교체했다. 이 업그레이드는 두 CPU 모두 24코어이므로 시스템당 코어 수가 증가하지 않으며, 시스템의 새로운 기능을 활성화하지도 않지만, CPU의 기본 주파수를 2.7 GHz에서 3.1 GHz로 증가시킨다.^[18]^[19]^[20]

암페어

DGX A100 서버

2020년 5월 14일 발표 및 출시되었다. DGX A100은 암페어 기반 A100 가속기 8개를 포함하는 3세대 DGX 서버이다.^[21] 또한 15 TB의 PCIe gen 4 NVMe 스토리지,^[22] 1 TB의 RAM, 그리고 8개의 멜라녹스 기반 200 GB/s HDR 인피니밴드 ConnectX-6 NIC가 포함되어 있다. DGX A100은 이전 모델인 DGX-2보다 훨씬 작은 인클로저에 있어 6랙 유닛만 차지한다.^[23]

DGX A100은 64코어 AMD EPYC 7742 CPU로 이동하여 인텔 제온 CPU로 구축되지 않은 최초의 DGX 서버가 되었다. DGX A100 서버의 초기 가격은 $199,000였다.^[21]

DGX 스테이션 A100

기존 DGX 스테이션의 후속 모델인 DGX 스테이션 A100은 조용하고 효율적이며 턴키 방식의 클러스터 인 어 박스 솔루션으로서, 머신러닝을 활용하고자 하는 소규모 기업이나 개인이 구매, 임대 또는 대여할 수 있는 동일한 틈새 시장을 채우는 것을 목표로 한다. 이 모델은 타워형 방향, 단일 소켓 CPU 메인보드, 새로운 냉매 기반 냉각 시스템, 그리고 동일 세대의 랙마운트 DGX A100에 비해 감소된 가속기 수 등 기존 DGX 스테이션의 많은 설계 선택을 따르다.^[13] DGX 스테이션 A100 320G 모델의 가격은 $149,000이며, 160G 모델은 $99,000이다. 엔비디아는 또한 소규모로 이러한 시스템을 구현하는 비용을 줄이기 위해 미국(rentacomputer.com) 및 유럽(iRent IT Systems)의 파트너를 통해 월 약 $9000에 스테이션 대여를 제공한다.^[24]^[25]

DGX 스테이션 A100은 내장된 A100의 두 가지 다른 구성으로 제공된다.

4개의 암페어 기반 A100 가속기, 40 GB (HBM) 또는 80 GB (HBM2e) 메모리로 구성되어 총 160 GB 또는 320 GB를 제공하여 DGX 스테이션 A100 160G 또는 320G 변형이 된다.
2.5 PFLOPS FP16
싱글 64코어 AMD EPYC 7742
512 GB DDR4
1 x 1.92 TB NVMe OS 드라이브
1 x 7.68 TB U.2 NVMe 드라이브
듀얼 포트 10 Gb 이더넷
싱글 포트 1 Gb BMC 포트

호퍼

DGX H100 서버

2022년 3월 22일 발표^[26] 및 2022년 3분기 출시 예정^[27]인 DGX H100은 4세대 DGX 서버로, 8개의 호퍼 기반 H100 가속기를 탑재하여 총 32 PFLOPs의 FP8 AI 컴퓨팅과 640 GB의 HBM3 메모리를 제공하며, DGX A100의 640GB HBM2 메모리보다 업그레이드되었다. 이 업그레이드는 또한 VRAM 대역폭을 3 TB/s로 증가시킨다.^[28] DGX H100은 각 H100 SXM 카드의 700W TDP를 수용하기 위해 랙마운트 크기를 8U로 늘렸다. DGX H100은 또한 운영체제 스토리지를 위한 1.92 TB SSD 2개와 애플리케이션 데이터를 위한 30.72 TB 솔리드 스테이트 스토리지를 갖추고 있다.

또 다른 주목할 만한 추가 사항은 두 개의 엔비디아 블루필드 3 DPU의 존재^[29]와 멜라녹스 ConnectX-7 NIC를 통한 400 Gbit/s 인피니밴드로의 업그레이드로, DGX A100의 두 배 대역폭이다. DGX H100은 각각 4개의 ConnectX-7 400 GB/s 컨트롤러와 시스템당 2개의 카드를 가진 새로운 '시더 피버' 카드를 사용한다. 이는 DGX H100에 인피니밴드를 통해 3.2 Tbit/s의 패브릭 대역폭을 제공한다.^[30]

DGX H100은 2개의 제온 플래티넘 8480C 스케일러블 CPU(사파이어 래피즈 코드명)^[31]와 2테라바이트의 시스템 메모리를 갖추고 있다.^[32]

DGX H100은 출시 당시 £379,000 또는 약 $482,000의 가격이 책정되었다.^[33]

DGX GH200

2023년 5월에 발표된 DGX GH200은 32개의 엔비디아 호퍼 슈퍼칩을 단일 슈퍼칩으로 연결하며, 총 256개의 H100 GPU, 32개의 Grace Neoverse V2 72코어 CPU, 400 Gbit/s 인피니밴드를 갖춘 32개의 OSFT 싱글 포트 ConnectX-7 VPI, 그리고 200 Gbit/s 멜라녹스 를 갖춘 16개의 듀얼 포트 블루필드-3 VPI로 구성된다. 엔비디아 DGX GH200은 대규모 추천 시스템, 생성형 AI 및 그래프 분석을 위한 테라바이트급 모델을 처리하도록 설계되었으며, 거대한 AI 모델을 위해 선형 확장성을 갖춘 19.5 TB의 공유 메모리를 제공한다.^[34]

DGX 헬리오스

2023년 5월에 발표된 DGX 헬리오스 슈퍼컴퓨터는 4개의 DGX GH200 시스템을 특징으로 한다. 각 시스템은 엔비디아 퀀텀-2 인피니밴드 네트워킹으로 상호 연결되어 대규모 AI 모델 훈련을 위한 데이터 처리량을 극대화한다. 헬리오스에는 1,024개의 H100 GPU가 포함되어 있다.

블랙웰

DGX GB200

2024년 3월에 발표된^[35] GB200 NVL72는 36개의 Grace Neoverse V2 72코어 CPU와 72개의 B100 GPU를 랙 스케일 디자인으로 연결한다. GB200 NVL72는 액체 냉각 방식의 랙 스케일 솔루션으로, 단일 대규모 GPU처럼 작동하는 72개 GPU NVLink 도메인을 자랑한다.^[36] 엔비디아 DGX GB200은 거대한 AI 모델을 위한 선형 확장성을 갖춘 13.5 TB HBM3e 공유 메모리를 제공하며, 이는 이전 모델인 DGX GH200보다 적은 용량이다.

DGX 슈퍼팟

DGX 슈퍼팟은 엔비디아가 DGX 하드웨어를 사용하여 제공하는 고성능 턴키 슈퍼컴퓨터 시스템이다.^[37] 이는 DGX 컴퓨팅 노드를 빠른 스토리지 및 고대역폭 네트워킹과 결합하여 고수요 머신러닝 워크로드에 대한 솔루션을 제공한다. 아곤 국립 연구소의 셀레네 슈퍼컴퓨터는 DGX 슈퍼팟 기반 시스템의 한 예이다.

280개의 DGX A100 노드로 구축된 셀레네는 2020년 6월 완공 당시 가장 강력한 슈퍼컴퓨터 TOP500 목록에서 5위를 차지했으며,^[38] 계속해서 높은 성능을 유지하고 있다. 새로운 호퍼 기반 슈퍼팟은 최대 32개의 DGX H100 노드로 확장할 수 있으며, 총 256개의 H100 GPU와 64개의 x86 CPU를 포함한다. 이는 완벽한 슈퍼팟에 20 TB의 HBM3 메모리, 70.4 TB/s의 이등분 대역폭, 그리고 최대 1 엑사플롭스의 FP8 AI 컴퓨팅을 제공한다.^[28] 이러한 슈퍼팟은 더 나아가 더 큰 슈퍼컴퓨터를 만들 수 있다.

엔비디아가 설계, 구축 및 운영하는 이오스 슈퍼컴퓨터^[39]^[40]^[41]는 18개의 H100 기반 슈퍼팟으로 구성되어 총 576개의 DGX H100 시스템, 500개의 퀀텀-2 인피니밴드 스위치, 그리고 360개의 NVLink 스위치를 갖추고 있어, TOP500(2023년 11월판)에 따르면 이오스는 18 EFLOPs의 FP8 컴퓨팅과 9 EFLOPs의 FP16 컴퓨팅을 제공하며 세계에서 5번째로 빠른 AI 슈퍼컴퓨터가 되었다.

엔비디아는 스토리지 장치나 시스템을 생산하지 않으므로, 엔비디아 슈퍼팟은 파트너에게 고성능 스토리지를 제공하는 데 의존한다. 엔비디아 슈퍼팟의 현재 스토리지 파트너는 델 EMC, DDN, HPE, IBM, 넷앱, 파빌리온 데이터, 그리고 VAST 데이터이다.^[42]

모델