반응형
반응형
반응형


 

DGX H100은 NVLink4와 NVSwitch를 사용하여 GPU 간 초고속 데이터 교환을 최적화하며, InfiniBand 및 Ethernet을 통한 외부 서버 연결도 지원합니다.


1. DGX H100 네트워크 아키텍처 개요

DGX H100은 다중 H100 GPU를 하나의 강력한 클러스터로 연결하는 네트워크 인터커넥트를 포함합니다.
이를 통해 딥러닝(AI), 고성능 컴퓨팅(HPC), 데이터 분석 등에서 대규모 병렬 연산이 가능합니다.

  • NVLink4 및 NVSwitch를 사용하여 8개의 H100 GPU 간 초고속 데이터 전송 지원
  • Full-BW 및 Half-BW NVLink 네트워크를 통해 서버 내·외부 GPU 통신 최적화
  • 400Gb/s InfiniBand/Ethernet 연결을 통해 외부 시스템과 빠른 데이터 교환
  • SHARP 프로토콜을 활용하여 AllReduce 최적화

2. DGX H100 네트워크 구조 설명

(1) Full-BW Intra-Server NVLink (서버 내 GPU 간 최대 대역폭 NVLink)

  • 모든 8개의 H100 GPU가 동시에 18개의 NVLink를 통해 서로 통신 가능
    → NVLink4는 GPU 간 900GB/s(양방향) 속도로 데이터 교환을 수행
  • 단일 서버 내에서만 NVLink를 사용하기 때문에 외부 네트워크 부하가 없음
  • 서버 내부의 NVLink 네트워크는 오버서브스크립션(over-subscription)만이 병목이 될 수 있음
    → 즉, 모든 GPU가 동시에 NVLink를 사용할 때, 일부 대역폭이 제한될 수 있음

Full-BW NVLink는 단일 DGX H100 서버 내에서 GPU 간 최적의 데이터 전송을 보장


(2) Half-BW NVLink Network (서버 간 GPU 간 절반 대역폭 NVLink)

  • DGX H100 서버 외부의 다른 서버 GPU와 NVLink 연결 가능
  • 8개의 GPU 모두 외부 GPU와 연결되지만, 한 번에 18개의 NVLink를 모두 사용할 수 없음
    즉, 내부 NVLink 네트워크보다 사용 가능한 대역폭이 절반으로 감소
  • 4개의 GPU는 완전한 18 NVLink를 외부 서버 GPU와 연결할 수 있음
  • AllReduce 및 SHARP를 통해 데이터 동기화 속도 최적화 가능
  • All2All(모든 GPU 간 데이터 공유) 통신 대역폭을 줄여 서버 비용 절감

Half-BW NVLink는 여러 개의 DGX H100 서버를 연결하여 대규모 클러스터를 구성하는데 사용됨
다만, Full-BW보다 낮은 대역폭을 가지므로, NVLink보다는 InfiniBand를 활용하여 클러스터를 구성하는 것이 일반적


(3) Multi-Rail InfiniBand/Ethernet (400Gb/s InfiniBand 또는 Ethernet 연결)

  • 각 GPU마다 400Gb/s의 HCA/NIC(Host Channel Adapter/Network Interface Card) 연결을 지원
    → GPU마다 개별적인 RDMA(Remote Direct Memory Access) 지원 가능
  • 전체적으로 8개의 400Gb/s 네트워크 인터페이스를 사용하여, 총 800Gbps의 양방향(Full-Duplex) 데이터 전송 가능
  • InfiniBand는 GPU와 스토리지 간 빠른 데이터 전송을 위한 RDMA 지원
  • Ethernet 모드에서는 표준 네트워크 연결을 통해 서버 간 통신 가능

Multi-Rail InfiniBand/Ethernet은 서버 간 빠른 데이터 전송을 위해 NVLink와 함께 활용됨
InfiniBand를 사용하면 RDMA를 통해 CPU 개입 없이 GPU 간 직접 데이터 이동 가능


3. 네트워크 구성 요소 및 용어 설명

(1) NVLink 4.0

  • NVIDIA의 GPU 간 초고속 데이터 인터커넥트 기술
  • NVLink 4.0을 사용하여 GPU 간 최대 900GB/s의 대역폭 제공
  • NVSwitch를 통해 여러 개의 GPU를 연결하여 멀티 GPU 연산 최적화
  • 딥러닝 모델 학습 시 그래디언트 교환(AllReduce) 속도 향상

(2) NVSwitch

  • 여러 개의 NVLink를 연결하는 스위치 역할
  • DGX H100에서는 4개의 NVSwitch가 사용됨
  • NVSwitch는 GPU 간 직접 데이터 교환을 가능하게 하여 CPU 개입 없이 빠른 통신 가능
  • SHARP 프로토콜을 지원하여 AllReduce 연산 최적화

(3) InfiniBand (Mellanox ConnectX-7)

  • NVIDIA Mellanox의 고속 네트워크 인터커넥트 기술
  • RDMA를 지원하여 CPU 개입 없이 GPU 메모리 간 직접 데이터 전송 가능
  • 400Gb/s 속도를 제공하여 NVLink가 없는 서버와도 빠른 데이터 교환 가능

(4) OSFP (Octal Small Form-factor Pluggable)

  • DGX H100에서 NVLink 네트워크 확장을 위해 사용되는 광 네트워크 인터페이스
  • OSFP를 사용하여 여러 개의 DGX 서버를 연결 가능

(5) SHARP (Scalable Hierarchical Aggregation and Reduction Protocol)

  • NVIDIA가 개발한 AllReduce 최적화 프로토콜
  • SHARP를 사용하면 GPU 간 그래디언트 합산(AllReduce)이 더욱 빠르게 실행됨
  • AI 모델 학습 시 GPU 간 데이터 동기화 속도를 향상시켜 학습 시간을 단축

(6) RDMA (Remote Direct Memory Access)

  • InfiniBand에서 지원하는 기술로, CPU 개입 없이 메모리 간 직접 데이터 이동 가능
  • GPU 간 데이터 전송 시 NVLink 대신 InfiniBand RDMA를 활용하면 CPU 오버헤드를 줄이고, 서버 간 빠른 통신 가능

4. DGX H100 네트워크 구성의 장점

(1) 서버 내 초고속 데이터 전송 (Full-BW NVLink)

  • 8개의 GPU가 NVLink4를 통해 초고속 데이터 교환 가능
  • 서버 내부에서만 작동하므로 추가적인 네트워크 부하가 없음

(2) 대규모 클러스터 확장 가능 (Half-BW NVLink)

  • NVLink 네트워크를 활용하여 여러 개의 DGX H100 서버를 연결 가능
  • AllReduce 및 SHARP 기술을 활용하여 데이터 동기화 속도 최적화

(3) InfiniBand와 Ethernet을 통한 빠른 외부 연결

  • 각 GPU마다 400Gb/s의 독립적인 네트워크 연결 제공
  • RDMA를 활용하여 서버 간 GPU 메모리 간 직접 데이터 이동 가능

(4) 비용 대비 성능 최적화

  • All2All(모든 GPU 간 직접 연결)보다 비용을 절감하면서도 성능 유지
  • NVLink와 InfiniBand를 적절히 조합하여 최상의 성능 제공

5. 결론

DGX H100 서버의 데이터 네트워크는 NVLink, NVSwitch, InfiniBand 및 Ethernet을 활용하여 AI 및 HPC 환경에서 최적의 성능을 제공합니다.

  • 서버 내 Full-BW NVLink를 통해 GPU 간 초고속 데이터 전송 가능
  • Half-BW NVLink를 활용하여 서버 간 GPU 연결을 확장 가능
  • Multi-Rail InfiniBand/Ethernet을 통해 외부 네트워크와 빠른 데이터 교환
  • SHARP 및 RDMA 기술을 사용하여 AI 모델 학습 및 HPC 연산 최적화

즉, DGX H100은 NVLink와 InfiniBand를 결합하여 단일 서버 및 멀티서버 환경에서 최상의 성능을 제공하는 AI 및 HPC 전용 네트워크 솔루션을 갖추고 있습니다.

 


DGX H100의 네트워크 구성은 서버 내에서는 Full-BW NVLink를, 서버 간에는 Half-BW NVLink를 사용합니다.

서버 내 (Intra-Server) Full-BW NVLink

  • 8개의 H100 GPU가 NVLink4를 통해 서로 연결되어 최대 900GB/s(양방향) 대역폭 제공
  • 모든 GPU가 동시에 18개의 NVLink를 활용 가능
  • 서버 내부에서는 NVSwitch를 통해 GPU 간 데이터 전송을 최적화하여 최대 대역폭 활용 가능

서버 내부에서는 GPU 간 데이터 전송이 매우 빠르며, NVLink를 통해 GPU 간 직접 통신이 가능하므로, CPU 개입 없이 AI 학습 및 HPC 연산이 최적화됨


서버 간 (Inter-Server) Half-BW NVLink

  • 서버 간 GPU 연결에서는 Full-BW NVLink를 사용할 수 없고, Half-BW NVLink만 지원
  • 서버 내의 8개 GPU 모두 외부 GPU와 연결될 수 있지만, 한 번에 18 NVLinks를 모두 사용할 수 없음
  • 특정 4개의 GPU만 18 NVLink를 사용하여 외부 서버의 GPU와 연결 가능
  • 서버 간 GPU 통신 시 대역폭이 줄어들지만, SHARP 및 AllReduce 최적화를 통해 성능을 유지

서버 간 NVLink 네트워크는 비용과 복잡성을 고려하여 Half-BW로 구성되었으며, 서버 간 통신은 NVLink보다는 InfiniBand를 활용하는 것이 일반적


왜 서버 내에서는 Full-BW이고, 서버 간에는 Half-BW일까?

  1. 하드웨어 비용 절감
    • NVLink 연결을 모든 서버에 Full-BW로 확장하면 NVSwitch 및 NVLink 포트 수가 기하급수적으로 증가하여 비용이 매우 커짐.
    • 서버 간 GPU 연결은 InfiniBand를 활용하는 것이 비용 대비 효율적.
  2. 클러스터 확장성 고려
    • Full-BW NVLink를 서버 간에도 적용하면, 모든 GPU 간 연결을 NVLink만으로 처리해야 하므로 네트워크 복잡성이 증가.
    • InfiniBand를 병행 사용하면 더 많은 서버를 연결할 수 있고 확장성이 뛰어남.
  3. 서버 내 통신 vs 서버 간 통신의 차이
    • 서버 내: 모든 GPU가 자주 데이터를 교환해야 하므로 Full-BW NVLink로 최대 대역폭 제공.
    • 서버 간: GPU 간 데이터 교환이 빈번하지만, 상대적으로 덜 중요하므로 Half-BW NVLink와 InfiniBand를 병행 사용.

즉, NVIDIA는 AI 및 HPC 워크로드를 고려하여 서버 내부에서는 Full-BW NVLink를 제공하고, 서버 간에는 Half-BW NVLink와 InfiniBand를 조합하여 최적의 성능과 비용 효율성을 맞춘 것입니다.

 


✅ DGX H100은 InfiniBand와 Ethernet을 모두 지원하는가?

네, DGX H100은 InfiniBand와 Ethernet을 모두 지원합니다.

  • 8개의 400Gb/s ConnectX-7 네트워크 포트를 통해 InfiniBand 및 Ethernet을 사용할 수 있습니다.
  • NVIDIA의 최신 BlueField-3 DPU(Data Processing Unit) 를 사용하면 InfiniBand 및 Ethernet 네트워크 가속과 보안 기능을 강화할 수 있습니다.
  • OSFP(Octal Small Form-factor Pluggable) 포트는 광 네트워크 모듈을 통해 NVLink 네트워크 및 InfiniBand/Ethernet 연결을 확장하는 역할을 합니다.

✅ OSFP(Octal Small Form-factor Pluggable)는 InfiniBand와 Ethernet을 지원하는가?

OSFP 포트는 기본적으로 InfiniBand와 Ethernet을 모두 지원할 수 있습니다.
하지만 어떤 트랜시버(광 모듈) 또는 네트워크 카드(HCA/NIC)를 사용하느냐에 따라 InfiniBand와 Ethernet을 구별합니다.

  • OSFP는 물리적 포트 폼팩터이며, 내부적으로 어떤 네트워크 프로토콜(InfiniBand 또는 Ethernet)을 사용할지는 트랜시버에 따라 달라집니다.
  • DGX H100의 OSFP 포트는 기본적으로 InfiniBand용으로 설계되었지만, Ethernet을 위한 트랜시버를 장착하면 Ethernet으로도 사용 가능합니다.

✅ InfiniBand와 Ethernet의 차이점

항목InfiniBand (IB)Ethernet

목적 AI/HPC 및 데이터센터에서 초고속 RDMA(Remote Direct Memory Access) 통신을 지원 일반적인 데이터센터 및 기업 네트워크, 클라우드 컴퓨팅
속도 400Gb/s (NVIDIA ConnectX-7) 400Gb/s (이더넷 모드)
지연 시간(Latency) 1μs 미만 (초저지연) 10~100μs (상대적으로 높음)
통신 방식 RDMA를 사용하여 CPU 개입 없이 GPU 간 직접 데이터 전송 TCP/IP 기반 전송 (CPU 개입 필요)
사용처 AI, 딥러닝, 고성능 컴퓨팅(HPC), 금융 거래 일반적인 서버 및 클라우드 인프라

👉 DGX H100에서는 InfiniBand를 기본적으로 사용하지만, Ethernet 트랜시버를 장착하면 Ethernet 네트워크도 지원 가능합니다.


✅ DGX H100에서 InfiniBand와 Ethernet을 어떻게 사용하는가?

  1. 서버 내 GPU 간 통신 (Intra-Server)
    • NVLink 4.0과 NVSwitch를 통해 GPU 간 초고속 데이터 교환 (900GB/s)
    • InfiniBand/Ethernet을 사용하지 않음
  2. 서버 간 GPU 통신 (Inter-Server)
    • InfiniBand를 기본적으로 사용하여 AI 클러스터링 및 HPC 확장
    • InfiniBand가 없는 환경에서는 Ethernet을 사용할 수도 있음
    • OSFP 트랜시버를 변경하여 InfiniBand ↔ Ethernet 변환 가능
  3. 클라우드 및 일반 네트워크 연결
    • InfiniBand와 Ethernet 중에서 네트워크 환경에 맞게 선택하여 사용 가능
    • NVIDIA BlueField-3 DPU를 활용하여 보안 및 네트워크 성능 최적화

✅ 결론: DGX H100은 InfiniBand와 Ethernet을 모두 지원 가능

  • 기본적으로 InfiniBand(400Gb/s)를 사용하여 RDMA 기반의 초고속 데이터 전송 지원
  • OSFP 포트를 통해 InfiniBand 또는 Ethernet 중에서 선택하여 사용 가능
  • NVIDIA BlueField-3 DPU를 활용하여 네트워크 트래픽을 최적화하고 보안 강화 가능
  • AI 및 HPC 클러스터에서는 InfiniBand가 기본 선택이지만, 필요하면 Ethernet도 사용 가능

즉, DGX H100은 InfiniBand를 기본으로 사용하지만, 필요에 따라 Ethernet도 지원할 수 있는 유연한 네트워크 구성을 가지고 있습니다.

반응형
반응형


DGX H100 서버는 AI, 딥러닝, 고성능 컴퓨팅(HPC) 환경에서 사용되는 최첨단 GPU 서버로,
최대 32 PFLOPS(PetaFLOPS)의 AI 성능과 초고속 NVLink 및 InfiniBand 네트워크를 지원합니다.


1. DGX H100 서버 개요

  • 8개의 H100 GPU 및 4개의 NVSwitch로 구성된 고성능 AI 서버
  • 3.6TB/s NVLink 대역폭을 활용하여 GPU 간 빠른 데이터 전송 가능
  • InfiniBand 및 BlueField-3 DPU(Data Processing Unit)를 활용한 네트워크 최적화
  • PCIe Gen5 지원으로 CPU-GPU 및 GPU-GPU 간 데이터 전송 속도 향상
  • Intel Sapphire Rapids CPU를 탑재하여 강력한 연산 및 데이터 처리 성능 제공

2. DGX H100 서버 주요 사양 설명

사양설명

8-H100 4-NVSwitch Server 8개의 NVIDIA H100 GPU와 4개의 NVSwitch로 구성된 서버
32 PFLOPS of AI Performance 32 PetaFLOPS(= 32×10¹⁵ FLOPS)급 AI 연산 성능 (FP16 Tensor Core)
640 GB aggregate GPU memory 8개의 H100 GPU가 각각 80GB의 HBM3 메모리를 제공하여 총 640GB
18 NVLink Network OSFPs 18개의 NVLink 네트워크 포트(Optical Small Form-factor Pluggable)
3.6 TBps full-duplex NVLink Network bandwidth (72 NVLinks) NVSwitch를 통한 72개의 NVLink 연결로 3.6TB/s의 양방향 데이터 전송 가능
8x 400 Gb/s ConnectX-7 InfiniBand/Ethernet ports 8개의 400Gb/s 포트를 통해 InfiniBand 및 이더넷 네트워크 연결 가능
2 dual-port BlueField-3 DPUs BlueField-3 DPU(데이터 처리 유닛) 2개 포함 (각각 듀얼 포트)
Dual Sapphire Rapids CPUs Intel Xeon Sapphire Rapids CPU 2개 탑재
PCIe Gen5 최신 PCIe 5.0 인터페이스 지원, GPU-CPU 및 스토리지 전송 속도 향상

3. 주요 용어 및 개념 설명

(1) H100 GPU

  • NVIDIA의 최신 AI/HPC용 GPU 아키텍처 (Hopper 기반)
  • FP16 Tensor Core 성능으로 최대 32 PFLOPS의 연산 수행 가능
  • HBM3 메모리(High Bandwidth Memory 3) 사용으로 높은 메모리 대역폭 제공
  • NVLink 4.0을 지원하여 GPU 간 초고속 데이터 전송 가능

(2) NVSwitch & NVLink Network

  • NVLink: NVIDIA의 GPU 간 초고속 데이터 인터커넥트 기술
  • NVSwitch: 여러 개의 NVLink를 연결하여 멀티-GPU 환경에서 데이터 전송 최적화
  • DGX H100 서버는 72개의 NVLink를 사용하여 GPU 간 3.6TB/s 대역폭 제공
  • 18개의 OSFP(Optical Small Form-factor Pluggable) 포트를 통해 NVLink 네트워크 확장 가능

(3) PFLOPS (PetaFLOPS)

  • PFLOPS(Peta Floating Point Operations Per Second): 초당 10¹⁵ 회의 부동소수점 연산을 수행하는 성능 단위
  • DGX H100 서버는 32 PFLOPS로, AI 모델 학습 및 추론 속도가 매우 빠름

(4) 640GB GPU 메모리

  • 8개의 H100 GPU가 각각 80GB의 HBM3 메모리를 제공하여 총 640GB
  • HBM3(High Bandwidth Memory 3) 사용으로 기존 GDDR6보다 높은 대역폭 제공
  • AI 모델 학습 시 대규모 파라미터 및 데이터셋을 GPU 메모리에 직접 저장하여 속도 향상

(5) ConnectX-7 InfiniBand/Ethernet

  • 8개의 400Gb/s InfiniBand 또는 이더넷 포트 제공
  • InfiniBand는 초고속 RDMA(Remote Direct Memory Access) 지원
  • GPU 및 스토리지 간 고속 데이터 전송을 위해 사용됨
  • ConnectX-7는 최신 InfiniBand 네트워크 어댑터로, 지연 시간 최소화 및 높은 대역폭 제공

(6) BlueField-3 DPU (Data Processing Unit)

  • BlueField-3는 NVIDIA의 최신 DPU(Data Processing Unit)
  • 서버의 네트워크 및 데이터 처리 부하를 줄이기 위해 사용
  • AI 학습 데이터 이동 및 보안 프로세싱을 최적화
  • 듀얼 포트로 구성되어 있어 네트워크 병목을 줄이고 효율적인 데이터 전송 가능

(7) Dual Sapphire Rapids CPUs

  • Intel Xeon Sapphire Rapids 프로세서 2개 포함
  • 4세대 Xeon 스케일러블 프로세서로, 고성능 컴퓨팅 및 AI 워크로드 지원
  • PCIe Gen5 및 DDR5 지원으로 높은 대역폭 제공
  • DGX 서버에서 CPU는 GPU의 보조 역할을 하며, 데이터 전처리 및 네트워크 관리 수행

(8) PCIe Gen5

  • PCI Express 5.0 지원 (x16 슬롯 기준 최대 128GB/s 대역폭)
  • GPU와 CPU 간 데이터 전송 속도를 크게 향상
  • 스토리지(NVMe SSD) 및 네트워크 장비와의 연결 속도 증가

4. DGX H100 서버의 활용 분야

(1) AI 모델 학습 및 추론

  • 초거대 AI 모델(GPT, BERT, DALL·E) 학습 최적화
  • DGX H100 서버는 8개의 H100 GPU를 활용하여 분산 학습 수행
  • NVLink 및 NVSwitch를 통해 GPU 간 대규모 데이터 교환 속도를 극대화
  • AI 추론 시 최대 32 PFLOPS 성능을 활용하여 빠른 응답 시간 제공

(2) 고성능 컴퓨팅 (HPC)

  • 물리 시뮬레이션, 기후 예측, 유전체 분석 같은 HPC(High-Performance Computing) 작업에 최적
  • InfiniBand 및 NVLink를 활용한 고속 데이터 전송으로 슈퍼컴퓨터 수준의 성능 제공
  • AI 기반 과학 연구(신약 개발, 양자 시뮬레이션 등) 지원

(3) 금융 및 클라우드 데이터센터

  • 금융 모델링, 실시간 리스크 분석, 초고속 금융 거래(HFT, High-Frequency Trading)
  • BlueField-3 DPU를 활용하여 보안 및 네트워크 성능 향상
  • 클라우드 AI 서비스 제공을 위한 대규모 데이터센터 구축 가능

5. 결론

DGX H100 서버는 최첨단 AI 및 HPC 연산을 위한 초고성능 GPU 서버입니다.

  • 8개의 H100 GPU와 4개의 NVSwitch로 구성된 강력한 AI 컴퓨팅 노드
  • NVLink 및 NVSwitch를 활용하여 GPU 간 3.6TB/s 초고속 데이터 전송 가능
  • BlueField-3 DPU 및 InfiniBand 400Gb/s를 통한 네트워크 최적화
  • Intel Xeon Sapphire Rapids CPU 및 PCIe Gen5 지원으로 최신 하드웨어와 연동 가능
  • AI 학습, 추론, HPC, 금융 분석 등 다양한 워크로드에 적합

즉, DGX H100 서버는 초거대 AI 모델 학습 및 고성능 컴퓨팅 환경에서 최적의 성능을 제공하는 NVIDIA의 최신 플래그십 AI 서버입니다.

 


NVIDIA H100 GPU: 차세대 AI 및 HPC용 최첨단 GPU

H100은 NVIDIA Hopper 아키텍처 기반의 최신 데이터센터용 GPU로,
AI, 딥러닝, 고성능 컴퓨팅(HPC), 클라우드, 금융 연산 등 다양한 분야에서 사용됩니다.

기존의 A100(Ampere 아키텍처) 대비 대폭적인 성능 향상을 제공하며,
FP8 Tensor Core, Transformer Engine, NVLink4, PCIe Gen5 등의 최신 기술을 포함하고 있습니다.


1. NVIDIA H100 GPU의 핵심 사양

스펙 항목H100 SXM5H100 PCIe

아키텍처 Hopper Hopper
프로세스 노드 TSMC 4N (TSMC 4nm 공정) TSMC 4N
트랜지스터 개수 80B (800억 개) 80B
FP8 Tensor Core 성능 ~ 4 PFLOPS ~ 2 PFLOPS
FP16 Tensor Core 성능 2 PFLOPS 1 PFLOPS
FP64 연산 성능 60 TFLOPS 30 TFLOPS
CUDA 코어 개수 16896개 14592개
Tensor 코어 개수 528개 456개
HBM3 메모리 용량 80GB 80GB
메모리 대역폭 3.35TB/s 2TB/s
NVLink 대역폭 900GB/s 600GB/s
인터페이스 NVLink4 + PCIe Gen5 PCIe Gen5
TDP (소비전력) 700W 350W

SXM5 모델이 PCIe 모델보다 더 강력한 성능과 높은 대역폭을 제공하며, 데이터센터에서 멀티-GPU 연결에 최적화되어 있음.


2. H100의 주요 기술 및 특징

(1) Hopper 아키텍처 (Hopper Architecture)

  • Ampere(A100) 대비 대폭적인 성능 향상
  • 4nm(TSMC 4N) 공정으로 전력 효율 최적화
  • 2세대 NVLink4 지원 (900GB/s 대역폭 제공)

(2) Transformer Engine

  • 대규모 AI 모델(예: GPT-4, BERT, DALL·E) 최적화
  • FP8 연산을 지원하여 기존 FP16 대비 2배 높은 성능 제공
  • 딥러닝 트레이닝 및 추론 속도를 획기적으로 향상

(3) FP8 Tensor Core

  • 기존 Ampere(A100)의 FP16 Tensor Core 대비 2배 높은 성능 제공
  • FP8(부동소수점 8비트) 연산을 통해 AI 학습 속도를 극대화
  • 4 PFLOPS의 AI 연산 성능 지원 (SXM5 기준)

(4) HBM3 메모리 (High Bandwidth Memory 3)

  • 80GB의 HBM3(High Bandwidth Memory 3) 탑재
  • 메모리 대역폭 3.35TB/s (A100 대비 50% 이상 증가)
  • 초거대 AI 모델 및 HPC 워크로드에 최적화된 메모리 구조

(5) NVLink4 및 NVSwitch 지원

  • NVLink 4.0을 통해 GPU 간 최대 900GB/s의 데이터 전송 가능
  • NVSwitch와 연결하면 여러 개의 H100 GPU를 초고속 네트워크로 묶을 수 있음
  • 대규모 AI 모델 학습 시 GPU 간 데이터 전송 속도 병목을 해결

(6) PCIe Gen5 지원

  • 최신 PCI Express 5.0 인터페이스 지원
  • 기존 PCIe Gen4 대비 2배 높은 대역폭 제공
  • CPU와의 데이터 전송 속도 증가 (메모리 및 스토리지와 빠른 연결 가능)

(7) DPX(Dynamic Programming eXecution) 가속

  • 동적 프로그래밍 기반의 최적화 문제를 GPU에서 가속
  • 예: 유전자 분석, 생명과학, 경로 탐색, 그래프 알고리즘 가속
  • CPU 대비 최대 40배 빠른 처리 속도 제공

3. H100 vs. A100 성능 비교

항목H100 SXM5A100 SXM4성능 향상

FP8 Tensor Core 4 PFLOPS 지원 안 함 🚀 2배 이상
FP16 Tensor Core 2 PFLOPS 1 PFLOPS 🚀 2배
FP64 연산 성능 60 TFLOPS 20 TFLOPS 🚀 3배
CUDA 코어 개수 16896개 6912개 🚀 2.4배
HBM 메모리 대역폭 3.35TB/s 1.55TB/s 🚀 2배 이상
NVLink 대역폭 900GB/s 600GB/s 🚀 1.5배
TDP(전력 소비) 700W 400W 📈 증가

H100은 A100 대비 AI, HPC 성능이 2~3배 이상 향상되었으며, FP8 지원 및 메모리 대역폭이 크게 증가하여 초거대 AI 모델 학습에 최적화됨.


4. H100의 활용 분야

(1) AI/딥러닝 모델 학습 및 추론

  • GPT-4, BERT, Stable Diffusion 같은 초거대 AI 모델 학습
  • FP8 Tensor Core 및 Transformer Engine을 활용하여 연산 속도 극대화
  • 대규모 언어 모델(LLM) 및 생성형 AI 워크로드에 최적

(2) 고성능 컴퓨팅 (HPC)

  • 양자 시뮬레이션, 기후 예측, 유전자 분석, 물리 시뮬레이션
  • FP64 연산 성능(60 TFLOPS)으로 HPC 워크로드 가속화
  • InfiniBand 및 NVLink를 활용하여 GPU 클러스터 확장 가능

(3) 데이터센터 및 클라우드 AI

  • Amazon AWS, Microsoft Azure, Google Cloud에서 H100 기반 AI 서비스 제공
  • 대규모 데이터 분석 및 금융 모델링 처리 가능
  • 데이터센터 효율성을 극대화하는 고성능 GPU

(4) 금융 및 생명과학

  • 유전자 분석, 신약 개발, 금융 모델링 최적화
  • DPX 기능을 통해 최적화 문제를 CPU보다 최대 40배 빠르게 해결

5. 결론

H100은 AI, 딥러닝, 고성능 컴퓨팅(HPC)을 위한 NVIDIA의 차세대 GPU로,
기존 A100 대비 2~3배 향상된 성능FP8 Tensor Core, HBM3, NVLink4 등의 최신 기술을 갖춘 최고의 데이터센터 GPU입니다.

  • AI 학습 및 HPC 연산 속도를 획기적으로 향상
  • FP8 Tensor Core 및 Transformer Engine으로 초거대 AI 모델 최적화
  • 900GB/s NVLink, 3.35TB/s HBM3 메모리 대역폭으로 대규모 데이터 처리 가능
  • PCIe Gen5 및 DPX 가속을 통해 다양한 최적화 문제를 해결
  • 데이터센터, 클라우드, 금융, 생명과학 등 다양한 산업에서 사용 가능

즉, H100은 AI 및 HPC의 미래를 이끄는 NVIDIA의 가장 강력한 GPU입니다. 

반응형
반응형

 

NVIDIA Hopper 아키텍처에서 사용되는 NVLink4 기반의 NVSwitch의 블록 다이어그램을 보여줍니다.
NVSwitch는 여러 개의 GPU를 초고속으로 연결하여 분산 학습을 최적화하는 중요한 네트워크 인터커넥트이며,
이전 세대보다 개선된 SHARP(SCalable Hierarchical Aggregation and Reduction Protocol)보안 기능이 포함되었습니다.


1. NVSwitch 개요

✅ NVSwitch의 역할

  • NVLink를 통해 다수의 GPU를 연결하여 초고속 데이터 교환을 지원하는 네트워크 스위치
  • H100 GPU 및 AI/HPC 환경에서 여러 GPU 간 통신을 최적화
  • SHARP 연산을 통해 데이터 교환 시 추가 연산을 수행하여 성능 최적화
  • 보안 기능을 강화하여 GPU 간 데이터 보호 가능

2. NVSwitch 블록 구성

🔹 (1) Management 블록

  • Control Processor 및 State/Telemetry Proxy
    • OSFP(Octal Small Form-factor Pluggable) 케이블을 포함한 상태 정보 및 원격 모니터링 처리
    • NVSwitch의 동작을 관리하는 중앙 제어 프로세서 포함
    • AI 및 HPC 환경에서 InfiniBand와 유사한 모니터링 기능 지원
  • Security Processor
    • 데이터 및 칩 구성 보호
    • 외부 공격으로부터 NVSwitch와 연결된 GPU 보호
    • 데이터 무결성을 유지하고 보안을 강화하기 위한 암호화 기능 포함

🔹 (2) Port Logic 블록 (0 ~ 63)

  • NVSwitch는 총 64개의 NVLink 포트를 가짐
  • 각 포트에는 다양한 패킷 처리 및 보안 기능이 포함됨

📌 주요 기능

모듈설명

Routing 패킷의 목적지 결정 및 경로 설정
Classification & Packet Transforms 패킷을 분류하고 적절한 변환 수행
Error Check & Statistics Collection NVLink 네트워크 오류 감지 및 통계 수집
Transaction Tracking & Packet Transforms 데이터 트랜잭션을 추적하고 패킷을 변환하여 성능 최적화
SHARP Controller AllReduce 및 기타 연산을 최적화하는 SHARP 연산 관리
SHARP ALU (Hopper) Hopper 아키텍처에 최적화된 연산 장치 포함 (논리 연산, 합 연산 등 지원)
SHARP Scratch SRAM SHARP 연산을 위한 임시 메모리 저장 공간

📌 주요 특징

  • SHARP 연산을 통해 데이터 전송 중 일부 계산을 NVSwitch 내부에서 수행
  • XBAR(교차 연결) 대역폭을 증가시켜 SHARP 연산 관련 트래픽을 처리할 수 있도록 개선됨

🔹 (3) NVLink 블록 (0 ~ 63)

  • 각 NVLink 포트에는 PHY, Data Link(DL), Transport Layer(TL) 블록 포함
  • 총 64개의 NVLink 포트가 존재하며, 각 포트가 NVSwitch를 통해 GPU와 연결됨
  • 이전 세대보다 향상된 데이터 처리 능력과 낮은 레이턴시 제공

3. 새로운 SHARP 블록 (New SHARP Blocks)

SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)은 AllReduce 같은 집계 연산을 GPU 대신 NVSwitch에서 직접 수행하여, GPU 간 통신 병목을 줄이는 기술입니다.

(1) SHARP ALU (Hopper)

  • Hopper GPU와 매칭된 연산 유닛 포함
  • 논리 연산, min/max 연산, 덧셈 연산 등을 지원
  • 다양한 데이터 형식 지원: 정수(S/U Integers), FP16, FP32, FP64, BF16 등
  • SHARP 컨트롤러가 최대 128개의 SHARP 그룹을 병렬로 관리 가능
  • XBAR 대역폭이 증가하여 SHARP 연산을 처리할 수 있도록 개선됨

(2) SHARP의 성능 향상

  • 기존 NVSwitch보다 더 많은 SHARP 연산을 처리할 수 있도록 병렬 처리 기능 증가
  • AllReduce 성능 최적화로 GPU 간 데이터 이동 감소
  • 딥러닝 학습 시 GPU 간 그래디언트 동기화(AllReduce) 속도 개선

4. 새로운 NVLink Network 블록 (New NVLink Network Blocks)

(1) 보안 기능 강화

  • Security Processor가 데이터 및 칩 구성을 보호
  • 외부 공격으로부터 NVSwitch와 연결된 GPU를 보호
  • TLS, 암호화, 메모리 보호 기능 제공

(2) 포트 격리 (Partitioning)

  • 각 포트를 독립적인 NVLink 네트워크 서브셋으로 분리 가능
  • 서로 다른 GPU 그룹 간 데이터를 분리하여, 멀티 테넌트 환경에서 보안성 증가
  • 예: 한 NVSwitch에서 서로 다른 연구팀이 GPU를 공유할 때 보안 유지 가능

(3) OSFP 케이블 지원

  • NVSwitch는 OSFP(Octal Small Form-factor Pluggable) 케이블을 지원하여 확장성을 증가
  • H100 GPU와의 연결을 최적화하고, NVSwitch 간 상호 연결을 위한 고속 데이터 경로 제공

(4) InfiniBand 스타일 모니터링 지원

  • NVSwitch는 InfiniBand에서 사용되는 원격 관리 및 모니터링 기능을 지원
  • 데이터 센터에서 NVSwitch 및 NVLink 트래픽을 원격으로 모니터링 가능
  • GPU 간 통신 병목을 실시간으로 감지하여 최적화 가능

5. 결론

NVIDIA의 NVLink4 NVSwitch는 기존 NVSwitch 대비 SHARP 연산을 강화하고, 보안과 관리 기능을 대폭 향상한 차세대 GPU 네트워크 인터커넥트입니다.

  • 64개의 NVLink 포트를 제공하여 여러 GPU 간 초고속 데이터 전송 지원
  • SHARP ALU를 포함하여 GPU 간 AllReduce 및 데이터 연산을 직접 처리
  • Security Processor를 포함하여 데이터 보호 및 보안 기능 강화
  • 각 포트를 독립적으로 격리하여, 멀티 테넌트 환경에서도 GPU 공유 가능
  • OSFP 케이블 및 InfiniBand 스타일 원격 모니터링 기능 추가

즉, NVSwitch는 단순한 GPU 연결 장치가 아니라, AI 및 HPC 환경에서 GPU 간 데이터 이동을 최적화하고 보안과 확장성을 고려한 차세대 네트워크 스위치입니다. 

 


InfiniBand: 고성능 데이터 센터 및 HPC 네트워크 기술

InfiniBand(IB고성능 컴퓨팅(HPC), 데이터 센터, AI/딥러닝, 금융 컴퓨팅 환경에서 사용되는 초고속 네트워크 인터커넥트 기술입니다.
기존의 이더넷보다 더 낮은 지연 시간(Latency)과 높은 대역폭(Bandwidth)을 제공하며,
RDMA(Remote Direct Memory Access)를 지원하여 CPU 개입 없이 직접 데이터 전송 가능합니다.


1. InfiniBand의 주요 특징

(1) 초고속 대역폭 (High Bandwidth)

  • 현재 InfiniBand HDR(High Data Rate) 및 NDR(Next Data Rate) 기술은 최대 400Gbps 이상 지원
  • 기존의 이더넷(100G/200G)보다 더 높은 속도를 제공하여 HPC 및 AI 학습에 최적

(2) 초저지연 (Ultra-low Latency)

  • 1μs(마이크로초) 미만의 초저지연을 제공
  • 일반적인 이더넷이 10~100μs 정도의 레이턴시를 가지는 것과 비교하면 월등히 빠름
  • 데이터 전송 속도가 중요한 AI 훈련, 금융 거래, 슈퍼컴퓨팅 등에 필수적

(3) RDMA(Remote Direct Memory Access) 지원

  • RDMA를 통해 CPU 개입 없이 GPU 또는 메모리 간 직접 데이터 전송 가능
  • CPU가 개입하는 기존 TCP/IP 네트워크보다 훨씬 낮은 레이턴시를 제공
  • GPU 간 데이터 공유 속도가 빨라져 AI/딥러닝 학습 시간 단축

(4) 확장성 (Scalability)

  • InfiniBand는 HPC 및 데이터센터 환경에서 수천~수만 개의 GPU, CPU 노드를 연결 가능
  • Fat-Tree, Dragonfly 같은 네트워크 토폴로지를 통해 확장성 증가
  • NVLink와 달리 서버 간 장거리 연결도 가능

2. InfiniBand와 기존 네트워크(Ethernet) 비교

              항목                                       InfiniBand                                                                      Ethernet

대역폭 최대 400Gbps (NDR) 100~200Gbps
지연 시간 (Latency) 1μs 미만 (Ultra-low Latency) 10~100μs
데이터 전송 방식 RDMA 기반 직접 메모리 접근 TCP/IP 기반 패킷 전송
CPU 개입 여부 없음 (Direct Memory Access) 있음 (CPU가 데이터 복사 및 전송 처리)
확장성 수천~수만 개의 노드 연결 가능 주로 서버 간 연결
적용 분야 HPC, AI/딥러닝, 금융 거래, 클라우드 데이터센터 일반적인 IT 네트워크, 웹 서비스

즉, InfiniBand는 데이터 전송 속도와 지연 시간이 중요한 HPC, AI, 금융 거래 환경에서 사용되며, 기존 이더넷보다 훨씬 빠른 성능을 제공합니다.


3. InfiniBand의 네트워크 구조

InfiniBand는 기존의 이더넷이나 NVLink와는 다른 방식으로 네트워크를 구성합니다.

(1) 기본 구성 요소

구성 요소설명

Host Channel Adapter (HCA) InfiniBand를 지원하는 서버 또는 GPU에 장착되는 네트워크 인터페이스 카드(NIC)
InfiniBand Switch InfiniBand 패브릭(Fabric) 네트워크를 구성하는 고속 스위치
Subnet Manager (SM) 네트워크 트래픽을 관리하고 노드를 구성하는 소프트웨어
Link Layer 데이터를 송수신하는 물리적 인터페이스 (QSFP, OSFP 등 사용)

(2) InfiniBand 네트워크 토폴로지

  • Fat-Tree 토폴로지
    • 데이터 센터에서 가장 일반적인 구조
    • 여러 개의 스위치를 계층적으로 연결하여 병목을 최소화
  • Dragonfly 토폴로지
    • 대규모 AI 및 슈퍼컴퓨팅 시스템에서 사용
    • 여러 개의 노드를 고속으로 연결하여 지연 시간 감소

이러한 네트워크 구조 덕분에 InfiniBand는 AI 및 HPC 환경에서 효율적인 데이터 전송을 지원합니다.


4. InfiniBand와 NVLink의 차이점

항목InfiniBandNVLink

적용 범위 서버 간(GPU-서버, GPU-GPU, 서버-스토리지 간 통신) 주로 GPU 간 직접 연결
대역폭 최대 400Gbps (NDR) 최대 900GB/s (NVLink4)
지연 시간 1μs 미만 10ns 미만 (NVLink가 더 빠름)
전송 방식 RDMA 기반 네트워크 메모리 주소 기반 직접 연결
연결 방식 네트워크 스위치를 통한 연결 NVSwitch를 통한 직접 연결
확장성 수천 개 이상의 노드 연결 가능 다수의 GPU 연결 가능하지만 서버 간 연결은 불가능

InfiniBand는 서버 간 데이터 교환을 위한 네트워크이며, NVLink는 같은 서버 내 GPU 간 초고속 연결을 위한 인터커넥트입니다.
최상의 성능을 위해 AI 및 HPC 환경에서는 InfiniBand와 NVLink를 함께 사용합니다.


5. InfiniBand의 활용 사례

(1) AI/딥러닝 (Deep Learning)

  • NVIDIA DGX 시스템과 같은 AI 클러스터에서 GPU 간 데이터 공유
  • AI 모델 학습 시 RDMA를 통해 CPU 개입 없이 GPU 간 직접 데이터 이동 가능
  • NVLink와 함께 사용하여 GPU-서버 간 및 GPU-GPU 간 통신을 최적화

(2) 슈퍼컴퓨팅 (Supercomputing)

  • 세계적인 슈퍼컴퓨터에서 InfiniBand 사용 (예: Summit, Fugaku 등)
  • 대규모 병렬 연산을 수행하는 HPC 환경에서 필수적인 네트워크

(3) 금융 거래 (High-Frequency Trading)

  • 초저지연(1μs 미만)의 특성 때문에 고빈도 금융 거래(HFT, High-Frequency Trading)에 사용
  • 주식 시장의 실시간 거래 분석 및 알고리즘 트레이딩 최적화

(4) 클라우드 데이터센터

  • Microsoft Azure, AWS, Google Cloud 같은 대규모 데이터센터에서 InfiniBand 사용
  • 높은 대역폭과 낮은 지연 시간을 필요로 하는 워크로드에 최적화

6. 결론

InfiniBand는 AI 및 HPC 환경에서 필수적인 초고속 네트워크

  • 이더넷보다 훨씬 높은 대역폭과 낮은 레이턴시 제공 (최대 400Gbps, 1μs 미만)
  • RDMA 지원으로 CPU 개입 없이 메모리 간 직접 데이터 전송 가능
  • HPC, AI, 금융 거래, 클라우드 데이터센터에서 폭넓게 사용됨
  • NVLink와 함께 사용하여 AI 및 슈퍼컴퓨팅 시스템에서 최적의 성능 제공

즉, InfiniBand는 데이터 전송 속도와 확장성이 중요한 AI 및 HPC 환경에서 필수적인 네트워크 기술로, NVLink와 함께 사용하면 더욱 강력한 성능을 발휘할 수 있습니다. 🚀

반응형
반응형

 

NVLink Network가 기존의 전통적인 네트워킹(Stack)과 어떻게 매핑되는지를 보여줍니다.
즉, 기존의 TCP/IP 기반 네트워크 모델(OSI 7 Layer)과 비교하여 NVLink Network가 GPU에 최적화된 네트워크 계층을 어떻게 구현하는지를 설명하는 것입니다.


1. 표의 핵심 의미

  • 기존 네트워크(이더넷, TCP/IP 기반)와 비교하여 NVLink Network가 어떻게 대응되는지 설명
  • NVLink Network는 GPU 내부 및 GPU 간의 데이터 전송을 최적화하기 위해 독자적인 네트워크 계층을 사용
  • 기존 네트워크 모델처럼 물리 계층, 데이터 링크 계층, 전송 계층 등이 존재하지만, GPU 환경에 맞게 최적화됨
  • RDMA, Collectives Off-Load 같은 기능이 NIC에서 수행되던 것처럼, NVSwitch에서 GPU 내부적으로 처리됨

2. NVLink Network와 기존 네트워크 스택 비교 분석

개념 (Concept)전통적인 네트워크 (Traditional Example)NVLink Network설명

Physical Layer 400G 전기/광 미디어 Custom-FW OSFP 물리적인 데이터 전송을 담당하는 계층. NVLink는 OSFP(Octal Small Form-factor Pluggable) 커넥터를 사용하여 직접 연결
Data Link Layer Ethernet NVLink 커스텀 온칩 HW & FW NVLink는 이더넷 대신 전용 하드웨어와 펌웨어를 사용하여 GPU 간 데이터 전송을 최적화
Network Layer IP (Internet Protocol) NVLink Network Addressing & Management 기존 IP 기반이 아닌 NVLink Network에서 자체적인 주소 체계를 사용하여 GPU 간 통신
Transport Layer TCP NVLink 커스텀 온칩 HW & FW TCP 대신 NVLink 전용 하드웨어/펌웨어를 사용하여 신뢰성 있는 데이터 전송을 처리
Session Layer Sockets SHARP groups, CUDA export of Network addresses 기존 소켓(Socket) 대신 SHARP(Scalable Hierarchical Aggregation and Reduction Protocol) 그룹을 활용하여 데이터 공유
Presentation Layer TSL/SSL (데이터 암호화) NCCL, NVSHMEM 전통적인 보안 계층 대신 GPU 최적화된 라이브러리(NCCL, NVSHMEM)를 통해 데이터 공유
Application Layer HTTP/FTP AI 프레임워크 또는 사용자 애플리케이션 GPU 기반 AI 프레임워크(TensorFlow, PyTorch 등)와 직접 통합 가능
NIC PCIe NIC (카드 or 칩) GPU 및 NVSwitch에 내장된 기능 NVLink Network는 별도의 NIC 없이 GPU 및 NVSwitch에 네트워크 기능을 내장
RDMA Off-Load NIC Off-Load Engine GPU 내부 Copy Engine NVLink에서는 RDMA(Remote Direct Memory Access) 기능을 GPU 내부에서 직접 수행
Collectives Off-Load NIC/Switch Off-Load Engine NVSwitch 내장 SHARP 엔진 AllReduce 같은 집계 연산을 NVSwitch에서 직접 수행
Security Off-Load NIC 보안 기능 GPU 내부 암호화 & "TLB" 방화벽 보안을 위해 GPU 내부에서 암호화 및 TLB(Translation Lookaside Buffer) 기반 방화벽 적용
Media Control NIC 케이블 어댑터 NVSwitch 내부 OSFP 케이블 컨트롤러 기존 네트워크처럼 케이블을 통한 물리적 연결을 NVSwitch에서 직접 관리

3. NVLink Network가 기존 네트워크와 다른 점

(1) 독자적인 네트워크 스택 사용

  • 기존 네트워크(TCP/IP) 기반이 아닌, GPU 간 초고속 데이터 전송을 위한 NVLink 전용 스택을 사용
  • NVSwitch를 중심으로 데이터 전송을 최적화

(2) NIC가 필요 없음

  • 기존 네트워크에서는 PCIe NIC(네트워크 카드)를 사용해야 했지만,
  • NVLink Network는 GPU 및 NVSwitch에 네트워크 기능을 내장하여 별도 NIC가 필요 없음

(3) RDMA, Collectives Off-Load 같은 기능을 NVSwitch에서 직접 수행

  • 기존 네트워크에서는 NIC가 RDMA 및 데이터 집계 연산(Collectives Off-Load)을 처리해야 했음
  • NVLink Network는 이러한 연산을 NVSwitch에서 직접 수행하여 GPU 성능 최적화

(4) 보안 기능 내장

  • 기존 TCP/IP 네트워크에서는 SSL/TLS 같은 보안 계층이 필요했지만,
  • NVLink Network는 GPU 내부에서 암호화 및 TLB 기반 방화벽을 제공하여 보안성 강화

4. NVLink Network의 의미

이 표에서 강조하는 핵심 메시지는 NVLink Network가 단순한 GPU 간 연결이 아니라, 완전한 네트워크 아키텍처를 제공한다는 것입니다.

즉, NVLink Network는 기존 네트워크(NIC, TCP/IP)와 비교할 수 있는 GPU 최적화 네트워크이며, 기존 이더넷 및 PCIe 네트워크보다 훨씬 높은 성능과 낮은 지연시간을 제공할 수 있도록 설계되었습니다.

✅ 요약하면:

  • NVLink Network는 기존 TCP/IP 네트워크와 유사한 계층을 가지지만, 모든 기능이 GPU에 최적화됨
  • NVSwitch를 활용하여 GPU 간 데이터를 빠르게 교환하며, 기존 네트워크의 병목 문제를 해결
  • NIC 없이 GPU와 NVSwitch에 직접 네트워크 기능을 내장하여, 별도의 네트워크 카드 없이 고속 데이터 교환 가능
  • RDMA, Collectives Off-Load 같은 연산을 NVSwitch에서 직접 처리하여, CPU 개입 없이 고속 데이터 처리 가능

👉 즉, NVLink Network는 기존의 TCP/IP 기반 네트워크를 GPU 환경에 최적화한 형태로, AI 및 고성능 컴퓨팅(HPC)에서 최대한의 성능을 제공하기 위해 설계되었습니다. 🚀

반응형

+ Recent posts