반응형
반응형
반응형

DGX H100 SuperPOD는 대규모 AI 및 고성능 컴퓨팅(HPC) 클러스터를 위한 초고속 NVLink 네트워크 스위치를 포함하고 있습니다.
이 NVLink Switch는 128개의 NVLink4 포트를 지원하며, 최대 6.4TB/s의 양방향 대역폭을 제공하여
여러 개의 DGX H100 시스템을 초고속 네트워크로 연결하는 핵심 역할을 합니다.


1. DGX H100 NVLink Switch 주요 사양

항목설명

Form Factor 1U(1 Rack Unit) 19-inch 크기의 스위치
NVSwitch 칩 개수 2개의 NVLink4 NVSwitch 칩 사용
NVLink 포트 개수 128개의 NVLink4 포트 지원
OSFP 슬롯 (Cages) 32개의 OSFP(Octal Small Form-factor Pluggable) 슬롯 제공
최대 대역폭 6.4TB/s (Full-Duplex)
관리 기능 Out-of-band 관리 지원
케이블 지원 Passive Copper, Active Copper, Optical OSFP 지원 (Custom Firmware 사용 가능)

2. 주요 용어 및 기술 설명

(1) 1U 19-inch Form Factor

  • 1U(1 Rack Unit)는 데이터센터에서 표준으로 사용되는 서버 및 네트워크 장비의 크기
  • 1U = 약 1.75인치(4.45cm) 높이
  • 19-inch는 표준 서버 랙 크기
  • 즉, 이 NVLink 스위치는 일반적인 데이터센터 랙에 쉽게 설치할 수 있도록 설계됨
  • InfiniBand 스위치 아키텍처를 기반으로 설계되어 네트워크 최적화됨

(2) Dual NVLink4 NVSwitch Chips

  • 2개의 NVSwitch 4.0 칩을 사용하여 GPU 간 NVLink 네트워크 최적화
  • 각 NVSwitch 칩은 NVLink 포트 간 초고속 데이터 교환을 지원
  • NVSwitch 칩이 많을수록 더 많은 GPU를 연결할 수 있음
  • NVSwitch는 AI 및 HPC 워크로드에서 GPU 간 데이터 공유 속도를 크게 향상

(3) 128 NVLink4 Ports

  • 총 128개의 NVLink4 포트를 제공
  • 각 포트는 최대 50GB/s (양방향 100GB/s) 속도를 지원
  • 다수의 DGX H100 서버를 연결하여 초고속 AI 클러스터를 구축 가능
  • NVSwitch를 활용하여 GPU 간 연결을 중앙 집중식으로 처리

(4) 32 OSFP Cages

  • OSFP(Octal Small Form-factor Pluggable) 슬롯은 광(Optical) 또는 구리(Copper) 케이블을 연결하는 포트
  • NVLink 네트워크 확장을 위해 OSFP 포트를 사용하여 DGX 서버를 연결 가능
  • 일반적인 SFP(10G, 25G) 또는 QSFP(40G, 100G)보다 더 높은 속도를 지원하는 차세대 폼팩터
  • NVLink4 및 InfiniBand 네트워크 연결을 위한 광 네트워크 트랜시버 장착 가능

(5) 6.4 TB/s Full-Duplex Bandwidth

  • 총 6.4TB/s(양방향) NVLink 네트워크 대역폭 제공
  • Full-Duplex란 양방향 데이터 전송을 동시에 수행할 수 있음을 의미
  • 단일 서버에서 NVLink를 사용할 때보다 여러 개의 서버를 연결할 때 훨씬 높은 데이터 처리량 제공
  • AI 모델 학습 시 GPU 간 데이터 공유 속도를 크게 향상하여 모델 학습 시간을 단축

(6) Managed Switch with Out-of-Band Management

  • NVLink Switch는 관리형 스위치(Managed Switch)로 작동
  • Out-of-Band(OOB) 관리는 별도의 네트워크 포트를 통해 원격으로 장비를 관리하는 기능
  • 관리자는 NVLink 네트워크 상태를 모니터링하고, 트래픽을 최적화하며, 장애 발생 시 복구 가능
  • HPC 및 AI 클러스터 운영 시 필수적인 기능

(7) Passive Copper, Active Copper, Optical OSFP Cables 지원

  • Passive Copper: 짧은 거리(약 1~3m)에서 전력 소모 없이 NVLink 네트워크 연결
  • Active Copper: 중간 거리(3~10m)에서 신호 증폭을 통해 NVLink 연결 안정화
  • Optical OSFP: 장거리(10m 이상)에서 광케이블을 사용하여 NVLink 네트워크 확장

NVLink 네트워크의 유연성을 높이고, 데이터센터 환경에 맞게 최적의 케이블을 선택하여 사용 가능


3. NVLink Switch의 역할과 장점

(1) AI 및 HPC 워크로드 가속

  • NVSwitch를 통해 GPU 간 데이터 전송을 최적화하여 AI 모델 학습 속도 향상
  • 대용량 데이터 공유가 필요한 HPC(고성능 컴퓨팅) 워크로드에 적합
  • AI 훈련 시 AllReduce 연산 최적화하여 GPU 간 데이터 동기화 속도 증가

(2) 다수의 DGX H100 서버 연결 가능

  • 128 NVLink 포트와 32 OSFP 슬롯을 활용하여 여러 개의 DGX 서버를 연결 가능
  • 단일 서버의 NVLink 연결을 넘어, 대규모 AI 클러스터 구축 가능
  • 데이터센터 및 슈퍼컴퓨터에서 사용 가능

(3) NVLink 및 InfiniBand를 동시에 활용 가능

  • OSFP 포트를 통해 InfiniBand 네트워크와 연동 가능
  • NVLink 네트워크를 통해 GPU 간 데이터 전송 최적화, InfiniBand로 서버 간 데이터 교환
  • 데이터센터 네트워크 구성에 유연성 제공

(4) 효율적인 데이터센터 운영 지원

  • Out-of-Band 관리를 통해 원격으로 NVLink 네트워크 상태 모니터링 및 장애 복구 가능
  • 패시브 및 액티브 구리 케이블, 광 케이블 지원으로 다양한 데이터센터 환경에 맞게 구성 가능
  • 초거대 AI 모델 학습을 위한 고성능 GPU 클러스터 구축 가능

4. 결론

DGX H100 SUPERPOD의 NVLink Switch는 초고속 AI 및 HPC 네트워크를 위한 핵심 인프라

  • 128개의 NVLink4 포트와 32 OSFP 슬롯을 제공하여 DGX 서버 간 고속 네트워크 구성 가능
  • 최대 6.4TB/s 대역폭을 지원하여 GPU 간 데이터 공유 속도를 극대화
  • NVSwitch 및 OSFP를 활용하여 대규모 AI 클러스터를 손쉽게 구축
  • Out-of-Band 관리 및 다양한 케이블 지원으로 데이터센터 운영 최적화

즉, 이 NVLink Switch는 DGX H100 SuperPOD의 GPU 클러스터에서 초고속 데이터 교환을 지원하는 핵심 인프라입니다.

반응형
반응형

전통적인 NVLink와 새로운 NVLink Network의 차이점을 설명하는 개념도입니다.
특히 Hopper 아키텍처에서 새롭게 도입된 NVLink Network의 변화된 동작 방식과 장점을 시각적으로 표현하고 있습니다.


1. NVLink Network 개요

기존 NVLink 방식은 공유된 주소 공간을 사용하여 GPU 간 직접 통신을 수행하지만, 새로운 NVLink Network는 독립적인 네트워크 주소 공간을 사용하여 더욱 유연하고 안전한 데이터 전송을 지원합니다.

✅ 기존 NVLink (좌측)

  • Source GPU에서 Destination GPU로 직접 데이터 전송
  • GPU MMU (Memory Management Unit)를 사용하여 GPU의 물리 주소를 기반으로 통신
  • 주소 공간을 공유하기 때문에 모든 GPU가 하나의 주소 공간을 사용 (Shared Address Space)
  • 부팅 시 NVLink 연결이 설정되며, 실행 중에는 변경 불가

✅ 새로운 NVLink Network (우측)

  • NVLink Network Switch를 통해 GPU 간 네트워크 주소를 기반으로 통신
  • 각 GPU가 독립적인 네트워크 주소 공간을 가짐 (Independent Address Spaces)
  • Link TLB (Translation Lookaside Buffer)를 사용하여 네트워크 주소를 GPU의 물리 주소로 변환
  • 런타임(Runtime) API를 통해 동적으로 연결 설정 가능
  • 각 GPU 간 논리적 격리가 가능하여 보안성과 유연성이 향상됨

2. NVLink와 NVLink Network의 주요 차이점

아래 표는 기존 NVLink와 새로운 NVLink Network의 핵심적인 차이점을 비교한 것입니다.

특징기존 NVLinkNVLink Network

주소 공간 (Address Spaces) 1개 (공유) N개 (독립적)
주소 지정 방식 (Request Addressing) GPU 물리 주소 사용 네트워크 주소 사용
연결 설정 (Connection Setup) 부팅 시 설정 실행 중 API 호출 가능
격리 (Isolation) 없음 있음

3. NVLink Network의 주요 개선점

(1) 독립적인 주소 공간으로 더욱 유연한 네트워크 설계

  • 기존 NVLink는 모든 GPU가 동일한 주소 공간을 공유하여 관리 복잡성이 증가
  • 새로운 NVLink Network는 각 GPU가 독립적인 네트워크 주소를 가지므로, 더욱 유연하고 확장성이 뛰어남

(2) NVLink Network Switch를 통한 네트워크 기반 통신

  • 기존 NVLink는 GPU 간 직접 연결을 기반으로 했지만,
  • 새로운 NVLink Network는 NVLink Network Switch를 통해 네트워크 주소 기반으로 라우팅 가능

(3) 동적 연결 설정 (Runtime API)

  • 기존 NVLink는 부팅 시 연결이 설정되고 이후 변경 불가
  • NVLink Network는 소프트웨어 API를 통해 실행 중에도 유연하게 연결 설정 가능

(4) 보안성과 격리(ISO) 기능 추가

  • 기존 NVLink는 모든 GPU가 공유된 주소 공간을 사용하므로 보안 이슈 발생 가능
  • NVLink Network는 각 GPU가 독립적인 주소 공간을 가지므로, 보안 및 데이터 격리 가능

4. 결론

  • Hopper 기반 NVLink Network는 기존 NVLink의 한계를 극복하여, 더욱 유연한 GPU 네트워크를 제공
  • 독립적인 주소 공간을 사용하여 GPU 간 논리적 격리 및 보안성을 강화
  • NVLink Network Switch를 통해 더욱 효율적인 데이터 전송 및 확장성 제공
  • 런타임 API를 사용하여 실행 중에도 유연하게 연결을 설정할 수 있어 AI 및 HPC 환경에서 더욱 강력한 활용 가능

👉 즉, 새로운 NVLink Network는 단순한 GPU 간 직접 연결에서 벗어나, 네트워크 기반의 동적이고 확장 가능한 연결을 지원하는 차세대 기술로 발전했습니다. 🚀

 


Hopper란 무엇인가?

여기서 HopperNVIDIA의 차세대 데이터센터 및 AI 가속기용 GPU 아키텍처를 의미합니다.
Ampere(A100) 아키텍처의 후속 모델로, H100 GPU에서 처음 도입된 최신 아키텍처입니다.

Hopper 아키텍처는 기존 GPU 설계와 비교해 더 높은 대역폭, 확장성, 보안성을 제공하는 특징을 가지고 있습니다.
특히, NVLink Network라는 새로운 네트워크 방식을 지원하여 GPU 간 데이터 전송을 더욱 효율적으로 처리할 수 있습니다.


1. Hopper에서 NVLink Network가 중요한 이유

Hopper 아키텍처에서 NVLink Network를 도입한 이유는 기존 NVLink의 한계를 극복하고, 더욱 확장 가능한 GPU 네트워크를 구축하기 위해서입니다.

기존 Ampere(A100) NVLink는 GPU 간 물리 주소 기반의 직접 연결을 사용했지만,
Hopper에서는 네트워크 주소 기반의 동적 연결 방식(NVLink Network)을 사용하여 확장성과 보안성을 강화했습니다.

(1) 기존 NVLink (Ampere A100) 방식의 한계

  • 모든 GPU가 공유된 주소 공간을 사용해야 함
  • GPU 간 직접 연결만 가능하여 네트워크 확장이 어려움
  • 부팅 시 연결이 고정되므로, 실행 중 변경 불가
  • 보안 및 격리(Isolation) 기능 없음

(2) Hopper NVLink Network의 개선점

  • 각 GPU가 독립적인 네트워크 주소 공간을 가지므로 확장성 증가
  • NVLink Network Switch를 통해 네트워크 라우팅 가능
  • 런타임 API 호출을 통해 실행 중에도 연결 변경 가능
  • 보안 및 데이터 격리 기능 추가

2. Hopper NVLink Network의 동작 방식

Hopper 아키텍처에서는 NVLink Network를 통해 GPU 간 통신을 네트워크 방식으로 처리합니다.

  • GPU는 기존처럼 NVLink를 사용하지만, NVLink Network Switch를 통해 연결됨
  • 각 GPU는 네트워크 주소를 기반으로 데이터를 요청하며, 네트워크 스위치가 이를 적절한 GPU로 전달
  • "Link TLB (Translation Lookaside Buffer)"를 사용하여 네트워크 주소를 GPU의 물리 주소로 변환
  • 이전 세대와 달리, 실행 중에도 API를 통해 연결을 동적으로 변경 가능

3. Hopper와 NVLink Network의 의미

Hopper 아키텍처에서 NVLink Network를 도입한 것은, 기존의 고정된 GPU 간 직접 연결 방식에서 탈피하여, 네트워크 기반의 유연한 연결을 제공한다는 점에서 중요한 변화입니다.

 

    구분                                            Ampere (A100) NVLink                                 Hopper (H100) NVLink Network

연결 방식 직접 연결(Direct) 네트워크 기반(Networked)
주소 체계 GPU 물리 주소 사용 네트워크 주소 사용
확장성 제한적(고정 연결) 높은 확장성(동적 연결)
격리 기능 없음 있음
연결 변경 부팅 시 고정 실행 중 API로 변경 가능

4. 결론

  • Hopper는 기존 Ampere 대비 확장성이 높은 NVLink Network를 지원하는 최신 아키텍처
  • 기존 NVLink는 GPU 간 직접 연결만 지원했지만, Hopper NVLink Network는 네트워크 주소 기반으로 동작
  • 이를 통해 GPU 간 연결을 더 유연하게 구성할 수 있으며, 실행 중에도 동적으로 변경 가능
  • 보안(격리 기능)과 확장성을 고려한 설계로, AI 및 데이터센터 환경에서 더욱 강력한 성능 제공

👉 즉, Hopper는 단순한 차세대 GPU가 아니라, AI 및 HPC(고성능 컴퓨팅)를 위한 새로운 네트워크 아키텍처를 포함한 GPU 플랫폼으로 이해해야 합니다. 🚀


Hopper 기반의 NVLink Network는 기존의 NoC(Network-on-Chip) 개념과 유사한 방식으로 GPU 간 통신을 처리합니다.

기존의 Ampere(A100) NVLink는 단순한 포인트-투-포인트(Direct) 연결 방식이었지만,
Hopper(H100) NVLink Network는 네트워크 기반의 동적 라우팅을 지원하여 NoC와 비슷한 동작 방식을 갖게 되었습니다.


1. NVLink Network와 NoC(Network-on-Chip)의 공통점

(1) 패킷 기반 네트워크 구조

  • 기존 NVLink는 물리 주소 기반의 메모리 전송 방식을 사용했지만,
  • NVLink Network는 NoC처럼 패킷 기반의 데이터 전송 방식을 채택
    → GPU 간 통신이 기존보다 훨씬 유연해짐

(2) 네트워크 스위치를 통한 데이터 라우팅

  • NoC에서는 여러 개의 코어(Processing Elements, PE)가 라우터를 통해 통신
  • NVLink Network에서는 NVLink Network Switch가 각 GPU의 데이터 흐름을 관리
    → 물리적 연결에 의존하지 않고 동적으로 경로 설정 가능

(3) 독립적인 주소 공간

  • 기존 NVLink는 GPU 간 공유된 주소 공간을 사용하여 통신
  • NVLink Network는 각 GPU가 독립적인 네트워크 주소를 가지므로, NoC처럼 독립적인 주소 공간에서 동작 가능
    → GPU 간 데이터 보안 및 격리(Isolation) 기능 추가

(4) 실행 중 동적 경로 변경 가능

  • 기존 NVLink는 부팅 시 연결이 고정되었지만,
  • NVLink Network는 소프트웨어 API를 사용하여 런타임 중 연결을 변경 가능
    NoC의 다이나믹 라우팅과 유사한 개념

2. NVLink Network vs. NoC (Network-on-Chip) 차이점

항목NVLink Network (Hopper)NoC (Network-on-Chip)

적용 대상 멀티-GPU 네트워크 (다중 칩) 단일 칩 내 CPU/GPU 코어 간 네트워크
네트워크 주소 방식 독립적인 네트워크 주소 기반 NoC 내부 주소 기반
라우팅 방식 NVLink Network Switch를 사용하여 동적 라우팅 NoC 라우터를 사용하여 칩 내부 통신
통신 범위 GPU 간 장거리 데이터 교환 최적화 칩 내부에서 매우 빠른 통신 지원
격리 및 보안 각 GPU 간 격리(Isolation) 기능 추가 칩 내부 데이터 교환이므로 보안은 덜 중요

3. NVLink Network가 NoC와 유사한 이유

🔹 기존 NVLink의 한계점

  • 기존 NVLink는 확장성이 부족하고, GPU 간 네트워크가 정적(Static)으로 설정됨
  • 부팅 시 연결이 고정되므로, 실행 중 유연하게 변경할 수 없음
  • 모든 GPU가 공유된 주소 공간을 사용하여 보안성 및 격리 기능이 부족함

🔹 NVLink Network의 개선점

  • NoC처럼 독립적인 네트워크 주소를 사용하여 각 GPU의 데이터를 격리할 수 있음
  • NVLink Network Switch를 통한 동적 라우팅으로 GPU 간 확장성 증가
  • 소프트웨어 API를 사용하여 실행 중 GPU 간 경로를 변경할 수 있어 더욱 유연함
  • 보안 기능이 추가되어 데이터센터 및 클라우드 환경에서도 안정적인 멀티-GPU 학습 가능

4. 결론

  • Hopper 기반 NVLink Network는 기존 NVLink보다 NoC와 유사한 개념으로 발전
  • 네트워크 기반의 주소 라우팅을 도입하여 확장성과 유연성이 크게 증가
  • NVLink Network Switch가 NoC의 라우터 역할을 수행하여 동적 데이터 전송 가능
  • 멀티-GPU 시스템에서 NoC와 같은 패킷 기반 네트워크 방식을 도입하여 확장성과 보안성을 강화

👉 즉, NVLink Network는 NoC의 개념을 GPU 간 통신으로 확장한 형태이며, 이를 통해 대규모 AI 학습 및 HPC 환경에서 더욱 강력한 성능을 제공할 수 있습니다. 🚀

반응형

+ Recent posts