반응형

전통적인 NVLink와 새로운 NVLink Network의 차이점을 설명하는 개념도입니다.
특히 Hopper 아키텍처에서 새롭게 도입된 NVLink Network의 변화된 동작 방식과 장점을 시각적으로 표현하고 있습니다.


1. NVLink Network 개요

기존 NVLink 방식은 공유된 주소 공간을 사용하여 GPU 간 직접 통신을 수행하지만, 새로운 NVLink Network는 독립적인 네트워크 주소 공간을 사용하여 더욱 유연하고 안전한 데이터 전송을 지원합니다.

✅ 기존 NVLink (좌측)

  • Source GPU에서 Destination GPU로 직접 데이터 전송
  • GPU MMU (Memory Management Unit)를 사용하여 GPU의 물리 주소를 기반으로 통신
  • 주소 공간을 공유하기 때문에 모든 GPU가 하나의 주소 공간을 사용 (Shared Address Space)
  • 부팅 시 NVLink 연결이 설정되며, 실행 중에는 변경 불가

✅ 새로운 NVLink Network (우측)

  • NVLink Network Switch를 통해 GPU 간 네트워크 주소를 기반으로 통신
  • 각 GPU가 독립적인 네트워크 주소 공간을 가짐 (Independent Address Spaces)
  • Link TLB (Translation Lookaside Buffer)를 사용하여 네트워크 주소를 GPU의 물리 주소로 변환
  • 런타임(Runtime) API를 통해 동적으로 연결 설정 가능
  • 각 GPU 간 논리적 격리가 가능하여 보안성과 유연성이 향상됨

2. NVLink와 NVLink Network의 주요 차이점

아래 표는 기존 NVLink와 새로운 NVLink Network의 핵심적인 차이점을 비교한 것입니다.

특징기존 NVLinkNVLink Network

주소 공간 (Address Spaces) 1개 (공유) N개 (독립적)
주소 지정 방식 (Request Addressing) GPU 물리 주소 사용 네트워크 주소 사용
연결 설정 (Connection Setup) 부팅 시 설정 실행 중 API 호출 가능
격리 (Isolation) 없음 있음

3. NVLink Network의 주요 개선점

(1) 독립적인 주소 공간으로 더욱 유연한 네트워크 설계

  • 기존 NVLink는 모든 GPU가 동일한 주소 공간을 공유하여 관리 복잡성이 증가
  • 새로운 NVLink Network는 각 GPU가 독립적인 네트워크 주소를 가지므로, 더욱 유연하고 확장성이 뛰어남

(2) NVLink Network Switch를 통한 네트워크 기반 통신

  • 기존 NVLink는 GPU 간 직접 연결을 기반으로 했지만,
  • 새로운 NVLink Network는 NVLink Network Switch를 통해 네트워크 주소 기반으로 라우팅 가능

(3) 동적 연결 설정 (Runtime API)

  • 기존 NVLink는 부팅 시 연결이 설정되고 이후 변경 불가
  • NVLink Network는 소프트웨어 API를 통해 실행 중에도 유연하게 연결 설정 가능

(4) 보안성과 격리(ISO) 기능 추가

  • 기존 NVLink는 모든 GPU가 공유된 주소 공간을 사용하므로 보안 이슈 발생 가능
  • NVLink Network는 각 GPU가 독립적인 주소 공간을 가지므로, 보안 및 데이터 격리 가능

4. 결론

  • Hopper 기반 NVLink Network는 기존 NVLink의 한계를 극복하여, 더욱 유연한 GPU 네트워크를 제공
  • 독립적인 주소 공간을 사용하여 GPU 간 논리적 격리 및 보안성을 강화
  • NVLink Network Switch를 통해 더욱 효율적인 데이터 전송 및 확장성 제공
  • 런타임 API를 사용하여 실행 중에도 유연하게 연결을 설정할 수 있어 AI 및 HPC 환경에서 더욱 강력한 활용 가능

👉 즉, 새로운 NVLink Network는 단순한 GPU 간 직접 연결에서 벗어나, 네트워크 기반의 동적이고 확장 가능한 연결을 지원하는 차세대 기술로 발전했습니다. 🚀

 


Hopper란 무엇인가?

여기서 HopperNVIDIA의 차세대 데이터센터 및 AI 가속기용 GPU 아키텍처를 의미합니다.
Ampere(A100) 아키텍처의 후속 모델로, H100 GPU에서 처음 도입된 최신 아키텍처입니다.

Hopper 아키텍처는 기존 GPU 설계와 비교해 더 높은 대역폭, 확장성, 보안성을 제공하는 특징을 가지고 있습니다.
특히, NVLink Network라는 새로운 네트워크 방식을 지원하여 GPU 간 데이터 전송을 더욱 효율적으로 처리할 수 있습니다.


1. Hopper에서 NVLink Network가 중요한 이유

Hopper 아키텍처에서 NVLink Network를 도입한 이유는 기존 NVLink의 한계를 극복하고, 더욱 확장 가능한 GPU 네트워크를 구축하기 위해서입니다.

기존 Ampere(A100) NVLink는 GPU 간 물리 주소 기반의 직접 연결을 사용했지만,
Hopper에서는 네트워크 주소 기반의 동적 연결 방식(NVLink Network)을 사용하여 확장성과 보안성을 강화했습니다.

(1) 기존 NVLink (Ampere A100) 방식의 한계

  • 모든 GPU가 공유된 주소 공간을 사용해야 함
  • GPU 간 직접 연결만 가능하여 네트워크 확장이 어려움
  • 부팅 시 연결이 고정되므로, 실행 중 변경 불가
  • 보안 및 격리(Isolation) 기능 없음

(2) Hopper NVLink Network의 개선점

  • 각 GPU가 독립적인 네트워크 주소 공간을 가지므로 확장성 증가
  • NVLink Network Switch를 통해 네트워크 라우팅 가능
  • 런타임 API 호출을 통해 실행 중에도 연결 변경 가능
  • 보안 및 데이터 격리 기능 추가

2. Hopper NVLink Network의 동작 방식

Hopper 아키텍처에서는 NVLink Network를 통해 GPU 간 통신을 네트워크 방식으로 처리합니다.

  • GPU는 기존처럼 NVLink를 사용하지만, NVLink Network Switch를 통해 연결됨
  • 각 GPU는 네트워크 주소를 기반으로 데이터를 요청하며, 네트워크 스위치가 이를 적절한 GPU로 전달
  • "Link TLB (Translation Lookaside Buffer)"를 사용하여 네트워크 주소를 GPU의 물리 주소로 변환
  • 이전 세대와 달리, 실행 중에도 API를 통해 연결을 동적으로 변경 가능

3. Hopper와 NVLink Network의 의미

Hopper 아키텍처에서 NVLink Network를 도입한 것은, 기존의 고정된 GPU 간 직접 연결 방식에서 탈피하여, 네트워크 기반의 유연한 연결을 제공한다는 점에서 중요한 변화입니다.

 

    구분                                            Ampere (A100) NVLink                                 Hopper (H100) NVLink Network

연결 방식 직접 연결(Direct) 네트워크 기반(Networked)
주소 체계 GPU 물리 주소 사용 네트워크 주소 사용
확장성 제한적(고정 연결) 높은 확장성(동적 연결)
격리 기능 없음 있음
연결 변경 부팅 시 고정 실행 중 API로 변경 가능

4. 결론

  • Hopper는 기존 Ampere 대비 확장성이 높은 NVLink Network를 지원하는 최신 아키텍처
  • 기존 NVLink는 GPU 간 직접 연결만 지원했지만, Hopper NVLink Network는 네트워크 주소 기반으로 동작
  • 이를 통해 GPU 간 연결을 더 유연하게 구성할 수 있으며, 실행 중에도 동적으로 변경 가능
  • 보안(격리 기능)과 확장성을 고려한 설계로, AI 및 데이터센터 환경에서 더욱 강력한 성능 제공

👉 즉, Hopper는 단순한 차세대 GPU가 아니라, AI 및 HPC(고성능 컴퓨팅)를 위한 새로운 네트워크 아키텍처를 포함한 GPU 플랫폼으로 이해해야 합니다. 🚀


Hopper 기반의 NVLink Network는 기존의 NoC(Network-on-Chip) 개념과 유사한 방식으로 GPU 간 통신을 처리합니다.

기존의 Ampere(A100) NVLink는 단순한 포인트-투-포인트(Direct) 연결 방식이었지만,
Hopper(H100) NVLink Network는 네트워크 기반의 동적 라우팅을 지원하여 NoC와 비슷한 동작 방식을 갖게 되었습니다.


1. NVLink Network와 NoC(Network-on-Chip)의 공통점

(1) 패킷 기반 네트워크 구조

  • 기존 NVLink는 물리 주소 기반의 메모리 전송 방식을 사용했지만,
  • NVLink Network는 NoC처럼 패킷 기반의 데이터 전송 방식을 채택
    → GPU 간 통신이 기존보다 훨씬 유연해짐

(2) 네트워크 스위치를 통한 데이터 라우팅

  • NoC에서는 여러 개의 코어(Processing Elements, PE)가 라우터를 통해 통신
  • NVLink Network에서는 NVLink Network Switch가 각 GPU의 데이터 흐름을 관리
    → 물리적 연결에 의존하지 않고 동적으로 경로 설정 가능

(3) 독립적인 주소 공간

  • 기존 NVLink는 GPU 간 공유된 주소 공간을 사용하여 통신
  • NVLink Network는 각 GPU가 독립적인 네트워크 주소를 가지므로, NoC처럼 독립적인 주소 공간에서 동작 가능
    → GPU 간 데이터 보안 및 격리(Isolation) 기능 추가

(4) 실행 중 동적 경로 변경 가능

  • 기존 NVLink는 부팅 시 연결이 고정되었지만,
  • NVLink Network는 소프트웨어 API를 사용하여 런타임 중 연결을 변경 가능
    NoC의 다이나믹 라우팅과 유사한 개념

2. NVLink Network vs. NoC (Network-on-Chip) 차이점

항목NVLink Network (Hopper)NoC (Network-on-Chip)

적용 대상 멀티-GPU 네트워크 (다중 칩) 단일 칩 내 CPU/GPU 코어 간 네트워크
네트워크 주소 방식 독립적인 네트워크 주소 기반 NoC 내부 주소 기반
라우팅 방식 NVLink Network Switch를 사용하여 동적 라우팅 NoC 라우터를 사용하여 칩 내부 통신
통신 범위 GPU 간 장거리 데이터 교환 최적화 칩 내부에서 매우 빠른 통신 지원
격리 및 보안 각 GPU 간 격리(Isolation) 기능 추가 칩 내부 데이터 교환이므로 보안은 덜 중요

3. NVLink Network가 NoC와 유사한 이유

🔹 기존 NVLink의 한계점

  • 기존 NVLink는 확장성이 부족하고, GPU 간 네트워크가 정적(Static)으로 설정됨
  • 부팅 시 연결이 고정되므로, 실행 중 유연하게 변경할 수 없음
  • 모든 GPU가 공유된 주소 공간을 사용하여 보안성 및 격리 기능이 부족함

🔹 NVLink Network의 개선점

  • NoC처럼 독립적인 네트워크 주소를 사용하여 각 GPU의 데이터를 격리할 수 있음
  • NVLink Network Switch를 통한 동적 라우팅으로 GPU 간 확장성 증가
  • 소프트웨어 API를 사용하여 실행 중 GPU 간 경로를 변경할 수 있어 더욱 유연함
  • 보안 기능이 추가되어 데이터센터 및 클라우드 환경에서도 안정적인 멀티-GPU 학습 가능

4. 결론

  • Hopper 기반 NVLink Network는 기존 NVLink보다 NoC와 유사한 개념으로 발전
  • 네트워크 기반의 주소 라우팅을 도입하여 확장성과 유연성이 크게 증가
  • NVLink Network Switch가 NoC의 라우터 역할을 수행하여 동적 데이터 전송 가능
  • 멀티-GPU 시스템에서 NoC와 같은 패킷 기반 네트워크 방식을 도입하여 확장성과 보안성을 강화

👉 즉, NVLink Network는 NoC의 개념을 GPU 간 통신으로 확장한 형태이며, 이를 통해 대규모 AI 학습 및 HPC 환경에서 더욱 강력한 성능을 제공할 수 있습니다. 🚀

반응형

+ Recent posts