معماری زیرساخت

زیرساخت NVIDIA GB200 NVL72 و کابل‌کشی MPO-8 APC برای واحدهای مقیاس‌پذیر

تجزیه و تحلیل معماری کابل‌کشی یک واحد مقیاس‌پذیر (SU) بلاک‌ول، جایی که 8 رک به 9,216 رشته فیبر فعال همگرا می‌شوند.

واحد مقیاس‌پذیر (SU) DGX GB200 یک تغییر بزرگ در معماری دیتاسنترها محسوب می‌شود. این SU یک موجودیت یکپارچه با 576 GPU است که توسط 9,216 رشته فیبر فعال به هم متصل شده‌اند. ScaleFibre ترانک‌های با ترمینیشن دقیق مورد نیاز برای مدیریت این چگالی را فراهم می‌کند.

4 فابریک فیزیکی SuperPOD

NVIDIA SU را به لایه‌های فیزیکی متمایز تقسیم می‌کند تا ترافیک GPU را ایزوله کند.

MN-NVL (NVLink 5)

Scale-Up

شبکه ‘داخلی’ رک که 72 GPU را با سرعت 1.8 ترابایت بر ثانیه به هم متصل می‌کند.

  • فیبر نوری صفر
  • بک‌پلن مسی پسیو
  • کانکتورهای Blind-mate

Compute InfiniBand

Scale-Out

فابریک اولیه ‘شرق-غرب’ برای آموزش‌های چند نودی گسترده.

  • 4,608 فیبر فعال در هر SU
  • توپولوژی بهینه‌شده برای ریل
  • Quantum-3/Quantum-2

Storage & In-Band

Frontend

فابریک مبتنی بر اترنت برای ورود و تامین داده با سرعت بالا.

  • فاکتور مسدودسازی 5:3
  • آف‌لود BlueField-3 DPU
  • پشتیبانی از VXLAN/RoCE

OOB Management

Control Plane

شبکه ایزوله برای تله‌متری سخت‌افزار، BMC و مدیریت PDU.

  • RJ45/Cat6 Copper
  • تیِر سوئیچ SN2201
  • امنیت Physical air-gap

معیارهای SU در مقیاس اگزا

یک واحد مقیاس‌پذیر 8 رکی، بلوک ساختاری اساسی کارخانه هوش مصنوعی NVIDIA را نشان می‌دهد.

9,216

فیبر فعال در هر SU

4,608

رشته فقط محاسباتی

5:3

نسبت مسدودسازی ذخیره‌سازی

400G/800G

سرعت پورت بومی

سه سطح اتصال SU

1
سطح A: سرور به لیف

1,152 فیبر در هر رک با استفاده از ترانک‌های با تعداد فیبر بالا یا جامپرها برای اتصال نودهای NVL72 به سوئیچ‌های لیف.

2
سطح B: لیف به اسپاین

جمع‌آوری ترافیک هم‌تراز با ریل در داخل SU با استفاده از لینک‌های 1:1 بدون مسدودسازی برای محاسبات.

3
سطح C: اسپاین به کور

مقیاس‌گذاری فراتر از SU به یک منطقه مرکزی کور با استفاده از ترانک‌های با تعداد بالا.

پچ‌کردن قدیمی (نقطه به نقطه)

  • پیچیدگی دستی: نیاز به 9,216 پچ کورد مجزا برای هر بلوک 8 رکی.
  • انسداد جریان هوا: دسته‌های متراکم کابل مسیرهای خروج خنک‌کننده مایع را مسدود می‌کنند.
  • پروفایل ریسک: احتمال بالای ‘ریل‌های متقاطع’ در طول پچ‌کردن دستی 1:1.
  • زمان استقرار: بیش از 115 ساعت برای مسیریابی و برچسب‌گذاری دستی برای هر SU.

ترانک‌کشی ماژولار با تعداد فیبر بالا

  • Plug-and-Play: هزاران فیبر را در ترانک‌های سفارشی‌شده 128F/144F/256F/288F/576F از پیش ترمینیت‌شده ادغام می‌کند.
  • بهینه‌سازی حرارتی: کابل‌های با قطر کوچک جریان هوا را در رک‌های متراکم به حداکثر می‌رسانند.
  • کارایی مسیر: 1,152 فیبر فعال در هر رک را در بک‌بون‌های MPO با تعداد بالا ادغام می‌کند.
  • پروفایل نصب: استقرار سریع از طریق مجموعه‌های از پیش ترمینیت‌شده و آزمایش‌شده در کارخانه.

رشد فیبر فعال: از نود تا SuperPOD کامل

پیچیدگی کابل‌کشی
9,216 فیبر فعال در هر SU نیازمند ترانک‌های ماژولار با تعداد فیبر بالاست تا از 'آشفتگی کابل' مسدودکننده جریان هوا جلوگیری شود.

تصویرسازی واحد مقیاس‌پذیر

بلوک محاسباتی 8 رکی
بلوک محاسباتی 8 رکی

یک SU (واحد مقیاس‌پذیر) NVIDIA GB200 از 8 رک تشکیل شده است که هر کدام یک سیستم DGX GB200 NVL72 با 72 GPU را در خود جای داده است.

توزیع ترانک با تعداد فیبر بالا
توزیع ترانک با تعداد فیبر بالا

ادغام هزاران فیبر رک در ترانک‌های با چگالی بالا برای فضای آزاد جریان هوا، نصب سریع و حداقل استفاده از مسیر.

خنک‌کننده مایع
خنک‌کننده مایع

صفحات سرد با خنک‌کننده مایع، محیط سینی را تثبیت می‌کنند و به فرستنده-گیرنده‌های OSFP اجازه می‌دهند تا گرما را به طور موثر از طریق هیت‌سینک‌های سوار شده دفع کنند.

Technical FAQ

+ چگونه تعداد SU در 9,216 فیبر قابل مدیریت باقی می‌ماند؟
با استفاده از یک سلسله مراتب کابل‌کشی طبقه‌بندی شده. ترانک‌های با تعداد فیبر بالا جایگزین هزاران پچ کورد MPO جداگانه می‌شوند که حجم فیزیکی را کاهش داده و از انسداد خنک‌کننده جلوگیری می‌کند.
+ مفهوم 'فاکتور مسدودسازی 5:3' در فابریک ذخیره‌سازی چیست؟
برخلاف فابریک محاسباتی بدون مسدودسازی (1:1)، شبکه ذخیره‌سازی عمداً بیش از حد اشتراک‌گذاری شده است. این امر هزینه‌های فیبر و پیچیدگی را کاهش می‌دهد در حالی که الزامات 40 گیگابیت بر ثانیه در هر نود برای ذخیره‌سازی را برآورده می‌کند. استقرار اغلب از کابل‌های پچ MPO سازگار با NVIDIA استفاده می‌کند.
+ چرا فابریک NVLink داخلی بدون فیبر است؟
NVIDIA از یک بک‌پلن مسی پسیو و کارتریج‌های کابل در داخل رک NVL72 استفاده می‌کند. این امر هزاران فرستنده-گیرنده نوری و فیبر را حذف می‌کند و مصرف برق و تاخیر را به میزان قابل توجهی کاهش می‌دهد. فیبر نوری برای فابریک محاسباتی scale-out رزرو شده است.
+ وقتی به 16 واحد مقیاس‌پذیر ارتقا دهیم چه اتفاقی می‌افتد؟
در مقیاس 16 SU (9,216 GPU)، تعداد کل فیبرهای فعال فقط برای فابریک محاسباتی به 18,432 رشته می‌رسد. مدیریت این چگالی نیازمند محفظه‌های با چگالی بالا است که به طور خاص برای فیبر نوری با تعداد بالا و معماری‌های سوئیچینگ گروهی مرکزی طراحی شده‌اند.
+ چرا MPO-8 به جای MPO-12 استاندارد استفاده می‌شود؟
فرستنده-گیرنده‌های مدرن 400G NDR و 800G XDR از اپتیک موازی 4 یا 8 لین استفاده می‌کنند. هم‌ترازی MPO 8 فیبری دقیقاً با پیکربندی 4x Tx و 4x Rx مطابقت دارد. استفاده از ترانک‌های MPO فعال 8 فیبری فیبرهای ‘تاریک’ یا هدر رفته در فابریک کلاستر را از بین می‌برد.
+ اهمیت پولیش APC (Angled Physical Contact) چیست؟
سیگنالینگ پرسرعت 100G-PAM4 به بازتاب‌های برگشتی بسیار حساس است. زاویه 8 درجه کانکتور APC تضمین می‌کند که نور منعکس شده در روکش فیبر جذب می‌شود و از دست دادن بازگشت نوری (ORL) بالا که برای آموزش هوش مصنوعی بدون خطا لازم است، حفظ می‌شود.
+ چگالی فیبر چگونه بر سالن‌های هوش مصنوعی با خنک‌کننده مایع تاثیر می‌گذارد؟
حتی با سینی‌های خنک‌کننده مایع، هوا هنوز باید برای مدیریت گرمای ثانویه گردش کند. استفاده از کابل‌های SmartRibbon با چگالی بالا، قطر کابل را به طور قابل توجهی کاهش می‌دهد و تضمین می‌کند که کابل‌کشی فیزیکی جریان هوا یا منیفولدهای خنک‌کننده مایع را مسدود نمی‌کند.
+ محدودیت‌های فاصله برای کابل‌کشی در سطح SU چیست؟
مالتی‌مد (OM4/OM5) برای 400G/800G به 50 متر محدود می‌شود. برای لینک‌های مرکزی Spine-to-Core که از این فاصله فراتر می‌روند، فیبر سینگل‌مد G.657.A1 برای پشتیبانی از دسترسی بیشتر بدون تخریب سیگنال الزامی است.
+ آیا می‌توانم از کابل‌های بیرونی استاندارد برای بک‌بون‌های دیتاسنتر هوش مصنوعی استفاده کنم؟
خیر. سالن‌های داخلی هوش مصنوعی نیازمند LSZH (Low Smoke Zero Halogen)، رایزر یا پلنوم هستند تا مقررات ایمنی آتش‌سوزی مورد نیاز را بسته به مقررات محلی برآورده کنند. برای مسیرهای با چگالی بالا، کابل‌های داخلی SlimCORE تعداد رشته‌های لازم را در قطر کاهش‌یافته فراهم می‌کنند.
+ مزیت پیگتیل‌های ترمینیت‌شده در کارخانه در SU چیست؟
پیگتیل‌های فیبر نوری با کابل MPO امکان اتصال سریع فیوژن جرمی را در لایه اسپاین یا کور فراهم می‌کنند. این ترمیناسیون کنترل‌شده در کارخانه در یک انتها مزایای از پیش ترمینیت شدن را فراهم می‌کند، در حالی که انتهای ‘بریده شده’ امکان انعطاف‌پذیری برای اتصال به طول مورد نیاز در محل را می‌دهد.

کارخانه هوش مصنوعی خود را معماری کنید

ScaleFibre راه‌حل‌های کابل‌کشی از پیش ترمینیت‌شده را برای استقرار NVIDIA DGX SuperPOD ارائه می‌دهد.

تماس بگیرید

جزئیات ترانک‌های با تعداد فیبر بالا را برای NVIDIA DGX SU خود دریافت کنید.

اشتراک‌گذاری: