ארכיטקטורת תשתית

תשתית NVIDIA GB200 NVL72 וכבילת MPO-8 APC ליחידות ניתנות להרחבה

פירוק ארכיטקטורת הכבילה של יחידה ניתנת להרחבה (SU) של Blackwell, שבה 8 ארונות שרתים מתכנסים ל-9,216 גידי סיבים פעילים.

יחידת NVIDIA DGX GB200 הניתנת להרחבה (SU) מייצגת שינוי גדול בארכיטקטורת מרכזי נתונים. ה-SU הוא ישות מאוחדת של 576 מעבדי GPU המחוברים באמצעות 9,216 גידי סיבים פעילים. ScaleFibre מספקת את צרורות הכבילה המדויקים הנדרשים לניהול צפיפות זו.

ארבעת מבני ה-SuperPOD הפיזיים

NVIDIA מפצלת את ה-SU לשכבות פיזיות נפרדות כדי לבודד תעבורת GPU.

MN-NVL (NVLink 5)

הרחבה אנכית

רשת הארון ‘הפנימית’ המחברת 72 מעבדי GPU במהירות 1.8 TB/s.

  • אפס סיבים אופטיים
  • לוח אם פסיבי מנחושת
  • מחברים מסוג Blind-mate

InfiniBand חישובי

הרחבה אופקית

המבנה הראשי ‘מזרח-מערב’ לאימון מסיבי מרובה צמתים.

  • 4,608 סיבים פעילים לכל SU
  • טופולוגיה מותאמת מסילה
  • Quantum-3/Quantum-2

אחסון ובתוך הרצועה (In-Band)

חזית

מבנה מבוסס אתרנט להכנסת נתונים ופרוביז’נינג במהירות גבוהה.

  • פקטור חסימה 5:3
  • פריקה ל-BlueField-3 DPU
  • תמיכה ב-VXLAN/RoCE

ניהול מחוץ לרצועה (OOB Management)

מישור בקרה

הרשת המבודדת לטלמטריית חומרה, BMC וניהול PDU.

  • RJ45/Cat6 נחושת
  • שכבת מתגים SN2201
  • אבטחת Air-gap פיזית

מדדי SU בקנה מידה אקסה

יחידה ניתנת להרחבה (SU) של 8 ארונות שרתים מייצגת את אבן הבניין הבסיסית של מפעל ה-AI של NVIDIA.

9,216

סיבים פעילים ל-SU

4,608

גידים ייעודיים לחישוב

5:3

יחס חסימה לאחסון

400G/800G

מהירויות פורט מקוריות

שלוש רמות הקישוריות של SU

1
רמה א': שרת-ל-Leaf

1,152 סיבים לארון שרתים באמצעות צרורות סיבים בעלי ספירה גבוהה או מגשרים לחיבור צומתי NVL72 למתגי Leaf.

2
רמה ב': Leaf-ל-Spine

צבירת תעבורה מיושרת מסילה בתוך ה-SU באמצעות קישורי 1:1 ללא חסימה לחישוב.

3
רמה ג': Spine-ל-Core

הרחבה מעבר ל-SU לאזור Core מרכזי באמצעות צרורות בעלי ספירה גבוהה.

תיקון מסורתי (נקודה לנקודה)

  • מורכבות ידנית: דורש 9,216 כבלי חיבור בודדים לכל בלוק של 8 ארונות.
  • חסימת זרימת אוויר: צרורות כבלים צפופים חוסמים נתיבי פליטה של קירור נוזלי.
  • פרופיל סיכון: סבירות גבוהה ל’מסילות מצטלבות’ במהלך תיקון ידני 1:1.
  • זמן פריסה: 115+ שעות עבור ניתוב ותיוג ידני לכל SU.

חיבור מודולרי עם צרורות סיבים בעלי ספירה גבוהה

  • Plug-and-Play: מאחד אלפי סיבים לצרורות מותאמים מראש של 128F/144F/256F/288F/576F.
  • אופטימיזציה תרמית: כבלים בקוטר קטן ממקסמים את זרימת האוויר בארונות צפופים.
  • יעילות נתיב: מאחד 1,152 סיבים פעילים לכל ארון שרתים לעמוד שדרה MPO בעל ספירה גבוהה.
  • פרופיל התקנה: פריסה מהירה באמצעות מכלולים מתוכננים מראש ונבדקים במפעל.

צמיחת סיבים פעילים: מצומת ל-SuperPOD מלא

מורכבות כבילה
9,216 סיבים פעילים ל-SU דורשים צרורות סיבים מודולריים בעלי ספירה גבוהה כדי למנוע 'כאוס כבלים' החוסם את זרימת האוויר.

יחידה ניתנת להרחבה מוצגת ויזואלית

בלוק החישוב של 8 ארונות
בלוק החישוב של 8 ארונות

יחידה ניתנת להרחבה (SU) של NVIDIA GB200 מורכבת מ-8 ארונות שרתים, שכל אחד מהם מכיל מערכת DGX GB200 NVL72 עם 72 מעבדי GPU.

הפצת צרורות סיבים בעלי ספירה גבוהה
הפצת צרורות סיבים בעלי ספירה גבוהה

איחוד אלפי סיבי ארונות לצרורות בצפיפות גבוהה לפינוי זרימת אוויר, התקנה מהירה ושימוש מינימלי בנתיבים.

קירור נוזלי
קירור נוזלי

לוחות קירור נוזלי מייצבים את סביבת המגש, ומאפשרים למקלטי OSFP לפלוט חום ביעילות באמצעות גופי קירור.

Technical FAQ

+ כיצד נשמר ספירת ה-SU ניתנת לניהול ב-9,216 סיבים?
באמצעות שימוש בהיררכיית כבילה מדורגת. צרורות סיבים בעלי ספירה גבוהה מחליפים אלפי כבלי תיקון MPO בודדים, מפחיתים את הנפח הפיזי ומונעים חסימות קירור.
+ מהו 'פקטור החסימה 5:3' במבנה האחסון?
בניגוד למבנה החישוב ללא חסימה (1:1), רשת האחסון מנויה יתר על המידה בכוונה. זה מפחית את עלויות הסיבים והמורכבות תוך עמידה בדרישת 40GB/s לכל צומת עבור אחסון. הפריסה לרוב משתמשת בכבלי תיקון MPO תואמי NVIDIA.
+ מדוע מבנה ה-NVLink הפנימי נטול סיבים?
NVIDIA משתמשת בלוח אם פסיבי מנחושת וברכיבי כבלים בתוך ארון NVL72. זה מבטל אלפי משדרים אופטיים וסיבים, ומפחית משמעותית את צריכת החשמל והשיהוי. סיבים אופטיים שמורים למבנה החישוב המורחב.
+ מה קורה כשאנו מרחיבים ל-16 יחידות ניתנות להרחבה?
בסולם של 16 SU (9,216 מעבדי GPU), סך ספירת הסיבים הפעילים למבנה החישוב לבדו מגיע ל-18,432 גידים. ניהול צפיפות זו דורש מארזים בצפיפות גבוהה שתוכננו במיוחד עבור סיבים אופטיים בספירה גבוהה וארכיטקטורות מיתוג קבוצת ליבה מרכזיות.
+ מדוע משתמשים ב-MPO-8 במקום ב-MPO-12 הסטנדרטי?
מקלטי 400G NDR ו-800G XDR מודרניים משתמשים באופטיקה מקבילית של 4 או 8 נתיבים. יישור MPO של 8 סיבים תואם באופן מושלם את תצורת 4x Tx ו-4x Rx. שימוש בצרורות MPO פעילים בני 8 סיבים מבטל סיבים ‘חשוכים’ או מבוזבזים בתוך מבנה האשכול.
+ מהי חשיבות ליטוש APC (Angled Physical Contact)?
איתות 100G-PAM4 במהירות גבוהה רגיש ביותר להחזרים אחוריים. הזווית של 8 מעלות של מחבר APC מבטיחה שהאור המוחזר ייספג בציפוי הסיב, ושומרת על אובדן החזרה אופטי (ORL) גבוה הנדרש לאימון AI ללא שגיאות.
+ כיצד צפיפות הסיבים משפיעה על אולמות AI מקוררים בנוזל?
גם עם מגשים מקוררים בנוזל, האוויר עדיין חייב לנוע כדי לנהל חום משני. שימוש בכבלי SmartRibbon בצפיפות גבוהה מפחית משמעותית את קוטר הכבל, ומבטיח שהכבילה הפיזית לא תחסום את זרימת האוויר או את סעפות הקירור הנוזלי.
+ מהן מגבלות המרחק לכבילה ברמת ה-SU?
רב-מוד (OM4/OM5) מוגבל ל-50 מטר עבור 400G/800G. עבור קישורי Spine-to-Core מרכזיים החורגים מכך, סיב חד-מוד G.657.A1 הוא חובה לתמיכה בהגעה למרחקים גדולים יותר ללא ירידה באיכות האות.
+ האם ניתן להשתמש בכבלים חיצוניים סטנדרטיים עבור עמוד שדרה של מרכזי נתונים של AI?
לא. אולמות AI פנימיים דורשים LSZH (Low Smoke Zero Halogen), Riser או Plenum כדי לעמוד בתקנות בטיחות אש הנדרשות בהתאם לתקנות המקומיות. עבור נתיבים בצפיפות גבוהה, כבלי SlimCORE פנימיים מיוחדים מספקים את ספירת הגידים הנדרשת בקוטר מופחת.
+ מה היתרון של פיגטיילים בגימור מפעל ב-SU?
פיגטיילים מסיבים אופטיים של MPO מאפשרים חיבור מהיר בהיתוך המוני בשכבת ה-Spine או Core. גימור מפעל זה בקצה אחד מספק את היתרונות של גימור מראש, בעוד הקצה ה’קצוץ’ מאפשר גמישות להתאמה לאורך הנדרש באתר.

תכנן את מפעל ה-AI שלך

ScaleFibre מספקת פתרונות כבילה מתוכננים מראש עבור פריסות NVIDIA DGX SuperPOD.

צור קשר

קבל פרטים על צרורות סיבים בעלי ספירה גבוהה עבור NVidia DGX SU שלך.