Mellanox (NVIDIA) MQM9790-NS2F InfiniBand Switch σε δράση.
May 28, 2026
Καθώς τα συμπλέγματα εκπαίδευσης τεχνητής νοημοσύνης μεγάλης κλίμακας και τα κέντρα υπολογιστών υψηλής απόδοσης (HPC) ωθούν τις απαιτήσεις εύρους ζώνης δικτύου και καθυστέρησης σε πρωτοφανή επίπεδα, οι παραδοσιακές λύσεις Ethernet παλεύουν όλο και περισσότερο με τον έλεγχο συμφόρησης και τον απρόβλεπτο λανθάνοντα χρόνο κάτω από φόρτους εργασίας RDMA. Ένα κορυφαίο εθνικό κέντρο υπερυπολογιστών αντιμετώπισε πρόσφατα αυτήν ακριβώς την πρόκληση όταν αναβάθμισε το σύμπλεγμα GPU επόμενης γενιάς. Αφού αξιολόγησε πολλές επιλογές διασύνδεσης, η ομάδα επέλεξε τοMellanox (NVIDIA) MQM9790-NS2Fως διακόπτης πυρήνα υφάσματος — μια απόφαση που άλλαξε θεμελιωδώς το προφίλ απόδοσης του συμπλέγματός τους.
Ιστορικό & Πρόκληση: Ο τοίχος επεκτασιμότητας
Το υπάρχον ύφασμα HDR InfiniBand του κέντρου υπερυπολογιστών λειτουργούσε σχεδόν σε κορεσμό. Με περισσότερες από 2.000 GPU που εκτελούν παράλληλες εργασίες εκπαίδευσης τεχνητής νοημοσύνης, οι λειτουργίες συλλογικής επικοινωνίας όπως το all-reduce και το all-to-all αντιμετώπιζαν σημαντικές αιχμές λανθάνοντος χρόνου. Το δίκτυο είχε γίνει το κύριο σημείο συμφόρησης, προκαλώντας χρόνο αδράνειας της GPU που σπαταλούσε υπολογιστικούς πόρους και ενέργεια. Οι μηχανικοί υπολόγισαν ότι σχεδόν το 30% των υπολογιστικών κύκλων χάθηκε λόγω της επιβάρυνσης της επικοινωνίας κατά τη διάρκεια μεγάλης κλίμακας κατανεμημένων εκπομπών εκπαίδευσης.
Αυτό που χρειαζόταν η ομάδα ήταν ένας διακόπτης ικανός να προσφέρει400 Gb/s ανά θύρα, υποστήριξη εγγενούς RDMA και επιτάχυνση υπολογιστών εντός δικτύου — όλα αυτά διατηρώντας παράλληλα τη συμβατότητα προς τα πίσω με την υπάρχουσα υποδομή HDR. Μετά την αναθεώρηση τουΦύλλο δεδομένων MQM9790-NS2FκαιΠροδιαγραφές MQM9790-NS2F, καθόρισαν ότι ηΔιακόπτης MQM9790-NS2F InfiniBandπροσέφερε την ιδανική ισορροπία πυκνότητας, απόδοσης και συνόλου χαρακτηριστικών.
Λύση & Ανάπτυξη: Αναβάθμιση υφασμάτων NDR 64 θυρών
Το κέντρο ανέπτυξε τέσσεριςMQM9790-NS2F 400 Gb/s NDR 64 θύρας OSFPδιακόπτες σε μια τοπολογία φύλλου ράχης, διασυνδέοντας 2.048 GPU σε 64 κόμβους υπολογιστών. Κάθε κόμβος συνδέεται μέσω ενός μόνο καλωδίου διαχωριστή OSFP-to-4x100Gb/s, παρέχοντας συνολικό εύρος ζώνης 400Gb/s ανά διακομιστή ενώ βελτιστοποιεί την πυκνότητα διαχείρισης καλωδίων.
| Παράμετρος ανάπτυξης | Διαμόρφωση |
|---|---|
| Μοντέλο διακόπτη | NVIDIA Mellanox MQM9790-NS2F(4 μονάδες) |
| Διαμόρφωση θύρας | 64x OSFP, 400 Gb/s NDR ανά θύρα |
| Σύνολο GPU | 2.048 (NVIDIA H100) |
| Δυνατότητες εντός δικτύου | SHARPv3, Adaptive Routing, Congestion Control |
Το κλειδί για την ανάπτυξη ήταν η πλήρης εξασφάλισηΣυμβατό με MQM9790-NS2Fλειτουργία με υπάρχοντες προσαρμογείς τελικού σημείου HDR. Η αυτόματη διαπραγμάτευση ταχύτητας του διακόπτη και η μετάφραση επιπέδου σύνδεσης επέτρεψαν μια σταδιακή στρατηγική μετεγκατάστασης — οι κόμβοι παλαιού τύπου λειτουργούν με ταχύτητες HDR ενώ οι νέοι διακομιστές με δυνατότητα NDR αξιοποιούν πλήρες εύρος ζώνης 400 Gb/s. Το κέντρο χρησιμοποίησε επίσης τη συγκέντρωση SHARPv3 εντός δικτύου, μειώνοντας πλήρως την επισκεψιμότητα κατά πάνω από 65% για μεγάλα μεγέθη μηνυμάτων που βρίσκονται συνήθως στην εκπαίδευση LLM.
Για όσους αξιολογούν παρόμοιες αναβαθμίσεις,Τιμή MQM9790-NS2Fέρευνες καιΠωλείται MQM9790-NS2Fη διαθεσιμότητα έχει αυξηθεί σημαντικά μεταξύ των πελατών επιχειρήσεων και έρευνας. Το ανταγωνιστικό συνολικό κόστος ιδιοκτησίας του μεταγωγέα — συνυπολογίζοντας τον χαμηλότερο αριθμό μεταγωγών λόγω της πυκνότητας 64 θυρών — το καθιστά ελκυστική επιλογή τόσο για νέες κατασκευές όσο και για έργα ανανέωσης.
Αποτελέσματα & Οφέλη: Μετρήσιμα κέρδη απόδοσης
- Πλήρης μείωση του λανθάνοντος χρόνου (μήνυμα 1 GB):Μειώθηκε από 48µs σε 19µs (60% βελτίωση)
- Αποτελεσματική χρήση GPU:Αυξήθηκε από 71% σε 93% κατά τη διάρκεια εκπαίδευσης μεγάλης κλίμακας
- Χρόνος ολοκλήρωσης εργασίας (ισοδύναμο GPT-3 175B):Συντόμευση κατά 41%
- Καθυστέρηση ουράς που προκαλείται από το δίκτυο (99ο εκατοστημόριο):Κόψτε από 210µs σε κάτω από 35µs
Ως έναΛύση διακόπτη MQM9790-NS2F InfiniBand, η ανάπτυξη έδειξε ότι τα υφάσματα NDR 400 Gb/s μπορούν να εκπληρώσουν τις θεωρητικές τους υποσχέσεις. Ο συνδυασμός αλγορίθμων ελέγχου συμφόρησης και προσαρμοστικής δρομολόγησης εξάλειψε τα "incast" μοτίβα κατάρρευσης που ταλαιπωρούσαν το προηγούμενο ύφασμα HDR κατά τις φάσεις επικοινωνίας all-to-all.
Περίληψη & Outlook: A Foundation for Exascale AI
Η επιτυχία του κέντρου υπερυπολογιστών με τοMQM9790-NS2Fέχει επιταχύνει τον οδικό χάρτη τους προς τις δυνατότητες τεχνητής νοημοσύνης exascale. Τώρα σχεδιάζουν μια δεύτερη φάση που θα διπλασιάσει τον αριθμό GPU σε 4.096 χρησιμοποιώντας επιπλέονMQM9790-NS2F 400 Gb/s NDR 64 θύρας OSFPδιακόπτες σε μια τοπολογία λίπους τριών επιπέδων. Οι δυνατότητες τηλεμετρίας και διαχείρισης εκτός ζώνης του μεταγωγέα έχουν επίσης επιτρέψει την προγνωστική αποφυγή συμφόρησης, μειώνοντας τα λειτουργικά έξοδα για την ομάδα δικτύου.
Για αρχιτέκτονες δικτύων και διαχειριστές πληροφορικής που αξιολογούν υφάσματα επόμενης γενιάς, τοNVIDIA Mellanox MQM9790-NS2Fαντιπροσωπεύει μια ώριμη, αποδεδειγμένη από την παραγωγή λύση. Είτε δημιουργείτε ένα νέο ερευνητικό σύμπλεγμα τεχνητής νοημοσύνης είτε αναβαθμίζετε μια υπάρχουσα εγκατάσταση HPC, αυτός ο διακόπτης παρέχει τη βάση χαμηλής καθυστέρησης και υψηλού εύρους ζώνης που απαιτείται για σύγχρονους παράλληλους φόρτους εργασίας.

