Mellanox (NVIDIA) MQM9790-NS2F InfiniBand Switch σε δράση.
May 28, 2026
Καθώς οι μεγάλες ομάδες εκπαίδευσης τεχνητής νοημοσύνης και τα κέντρα υπολογιστών υψηλών επιδόσεων (HPC) αυξάνουν τις απαιτήσεις εύρους ζώνης και καθυστέρησης δικτύου σε πρωτοφανή επίπεδα,Οι παραδοσιακές λύσεις Ethernet αγωνίζονται όλο και περισσότερο με τον έλεγχο συμφόρησης και την απρόβλεπτη καθυστέρηση ουράς υπό φορτία εργασίας RDMAΈνα κορυφαίο εθνικό κέντρο υπερυπολογισμών αντιμετώπισε πρόσφατα ακριβώς αυτή την πρόκληση κατά την αναβάθμιση του GPU cluster επόμενης γενιάς του.Mellanox (NVIDIA) MQM9790-NS2FΗ Εpiιτροpiή Εpiιτροpiών Εpiιτροpiών Εpiιτροpiών Εpiιτροpiών Εpiιτροpiών Εpiιτροpiών Εpiιτροpiών Εpiιτροpiών Εpiιτροpiών Εpiιτροpiών Εpiιτροpiών Εpiιτροpiών Εpiιτροpiών Εpiιτροpiών Εpiιτροpiών Εpiιτροpiών Εpiιτροpiών Εpiιτροpiών Εpiιτροpiών Εpiιτροpiών
Το υφιστάμενο κέντρο υπερυπολογισμών HDR InfiniBand λειτουργούσε σχεδόν κορεσμένο.Οι συλλογικές λειτουργίες επικοινωνίας όπως all-reduce και all-to-all παρουσίαζαν σημαντικές αυξήσεις της καθυστέρησης.Το δίκτυο είχε γίνει το κύριο εμπόδιο, προκαλώντας καθυστέρηση GPU που σπαταλούσε τόσο υπολογιστικούς πόρους όσο και ενέργεια.Οι μηχανικοί εκτιμούν ότι σχεδόν το 30% των κύκλων υπολογισμού χάθηκαν λόγω επικοινωνίας κατά τη διάρκεια μεγάλων εκπαιδευτικών εκδρομών.
Αυτό που χρειαζόταν η ομάδα ήταν ένας διακόπτης ικανός να παραδώσει400Gb/s ανά θύραΗ εpiιλογή piεριβάλλει την εpiιλογή των εpiιχειρηάτων piου piροβλέpiουν την εpiιλογή των εpiιχειρηάτων piου piροβλέpiουν την εpiιλογή των εpiιχειρηάτων piου piροβλέpiουν την εpiιλογή.Δελτίο δεδομένων MQM9790-NS2FκαιΠροδιαγραφές MQM9790-NS2F, διαπίστωσαν ότι ηMQM9790-NS2F Διακόπτης InfiniBandΠροσφέρθηκε η ιδανική ισορροπία πυκνότητας, απόδοσης και συνόλου χαρακτηριστικών.
Το κέντρο αναπτύσσει τέσσεριςMQM9790-NS2F 400Gb/s NDR 64-port OSFPΟι διακόπτες σε μια τοπολογία σπονδυλικής στήλης, συνδέουν μεταξύ τους 2.048 GPU σε 64 κόμβους υπολογισμού. Κάθε κόμβος συνδέεται μέσω ενός ενιαίου καλωδίου διαχωρισμού OSFP-to-4x100Gb/s,παρέχοντας συνολικό εύρος ζώνης 400Gb/s ανά διακομιστή, βελτιστοποιώντας παράλληλα την πυκνότητα διαχείρισης καλωδίων.
| Παράμετρος ανάπτυξης | Διαμόρφωση |
|---|---|
| Τύπος διακόπτη | NVIDIA Mellanox MQM9790-NS2F(4 μονάδες) |
| Διαμόρφωση λιμένων | 64x OSFP, 400Gb/s NDR ανά θύρα |
| Συνολικά GPU | 2,048 (NVIDIA H100) |
| Ειδικά χαρακτηριστικά του δικτύου | SHARPv3, προσαρμοστική δρομολόγηση, έλεγχο συμφόρησης. |
Το κλειδί για την ανάπτυξη ήταν η εξασφάλιση πλήρουςΣυμβατό με το MQM9790-NS2Fλειτουργία με υφιστάμενους προσαρμογείς HDR. The switch’s automatic speed negotiation and link-layer translation allowed a phased migration strategy — legacy nodes operate at HDR speeds while new NDR-capable servers leverage full 400Gb/s bandwidthΤο κέντρο χρησιμοποίησε επίσης τη συλλογή SHARPv3 στο δίκτυο, μειώνοντας τη συνολική κίνηση κατά πάνω από 65% για τα μεγάλα μεγέθη μηνυμάτων που συνήθως βρίσκονται στην εκπαίδευση LLM.
Για όσους αξιολογούν παρόμοιες αναβαθμίσεις,Αξία MQM9790-NS2FΕρευνές καιMQM9790-NS2F προς πώλησηΗ διαθεσιμότητα των υπηρεσιών αυτών έχει αυξηθεί σημαντικά μεταξύ των επιχειρηματικών και ερευνητικών πελατών.Το διακόπτη είναι ανταγωνιστικό στο συνολικό κόστος ιδιοκτησίας, λαμβάνοντας υπόψη το χαμηλότερο αριθμό διακόπτες λόγω της πυκνότητας των 64 θύρων, το καθιστά μια ελκυστική επιλογή τόσο για νέες κατασκευές όσο και για έργα ανανέωσης..
- Μείωση όλης της καθυστέρησης (1GB μήνυμα):Μείωση από 48μs σε 19μs (60% βελτίωση)
- Αποτελεσματική χρήση της GPU:Αύξηση από 71% σε 93% κατά τη διάρκεια της μεγάλης κλίμακας κατάρτισης
- Χρόνος ολοκλήρωσης εργασίας (ισοδύναμο GPT-3 175B):Μειωμένο κατά 41%
- Διάταξη καθυστέρησης (99η εκατοστιαία):Διακόψιμο από 210 μs έως κάτω από 35 μs
ΩςMQM9790-NS2F Λύση διακόπτη InfiniBand, η ανάπτυξη απέδειξε ότι τα υφάσματα NDR 400Gb/s μπορούν να εκπληρώσουν τις θεωρητικές υποσχέσεις τους.Ο συνδυασμός των αλγορίθμων ελέγχου συμφόρησης και της προσαρμοστικής δρομολόγησης εξαλείφθηκε τα πρότυπα κατάρρευσης "incast" που έπλητταν το προηγούμενο υλικό HDR κατά τη διάρκεια των φάσεων επικοινωνίας "όλα προς όλα".
Η επιτυχία του κέντρου υπερυπολογισμώνMQM9790-NS2FΤώρα σχεδιάζουν μια δεύτερη φάση που θα διπλασιάσει τον αριθμό των GPU σε 4.096 χρησιμοποιώντας πρόσθετεςMQM9790-NS2F 400Gb/s NDR 64-port OSFPΟι δυνατότητες τηλεμετρίας και διαχείρισης εκτός ζώνης του διακόπτη επέτρεψαν επίσης την πρόβλεψη της αποφυγής συμφόρησης,μείωση των λειτουργικών γενικών δαπανών για την ομάδα δικτύου.
Για τους αρχιτέκτονες δικτύων και τους διαχειριστές πληροφορικής που αξιολογούν υφάσματα επόμενης γενιάς, ηNVIDIA Mellanox MQM9790-NS2Fείτε πρόκειται για την κατασκευή ενός νέου ερευνητικού ομίλου τεχνητής νοημοσύνης είτε για την αναβάθμιση μιας υφιστάμενης εγκατάστασης HPC, αυτός ο διακόπτης παρέχει τη χαμηλή καθυστέρηση,υψηλού εύρους ζώνης θεμέλιο που απαιτείται για σύγχρονα παράλληλα φορτία εργασίας.

