Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 σε δράση: Βελτιστοποίηση διασύνδεσης χαμηλής καθυστέρησης για RDMA/HPC/AI Clusters
April 14, 2026
Στην εποχή της εκπαίδευσης μοντέλων μεγάλης κλίμακας AI και του HPC exascale, η καθυστέρηση δικτύου έχει αναδειχθεί ως το μοναδικό κρισιμότερο σημείο συμφόρησης που περιορίζει την γραμμική επεκτασιμότητα του cluster. Αντιμετωπίζοντας αυτήν την πρόκληση κατά μέτωπο, ο Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 InfiniBand switch μεταμορφώνει τον τρόπο με τον οποίο τα ερευνητικά ιδρύματα και τα εργαστήρια AI επιχειρήσεων σχεδιάζουν τα υφάσματα υψηλής απόδοσης. Αυτό το άρθρο εξετάζει ένα τυπικό σενάριο ανάπτυξης όπου ο 920-9B110-00FH-0D0 παρέχει ντετερμινιστική, εξαιρετικά χαμηλή καθυστέρηση για φόρτους εργασίας εντατικούς σε RDMA.
Υπόβαθρο & Πρόκληση: Το Τείχος Επικοινωνίας του AI Cluster
Μια μεσαίου μεγέθους ερευνητική εγκατάσταση AI αντιμετώπιζε προβλήματα με τον χρόνο αδράνειας των GPU κατά τη διάρκεια κατανεμημένης εκπαίδευσης σε 64 κόμβους. Το υπάρχον ύφασμα Ethernet 100Gb υπέφερε από συμφόρηση incast, προκαλώντας τις λειτουργίες συλλογικής επικοινωνίας (all-reduce, all-gather) να καταλαμβάνουν έως και το 40% του συνολικού χρόνου εκπαίδευσης. Οι αρχιτέκτονες δικτύων χρειάζονταν μια λύση χωρίς απώλειες, υψηλής απόδοσης, ικανή να επεκταθεί σε 200Gb/s ανά θύρα, διατηρώντας παράλληλα καθυστέρηση κάτω του μικροδευτερολέπτου. Μετά την αξιολόγηση των διαθέσιμων επιλογών, η ομάδα επέλεξε τον 920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDR ως τον βασικό δομικό λίθο για τη νέα τους τοπολογία spine-leaf.
Λύση & Ανάπτυξη: Υλοποίηση του Υφάσματος InfiniBand
Η ανάπτυξη επικεντρώθηκε γύρω από τους διακόπτες NVIDIA Mellanox 920-9B110-00FH-0D0 διαμορφωμένους σε αρχιτεκτονική fat-tree δύο επιπέδων. Κάθε κόμβος υπολογισμού ήταν εξοπλισμένος με προσαρμογείς HDR ConnectX-6, συνδεδεμένους σε διακόπτες leaf μέσω παθητικών χάλκινων καλωδίων. Τα βασικά βήματα υλοποίησης περιλάμβαναν:
- Εναλλακτική λύση RDMA over Converged Ethernet (RoCE): Εγγενές InfiniBand με έλεγχο συμφόρησης βασισμένο σε υλικό εξάλειψε εντελώς τις απώλειες πακέτων.
- Προσαρμοστική δρομολόγηση: Η λύση 920-9B110-00FH-0D0 InfiniBand switch OPN επέτρεψε δυναμική εξισορρόπηση φορτίου σε πολλαπλές διαδρομές, αποτρέποντας τον σχηματισμό σημείων συμφόρησης.
- Διαχείριση υφάσματος: Χρησιμοποιώντας το Subnet Manager (OpenSM) με τις 920-9B110-00FH-0D0 προδιαγραφές επιβεβαιώνοντας την υποστήριξη έως και 2.000 κόμβων σε ένα ενιαίο ύφασμα.
Πριν από την προμήθεια, οι μηχανικοί εξέτασαν το 920-9B110-00FH-0D0 datasheet για να επικυρώσουν τη συμβατότητα με τα υπάρχοντα οπτικά. Το 920-9B110-00FH-0D0 συμβατές οικοσύστημα περιλάμβανε όλες τις κύριες συναρμολογήσεις καλωδίων HDR, απλοποιώντας τον κατάλογο υλικών. Όσον αφορά τον προϋπολογισμό, η 920-9B110-00FH-0D0 τιμή αποδείχθηκε ανταγωνιστική έναντι εναλλακτικών διακοπτών HDR, και οι μονάδες ήταν άμεσα διαθέσιμες ( 920-9B110-00FH-0D0 προς πώληση) μέσω συνεργατών του καναλιού της NVIDIA.
Αποτελέσματα & Οφέλη: Μετρήσιμες Βελτιώσεις Απόδοσης
Η τηλεμετρία μετά την ανάπτυξη αποκάλυψε δραματικές βελτιώσεις σε τρεις βασικές μετρήσεις:
| Μέτρηση | Πριν (100GbE) | Μετά (920-9B110-00FH-0D0 HDR) | Βελτίωση |
|---|---|---|---|
| Μέση Καθυστέρηση All-Reduce (64 κόμβοι) | 340µs | 78µs | Μείωση 77% |
| Χρόνος αδράνειας GPU (επικεφαλίδα επικοινωνίας) | 38% | 11% | Απόλυτο κέρδος 27% |
| Αποτελεσματική χρήση εύρους ζώνης υφάσματος | 62% | 94% | +32% |
Πέρα από τους ακατέργαστους αριθμούς, το 920-9B110-00FH-0D0 InfiniBand switch OPN επέτρεψε στην ομάδα να επεκταθεί από 64 σε 256 κόμβους χωρίς επανασχεδιασμό του υφάσματος. Η ντετερμινιστική καθυστέρηση που παρέχεται από τον έλεγχο ροής βασισμένο σε πιστωτικές μονάδες του InfiniBand αποδείχθηκε απαραίτητη για τη διατήρηση της συνέπειας της εκπαίδευσης σε εκατοντάδες GPU. Οι μηχανικοί αξιοποίησαν επίσης την 920-9B110-00FH-0D0 ειδοποίηση συμφόρησης βασισμένη σε υλικό για τον εντοπισμό και την αποκατάσταση μικρο-εκρήξεων σε πραγματικό χρόνο.
Σύνοψη & Προοπτικές: Το Μέλλον των Διασυνδέσεων AI
Η ανάπτυξη επικυρώνει ότι ο NVIDIA Mellanox 920-9B110-00FH-0D0 λειτουργεί ως θεμελιώδες στοιχείο για τα clusters AI και HPC επόμενης γενιάς. Αντικαθιστώντας τα υφάσματα Ethernet με απώλειες με InfiniBand χωρίς απώλειες, οι οργανισμοί μπορούν να ανακτήσουν έως και το 30% της υπολογιστικής ισχύος των GPU που σπαταλάται προηγουμένως σε διακοπές επικοινωνίας. Για τους αρχιτέκτονες που σχεδιάζουν νέα υποδομή AI, το 920-9B110-00FH-0D0 datasheet παρέχει λεπτομερείς οδηγίες για τοπολογίες που κυμαίνονται από μικρά clusters DGX έως αναπτύξεις κλίμακας υπερυπολογιστών.
Καθώς οι φόρτοι εργασίας εξελίσσονται προς μεγαλύτερο παραλληλισμό μοντέλων και υψηλότερες πυκνότητες GPU, ο 920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDR προσφέρει μια σαφή διαδρομή αναβάθμισης σε μελλοντικά υφάσματα 400Gb/s μέσω του συμβατού προς τα πίσω σχεδιασμού του. Είτε αξιολογείται η 920-9B110-00FH-0D0 τιμή έναντι των κερδών λειτουργικής αποδοτικότητας είτε επαληθεύονται οι 920-9B110-00FH-0D0 συμβατές επιλογές καλωδίωσης, αυτός ο διακόπτης InfiniBand προσφέρει μετρήσιμη απόδοση επένδυσης (ROI) για οργανισμούς που βασίζονται σε δεδομένα.

