NVIDIA Mellanox MQM8790-HS2F Τεχνική λύση: Βελτιστοποίηση διασύνδεσης χαμηλής καθυστέρησης για ομάδες RDMA/HPC/AI
April 10, 2026
Αυτή η τεχνική λύση έχει σχεδιαστεί για αρχιτέκτονες δικτύων, μηχανικούς προ-πωλήσεων και επικεφαλής λειτουργιών. Παρέχει έναν ολοκληρωμένο οδηγό για την αρχιτεκτονική, την ανάπτυξη και τη λειτουργία δικτύων InfiniBand υψηλής απόδοσης με επίκεντρο το NVIDIA Mellanox MQM8790-HS2F, στοχεύοντας σε συστοιχίες HPC και AI training με έντονη χρήση RDMA.
Οι σύγχρονες συστοιχίες AI training και επιστημονικών υπολογιστών αντιμετωπίζουν όλο και περισσότερο τη διασύνδεση δικτύου ως το κύριο σημείο συμφόρησης της απόδοσης. Τα παραδοσιακά δίκτυα Ethernet δυσκολεύονται με τον έλεγχο συμφόρησης, την καθυστέρηση ουράς και τις δυνατότητες εκφόρτωσης CPU, αποτυγχάνοντας να καλύψουν τις απαιτήσεις των μοτίβων επικοινωνίας κατανεμημένης εκπαίδευσης, όπως το All-Reduce και το All-to-All. Οι βασικές απαιτήσεις περιλαμβάνουν:καθυστέρηση από άκρο σε άκρο κάτω από μικροδευτερόλεπτο,απώλεια μηδενική, μεταφορά χωρίς απώλειες,υποστήριξη GPU Direct RDMA, και η δυνατότητα γραμμικής κλιμάκωσης σε χιλιάδες κόμβους. Απαιτείται μια αποκλειστική αρχιτεκτονική μεταγωγής InfiniBand για την θεμελιώδη επίλυση αυτών των προκλήσεων αποδοτικότητας διασύνδεσης.
Αυτή η λύση συνιστά μια δίεπιπέδη τοπολογία Fat-Tree για την επίτευξη μη-μπλοκαρίσματος, πλήρους διατομικής εύρους ζώνης. Τόσο τα επίπεδα leaf όσο και τα επίπεδα spine χρησιμοποιούν τον μεταγωγέα InfiniBand MQM8790-HS2F, ο οποίος παρέχει 40 θύρες 200Gb/s HDR QSFP56. Χρησιμοποιώντας μια συστοιχία 512 κόμβων ως παράδειγμα, ο σχεδιασμός είναι ο εξής:
- Επίπεδο Leaf: Κάθε MQM8790-HS2F συνδέει 20 κόμβους υπολογιστών (διπλό uplink) και 8 uplinks στο επίπεδο spine.
- Επίπεδο Spine: 8 μεταγωγείς MQM8790-HS2F σχηματίζουν το επίπεδο spine, με πλήρη συνδεσιμότητα πλέγματος μεταξύ κάθε leaf και κάθε μεταγωγέα spine.
- Δίκτυο αποθήκευσης & διαχείρισης: Ένα ξεχωριστό υποδίκτυο InfiniBand ή Ethernet εκτός ζώνης για την αποφυγή παρεμβολών στην κίνηση υπολογιστών.
Αυτή η αρχιτεκτονική εγγυάται εύρος ζώνης 200Gb/s μεταξύ οποιωνδήποτε δύο κόμβων, με πολλαπλές πλεονάζουσες διαδρομές που διασφαλίζουν ότι ένα μοναδικό σημείο αστοχίας δεν επηρεάζει την παγκόσμια συνδεσιμότητα. Η υψηλή πυκνότητα θυρών του MQM8790-HS2F 200Gb/s HDR 40-port QSFP56 μειώνει τον αριθμό των απαιτούμενων μεταγωγέων κατά 50% σε σύγκριση με τις λύσεις EDR προηγούμενης γενιάς, ενώ μειώνει επίσης την πολυπλοκότητα του δικτύου.
Το NVIDIA Mellanox MQM8790-HS2F λειτουργεί ως η κεντρική μονάδα μεταγωγής σε αυτή τη λύση, εκπληρώνοντας τους ακόλουθους κρίσιμους ρόλους:
- Μηχανή μεταγωγής χωρίς απώλειες: Ο έλεγχος ροής σε επίπεδο σύνδεσης InfiniBand εξαλείφει την απώλεια πακέτων, διασφαλίζοντας την αποδοτικότητα της μεταφοράς RDMA.
- Προσαρμοστική δρομολόγηση: Εξισορροπεί δυναμικά την κίνηση σε πολλαπλές διαδρομές, αποφεύγοντας τα σημεία συμφόρησης και βελτιώνοντας την αποτελεσματική απόδοση.
- Υπολογισμός εντός δικτύου SHARPv3: Εκφορτώνει τις λειτουργίες μείωσης στον μεταγωγέα, επιταχύνοντας το All-Reduce κατά 2-3*.
- Υψηλή πυκνότητα & χαμηλή κατανάλωση ενέργειας: 40 θύρες στα 200Gb/s με κορυφαία στην βιομηχανία κατανάλωση ενέργειας ανά θύρα, μειώνοντας το TCO.
Σύμφωνα με το φύλλο δεδομένων MQM8790-HS2F και τις προδιαγραφές MQM8790-HS2F, ο μεταγωγέας παρέχει συνολική χωρητικότητα μεταγωγής 16Tb/s, καθυστέρηση από θύρα σε θύρα κάτω από 130ns και υποστηρίζει τροφοδοτικά και ανεμιστήρες που μπορούν να αντικατασταθούν εν λειτουργία για περιβάλλοντα παραγωγής 24/7. Επιπλέον, η συσκευή είναι πλήρως συμβατή με προσαρμογείς NVIDIA ConnectX-6/7 HDR και μια ευρεία γκάμα οπτικών/χάλκινων καλωδίων HDR, επικυρώνοντας την ωριμότητα του οικοσυστήματος MQM8790-HS2F συμβατό.
Ακολουθήστε αυτά τα βήματα κατά την ανάπτυξη της λύσης:
- Διαχείριση υποδικτύου: Αναπτύξτε ενεργούς-αναπληρωματικούς διαχειριστές υποδικτύου (SM). Η πλατφόρμα NVIDIA UFM συνιστάται για κεντρική διαχείριση και τηλεμετρία.
- Διαμερίσματα & επίπεδα υπηρεσιών: Χρησιμοποιήστε κλειδιά διαμερισμάτων (P_Key) για την απομόνωση ενοικιαστών ή φόρτων εργασίας. Ρυθμίστε αντιστοιχίσεις SL2VL για την προτεραιοποίηση της κίνησης AI training.
- Επιλογή καλωδίων: Χρησιμοποιήστε παθητικά χάλκινα καλώδια για μικρές αποστάσεις (≤3m) και ενεργά οπτικά καλώδια ή πομποδέκτες για μεγαλύτερες διαδρομές για τη διατήρηση της ακεραιότητας του σήματος.
Για μεγαλύτερες συστοιχίες που υπερβαίνουν τους 2.000 κόμβους, μπορεί να υιοθετηθεί μια τριεπιπέδη τοπολογία Fat-Tree ή Dragonfly+, με το κεντρικό επίπεδο να συνεχίζει να χρησιμοποιεί το MQM8790-HS2F ως δομικό στοιχείο. Κατά την προμήθεια επιπλέον μονάδων, ελέγξτε την τιμή MQM8790-HS2F και τη διαθεσιμότητα μέσω εξουσιοδοτημένων διανομέων. Επαληθευμένες καταχωρήσεις MQM8790-HS2F προς πώληση συνήθως περιλαμβάνουν το τελευταίο firmware και εγγύηση. Η λύση μεταγωγέα InfiniBand MQM8790-HS2F κλιμακώνεται ομαλά από την έρευνα AI τμημάτων έως κέντρα υπερυπολογιστών exascale.
Η αποτελεσματική λειτουργία του δικτύου InfiniBand απαιτεί προληπτική παρακολούθηση και πειθαρχική αντιμετώπιση προβλημάτων:
- Παρακολούθηση: Χρησιμοποιήστε το
ibnetdiscoverγια επαλήθευση τοπολογίας, τοperfqueryγια μετρητές θυρών και την τηλεμετρία UFM για ορατότητα συμφόρησης σε πραγματικό χρόνο. - Κοινά προβλήματα & επίλυση:
- Αστάθεια σύνδεσης: Επαληθεύστε την τοποθέτηση καλωδίων και εκτελέστε διαγνωστικούς ελέγχους καλωδίων. Αντικαταστήστε οπτικά στοιχεία που έχουν υποστεί βλάβη.
- Αποτυχία εναλλαγής διαχειριστή υποδικτύου: Βεβαιωθείτε ότι οι προτεραιότητες SM έχουν ρυθμιστεί σωστά και ότι ο δευτερεύων SM διαθέτει έγκυρη βάση δεδομένων.
- Άνιση προσαρμοστική δρομολόγηση: Προσαρμόστε τις παραμέτρους του αλγορίθμου δρομολόγησης (π.χ.,
routing_engine=ftree) και ενεργοποιήστε την κατανομή φορτίου.
- Συμβουλές βελτιστοποίησης: Ενεργοποιήστε τη συγκέντρωση SHARP για συλλογικές λειτουργίες. Ρυθμίστε το MTU σε 4096 bytes για μεταφορές μεγάλων μηνυμάτων. Χρησιμοποιήστε την Ποιότητα Υπηρεσιών για να διαχωρίσετε την κίνηση ελέγχου, δεδομένων και διαχείρισης.
Οι τακτικές αναβαθμίσεις firmware μέσω της πύλης υποστήριξης της NVIDIA διασφαλίζουν ενημερώσεις ασφαλείας και βελτιώσεις απόδοσης. Ανατρέξτε στο φύλλο δεδομένων MQM8790-HS2F για λεπτομερείς γραμμές βάσης απόδοσης και αναμενόμενες τιμές μετρητών υπό υγιείς συνθήκες.
Το NVIDIA Mellanox MQM8790-HS2F παρέχει μια μελλοντοστραφή πλατφόρμα μεταγωγής InfiniBand που αντιμετωπίζει τις βασικές προκλήσεις της διασύνδεσης συστοιχιών RDMA/HPC/AI: καθυστέρηση, απώλειες, επιβάρυνση CPU και κλιμάκωση. Εφαρμόζοντας την περιγραφόμενη δίεπιπέδη αρχιτεκτονική Fat-Tree, οι οργανισμοί μπορούν να επιτύχουν γραμμική κλιμάκωση απόδοσης, προβλέψιμους χρόνους ολοκλήρωσης εργασιών και σημαντικά μειωμένο TCO σε σύγκριση με παλαιότερες λύσεις Ethernet. Ο συνδυασμός ταχύτητας 200Gb/s HDR, πυκνότητας 40 θυρών και δυνατοτήτων υπολογισμού εντός δικτύου του μεταγωγέα τον καθιστά ιδανική επιλογή για νέες εγκαταστάσεις ή σταδιακές αναβαθμίσεις από δίκτυα EDR/HDR. Για ομάδες αρχιτεκτονικής που αξιολογούν συστοιχίες επόμενης γενιάς, η λύση μεταγωγέα InfiniBand MQM8790-HS2F προσφέρει ένα αποδεδειγμένο, έτοιμο για παραγωγή σχέδιο αναφοράς.

