NVIDIA Mellanox MCX556A-ECAT Τεχνική λύση: RDMA/RoCE για τη μεταφορά χαμηλής καθυστέρησης και βελτιστοποίηση της απόδοσης του διακομιστή

April 23, 2026

NVIDIA Mellanox MCX556A-ECAT Τεχνική λύση: RDMA/RoCE για τη μεταφορά χαμηλής καθυστέρησης και βελτιστοποίηση της απόδοσης του διακομιστή

Το παρόν τεχνικό white paper απευθύνεται σε αρχιτέκτονες δικτύων, μηχανικούς προ πωλήσεων και διευθυντές επιχειρήσεων.NVIDIA Mellanox MCX556A-ECATΤο σύστημα αυτό παρέχει ένα συστηματικό πλαίσιο για την κατασκευή δικτύων κέντρων δεδομένων υψηλής απόδοσης και χαμηλής καθυστέρησης χρησιμοποιώντας τεχνολογία RDMA και RoCE.

1. Προηγούμενο έργο & Ανάλυση απαιτήσεων

Τα σύγχρονα φορτία εργασίας κέντρων δεδομένων, συμπεριλαμβανομένης της κατανεμημένης αποθήκευσης (Ceph, Lustre), των βάσεων δεδομένων σε μνήμη (Redis, Aerospike) και των πλαισίων εκπαίδευσης τεχνητής νοημοσύνης, απαιτούν τόσο υψηλή απόδοση όσο και καθυστέρηση κάτω των χιλιοστών δευτερολέπτων.Οι παραδοσιακές στοίβες TCP/IP εισάγουν σημαντικά έξοδα CPUΟι βασικές απαιτήσεις για τις υποδομές επόμενης γενιάς περιλαμβάνουν:Αποφόρτιση της CPU (μείωση της χρήσης του επεξεργαστή υποδοχής)Η διαφορά μεταξύ των δύο προγραμμάτων είναι ιδιαίτερα σημαντική, δεδομένου ότι η διαφορά μεταξύ των προγραμμάτων και των προγραμμάτων είναι σημαντική.MCX556A-ECATΑπευθείας αντιμετωπίζει κάθε μία από αυτές τις απαιτήσεις.

2Συνολικό σχεδιασμό δικτύου και αρχιτεκτονικής συστήματος

Η συνιστώμενη αρχιτεκτονική υιοθετεί μια τοπολογία δύο επιπέδων φύλλου-σπονδυλικής στήλης με απώλεια Ethernet που έχει ρυθμιστεί για μεταφορά RoCE (RDMA πάνω από Converged Ethernet).Όλοι οι κόμβοι υπολογισμού και αποθήκευσης είναι εξοπλισμένοι με τοΠίνακας προσαρμογής Ethernet MCX556A-ECATΟι σπονδυλικοί διακόπτες συγκεντρώνουν την κυκλοφορία στο στρώμα φύλλου, παρέχοντας μη αποκλειστικό εύρος ζώνης πυρήνα.

  • Διαχωρισμός των επιπέδων ελέγχου και δεδομένων:Το RoCEv2 ενσωματώνει το RDMA στο UDP/IP, επιτρέποντας τη δρομολόγηση σε σύνορα στρώματος 3.
  • Ελέγχος προτεραιότητας ροής (PFC):Ενεργοποιεί τη συμπεριφορά χωρίς απώλειες για τις τάξεις κυκλοφορίας RDMA.
  • Ενισχυμένη επιλογή μετάδοσης (ETS):Εγγυάται εύρος ζώνης για ροές ευαίσθητες στη λήξη.
  • Ανακοίνωση συμφόρησης:Χρησιμοποίηση DCQCN (Data Center Quantized Congestion Notification) για τον έλεγχο ροής από άκρο σε άκρο.

Η αρχιτεκτονική υποστηρίζει τόσο γυμνά μεταλλικά όσο και εικονικά περιβάλλοντα, με το SR-IOV να παρέχει άμεση μετάβαση εικονικών λειτουργιών σε VM.

3Ο ρόλος του NVIDIA Mellanox MCX556A-ECAT και τα βασικά χαρακτηριστικά

ΩςMCX556A-ECAT ConnectX προσαρμογέα κάρτα δικτύου PCIeΟ μηχανισμός εκφόρτωσης που βασίζεται στο υλικό του παρακάμπτει τον πυρήνα, επιτρέποντας την άμεση μεταφορά δεδομένων από μνήμη σε μνήμη.

Ειδικότητα Οφέλη
Δύο θύρες 100GbE (μέχρι 200Gb/s συνολικά) Γραμμική κλίμακα απόδοσης για φορτία εργασίας που χρειάζονται μεγάλο εύρος ζώνης
RDMA με υποστήριξη RoCEv2 Υπομικροδευτερόλεπτο καθυστέρηση, μηδενικό αντίγραφο CPU
Επεξεργασία των συστημάτων Επιταχυνόμενη αποθήκευση και εκπαίδευση για την τεχνητή νοημοσύνη
Εργαλεία T10-DIF, IPsec, TLS Ακεραιότητα και ασφάλεια δεδομένων από άκρο σε άκρο
SR-IOV, επιτάχυνση VirtIO Σχεδόν εγγενής απόδοση σε εικονικά περιβάλλοντα

Για τις ομάδες που εξετάζουν τηνΠίνακας δεδομένων MCX556A-ECATκαιΕιδικότητες MCX556A-ECAT, σημειώστε ότι ο προσαρμογός υποστηρίζει τόσο το PCIe 3.0 όσο και το 4.0 (x16), εξασφαλίζοντας συμβατότητα προς τα πίσω με τους υπάρχοντες διακομιστές ενώ παράλληλα προσφέρει μια διαδρομή μετανάστευσης σε πλατφόρμες επόμενης γενιάς.

4Συστάσεις για την ανάπτυξη και την κλιμάκωση (τυπική τοπολογία)

Μια αναφορά ανάπτυξης για ένα μεσαίου μεγέθους σύμπλεγμα (έως 200 κόμβους) περιγράφεται κατωτέρω.MCX556A-ECATείναι εγκατεστημένο στην θέση PCIe κάθε διακομιστή, με διπλή σύνδεση θύρας για την επανεξάρτηση και τη συγκέντρωση εύρους ζώνης.

  • Φυσική τοπολογία:Δύο σπονδυλικοί διακόπτες, τέσσερις διακόπτες φύλλων. Κάθε φύλλο συνδέεται με όλα τα σπονδύλια (πλήρες πλέγμα). Κάθε διακομιστής συνδέεται με δύο φύλλα (ενεργός-ενεργός δεσμός).
  • Διαμόρφωση RoCE:Αφιερωμένο VLAN για κίνηση RoCE. Σημείωση QoS βασισμένη στο DSCP (π.χ. DSCP 46 για RDMA).
  • Διαχείριση αποθέματος ασφαλείας:Προσαρμόστε τα μπουφέρ χωρίς απώλεια κεφαλαίου ανά θύρα με βάση το χρόνο επιστροφής και την απόσταση σύνδεσης.
  • Διεύθυνση:Χρησιμοποιήστε στατικές αναθέσεις IP ή κρατήσεις DHCP για διεπαφές RDMA. Βεβαιωθείτε για jumbo frames (MTU 9000) από άκρο σε άκρο.

Σκέλωση πέραν των 200 κόμβων: εισαγωγή ενός στρώματος υπερ-σπονδυλικής στήλης και ανάπτυξη BGP-EVPN για επέκταση στρώματος 2 σε πολλαπλά pods.Συμβατό με MCX556A-ECATΗ αξιολόγηση της ποιότητας των υλικών και των καλωδίων από ειδικευμένους προμηθευτές (π.χ. Mellanox, FS.com).MCX556A-ECAT τιμήγια τις μεγάλες προμήθειες, να εξετάσει τη δέσμη τιμών με διακόπτες και οπτικά.

5Λειτουργίες, παρακολούθηση, αντιμετώπιση προβλημάτων και βελτιστοποίηση

Η αποτελεσματική λειτουργία ενός υφάσματος με βάση το RoCE απαιτεί προληπτική παρακολούθηση και εξειδικευμένα εργαλεία:

  • Παρακολούθηση των επιδόσεων:Χρήσηmlxlinkκαιεθόλιογια τις στατιστικές συνδέσμων (BER, σφάλματα FEC).Λύση κάρτας προσαρμογέα Ethernet MCX556A-ECATπεριλαμβάνει τηλεμετρία μέσω PCM (Performance Counters Monitor).
  • Ανίχνευση συμφόρησης:Παρακολουθήστε τα πακέτα με σήμα ECN και τα πλαίσια παύσης PFC χρησιμοποιώντας τηλεμετρία διακόπτη (π.χ. Mellanox SNMP MIBs).
  • Διαχείριση firmware και driver:Ενημερώστε τακτικά τις τελευταίες εκδόσεις από το NVIDIA OFED.Mstflintγια την επικύρωση firmware.
  • Κοινή αντιμετώπιση προβλημάτων:Για αποτυχίες σύνδεσης RDMA, επαληθεύστε τη συνέπεια MTU, τη συμμετοχή VLAN και τις αντιστοιχίσεις DSCP-CoS.ibdev2netdevκαιΔείξτε το σύνδεσμο του rdmaΓια να ελέγξετε την κατάσταση της συσκευής.
  • Συμβουλές βελτιστοποίησης:Ρυθμίστε τις παραμέτρους DCQCN (αλφα, βήτα, χρονοδιακόπτης αύξησης ρυθμού) με βάση το φόρτο εργασίας. Για φορτία εργασίας αποθήκευσης, αυξήστε το βάθος ουράς ολοκλήρωσης. Για εκπαίδευση τεχνητής νοημοσύνης, ενεργοποιήστε το GPUDirect RDMA και τη μνήμη πιν.

Για τον προγραμματισμό της ικανότητας, ανατρέξτε στοΠίνακας δεδομένων MCX556A-ECATΤο προσαρμογέα είναι ευρέως διαθέσιμο σε όλες τις θερμικές και ενεργειακές προδιαγραφές.MCX556A-ECAT προς πώλησημέσω εξουσιοδοτημένων διανομέων, συμπεριλαμβανομένων προγραμμάτων εφεδρικής αποθήκευσης.

6Συνοπτική & Αξιολόγηση

ΗMCX556A-ECATπαρέχει μετρήσιμη αξία σε τρεις διαστάσεις:επιδόσεις(έως και 90% μείωση της καθυστέρησης εφαρμογής, 4 φορές αύξηση της απόδοσης),αποδοτικότητα(70% εκφόρτωση του CPU, χαμηλότερη ισχύς ανά Gb/s) καισυνολικό κόστος ιδιοκτησίαςΟι οργανισμοί που εφαρμόζουν την τεχνολογίαNVIDIA Mellanox MCX556A-ECATΓια τα κέντρα δεδομένων επόμενης γενιάς που ενσωματώνουν AI, HPC ή αποθήκευση που καθορίζεται από λογισμικό,Αυτό το προσαρμογέα αντιπροσωπεύει μια αποδεδειγμένηΓια να ξεκινήσετε, ζητήστε έναΠίνακας δεδομένων MCX556A-ECATκαι να επικυρώσειΣυμβατό με MCX556A-ECATδιαμορφώσεις με τον προμηθευτή του διακόπτη σας.